首页 > SEO > SEO知识 > 正文

SEO如何屏蔽蜘蛛抓取，你掌握了哪些多少种！

发布于：2024-11-06 08:22:48

作者：潘某人SEO

在SEO优化中有很多情况需要对蜘蛛进行屏蔽，那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案，以及结合实践采用正确的方法来屏蔽蜘蛛。合理的对蜘蛛进行屏蔽可以避免重复内容、不适宜展示的等内容的抓取，可以提供搜索引擎蜘蛛的抓取效率。

常见的蜘蛛屏蔽方法

robots.txt文件： 在网站的根目录下创建或编辑robots.txt文件，明确告诉搜索引擎爬虫哪些目录或页面是不允许访问的。
robots.txt文件是网站与搜索引擎爬虫之间的一种通信协议，它告诉搜索引擎爬虫哪些目录或页面是可以访问的，哪些是不可以访问的；也可以对不同的蜘蛛进行不抓取范围的限制。这个文件通常位于网站的根目录下，并且可以通过在浏览器的地址栏中输入“网站域名/robots.txt”来访问。
百度robots
对于百度搜索引擎，在配置robots文件之后，在百度资源后台如上图所示，点击检测更新，可以加快生效，并且可以测试访问来验证配置是否编写正确。
若站点不配置robots.txt文件，意味着网站没有任何的抓取限制，任何的蜘蛛可以对站点的任何可以访问的资源进行抓取。但是建议所有站点进行此配置，不仅仅是基于SEO优化，也是对于站点数据的保护，是对于爬虫使用者进行法律责任追溯的依据。如果发现爬虫行为侵犯了网站的合法权益，网站管理员可以通过法律途径进行维权。

使用meta标签屏蔽

<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, follow">

1
2
3
4

meta标签通常用于定义页面的元数据，但也可以在某些情况下用于告诉搜索引擎不要索引和跟随特定页面，可以有上面4种组合结果。
noindex： 指示搜索引擎不要将当前页面的内容添加到其索引中。这意味着，即使搜索引擎爬虫访问了这个页面，该页面的内容也不会在搜索结果中显示。然而，这并不影响搜索引擎抓取和解析页面上的其他内容（如链接）。
index： 这个指令告诉搜索引擎可以将当前页面的内容添加到其索引中。这意味着，如果搜索引擎爬虫访问了这个页面，并且该页面符合搜索引擎的抓取和索引标准，那么该页面的内容可能会在搜索结果中显示。
nofollow： 这个指令指示搜索引擎爬虫不要跟踪当前页面上的任何出站链接。也就是说，即使爬虫访问了这个页面，它也不会进一步访问这些链接指向的其他页面，也不会将这些页面添加到其索引中（除非这些页面通过其他方式被发现和索引）。
follow： 指示搜索引擎爬虫应该继续跟踪当前页面上的所有链接，并访问这些链接指向的其他页面。即使当前页面本身不被索引，其上的链接仍然可以被爬虫发现，并可能导致这些链接指向的页面被索引。
name=“robots” 指定了这个元标签是为搜索引擎爬虫（robots）提供的指令。如果要针对某个搜索引擎蜘蛛进行屏蔽，修改为对应搜索引擎蜘蛛的名称即可。

使用服务器配置

如果发现提交了robots之后还是存在抓取的情况，可以使用以下的方法进行屏蔽。站点可以通过服务器配置，来进行访问屏蔽。
对于使用Nginx服务器的网站，可以在Nginx的配置文件中添加特定的指令来禁止特定的爬虫访问，不防小人，伪造客户端ua可绕过。例如，以下配置将禁止名为spider（包含关系）的爬虫访问网站的panmourenseo目录：

location /panmourenseo/ {  
    if ($http_user_agent ~* "spider") {  
        return 403;  # 对蜘蛛返回 403 Forbidden  
    }  
}

1
2
3
4
5

后端屏蔽抓取

在网站的后端脚本中，可以通过检查HTTP请求中的User-Agent字段来识别并禁止特定的爬虫访问。原理与上述通过服务器屏蔽的原理一致，都是基于客户端的ua来实现。但是后端屏蔽可以具有更高的灵活性。

采用何种方式屏蔽蜘蛛

对于大多数的站点只需要使用第一种robots.txt文件的方法就可以了，但是如果发现一些不该收录的内容存在收录的情况，和结合其它几种方法共同使用。
划重点对于一些已经收录的内容，在使用robots.txt文件的方案进行屏蔽，你会发现过了一段时间之后收录依旧没有被删除，这是因为生效周期比较长。在一些特殊情况下就可以采用服务器配置来屏蔽蜘蛛的访问，然后对这些内容提交死链，可以更快速的进行收录的删除。

如何识别百度蜘蛛
如何识别百度蜘蛛，百度蜘蛛对于站长来说可谓上宾，可是我们曾经遇到站长这样提问：我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的？
2020-03-22 1269
- 百度蜘蛛辨别
搜索引擎蜘蛛爬虫名大全
对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键，掌握各大搜索引擎蜘蛛爬虫，对我们开展网站SEO优化具有挺大作用；作者搜集了各大搜索引擎的蜘蛛爬虫UA，便于你需要时查看。
2020-03-25 1902
- 搜索蜘蛛大全
百度搜索引擎蜘蛛喜欢什么样的网站结构
百度搜索引擎蜘蛛喜欢什么样的网站结构？希望能在百度获得好的排名、更多优质低价的流量，这个前提就是网站得有好的结构，百度蜘蛛才能顺利、快速的抓取，也就是说网站结构是关键词排名、链接优化、内容优化的前提。
2020-06-10 1497
- seo网站结构
真假蜘蛛ip识别
我们如何分辨真假蜘蛛的ip，对于SEO优化来说学会如何看网站日志，如何的去分辨有问题的假蜘蛛是非常有必要的。可以大大的提高网站的安全性，已经防止网站内容被大量的抄袭转载。
2020-10-22 1139
- 真假蜘蛛识别
如何鉴别真假蜘蛛，代码自动化
如何使用代码自动化的识别蜘蛛的真实性，防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。
2021-04-25 1371
- 蜘蛛鉴别
- 假爬虫屏蔽
如何防止假蜘蛛抓取内容
如何让网站自动识别蜘蛛的真假，如何自动的屏蔽假蜘蛛抓取网站内容，从而更好的保护网站的原创内容呢？
2021-05-06 1835
- 假蜘蛛
- 防采集
- 原创保护
巧用robots避免蜘蛛黑洞
今天我们来了解下什么是蜘蛛黑洞，黑洞大家应该有一定的了解，属于一种高质量高引力天体，包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来，对正常的抓取工作产生负面影响。
2021-06-16 1314
- robots
- 蜘蛛黑洞
百度蜘蛛有权重之分吗?
百度搜索学院线上公开课第六讲——网站抓取建设指南，在这个百度官方的直播课程回放中，最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。
2021-07-29 1983
- 百度蜘蛛
- 权重
各搜索引擎蜘蛛IP大全持续更新
各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。
2022-06-13 2546
- 蜘蛛IP
- 引擎蜘蛛
巧用Robots避免蜘蛛黑洞
搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url，导致搜索引擎蜘蛛一直被困在无限的循环中，如黑洞一般。直接的结果就会导致消耗大量的抓取资源。
2023-02-12 734
- Robots
- 蜘蛛黑洞
百度快照与权重的关系
百度快照与权重的关系，事实上百度快照并不能反映出搜索引擎蜘蛛抓取网站数据的时间，更不能决定页面的权重。所以大家不必过度的关注百度快照
2019-08-29 1408
- 权重
- 百度快照
如何让搜索引擎识别页面是PC还是移动端
如何让搜索引擎识别页面是PC还是移动端，让蜘蛛有效的识别页面类型，可以使得抓取更有效率，同时给用户在不同设备访问时，给到正确的对应页面，提升用户体验。
2020-03-13 2890
- SEO页面类型识别
百度抓取频率高代表什么，如何调整
百度蜘蛛抓取频次是根据网站的内容量来的，简单的来说，如果网站的内容多那么抓取频次就高；如果网站的内容少，那么百度抓取的频次就低。百度抓取频率高代表什么，如何调整？
2020-03-25 3305
- 抓取频率调整
如何充分利用抓取频次
现在，我们已经想知道了，爬行很重要，是不是花费更多的时间来管理抓取频次？您应该（或不应该）做很多事情来让搜索蜘蛛更多地消耗更多的网站页面，以下是最大化抓取频次功能的操作列方法：如何充分利用抓取频次？
2020-06-03 2391
- 如何充分利用抓取频次
百度搜索无法提交链接怎么解决？
近期大家应该发现了百度搜索资源平台的大多数的站点api提交额度基本都将为的10条，并且无法提交sitemap，为什么会出现这种情况，又应该如何解决链接提交的问题呢？
2023-11-06 1361
- 百度搜索
- seo
- 链接提交
外贸站多语言站点必做的操作，hreflang标签守护你的seo
对于外贸站点，多语言支持，是拓展国际市场的标配。然而，当同一内容以不同语言呈现时，搜索引擎可能误判为重复页面，导致权重分散甚至降权。hreflang标签作为SEO领域的"语言护照"，能有效解决这一难题。今天潘某人SEO就来分享下多语言站点如何通过hreflang标签，有效的避免被搜索引擎判定为重复页面，导致权重分散的问题。
2025-03-20 68
- hreflang
- 多语言站点
seo网站排名优化常见的误区
很多站点优化的时候对于网站收录量、流量以及外链的相关知识的了解很片面。导致了优化方向中出现了严重的偏插。
2021-03-23 1068
- seo优化误区
- 索引量
- 外链
抓取角度分析百度不收录原因
网站不收录的原因有很多，今天从蜘蛛抓取角度分析下造成不收录的原因有哪些，我们以百度搜索引擎为例来进行分析。
2021-06-21 1344
- 百度收录
- 蜘蛛抓取

-- 这已经是底线了,看看别的把！ --

常见的蜘蛛屏蔽方法

使用meta标签屏蔽

使用服务器配置

后端屏蔽抓取

采用何种方式屏蔽蜘蛛

如何识别百度蜘蛛

搜索引擎蜘蛛爬虫名大全

百度搜索引擎蜘蛛喜欢什么样的网站结构

真假蜘蛛ip识别

如何鉴别真假蜘蛛，代码自动化

如何防止假蜘蛛抓取内容

巧用robots避免蜘蛛黑洞

百度蜘蛛有权重之分吗?

各搜索引擎蜘蛛IP大全持续更新

巧用Robots避免蜘蛛黑洞

百度快照与权重的关系

如何让搜索引擎识别页面是PC还是移动端

百度抓取频率高代表什么，如何调整

如何充分利用抓取频次

百度搜索无法提交链接怎么解决？

外贸站多语言站点必做的操作，hreflang标签守护你的seo

seo网站排名优化常见的误区

抓取角度分析百度不收录原因