首页 >  SEO >  SEO知识 >  正文

SEO如何屏蔽蜘蛛抓取,你掌握了哪些多少种!

 作者:潘某人SEO
148

在SEO优化中有很多情况需要对蜘蛛进行屏蔽,那么作为一个SEO就必须知道屏蔽搜索引擎蜘蛛的常见方案,以及结合实践采用正确的方法来屏蔽蜘蛛。合理的对蜘蛛进行屏蔽可以避免重复内容、不适宜展示的等内容的抓取,可以提供搜索引擎蜘蛛的抓取效率。

常见的蜘蛛屏蔽方法

robots.txt文件: 在网站的根目录下创建或编辑robots.txt文件,明确告诉搜索引擎爬虫哪些目录或页面是不允许访问的。
robots.txt文件是网站与搜索引擎爬虫之间的一种通信协议,它告诉搜索引擎爬虫哪些目录或页面是可以访问的,哪些是不可以访问的;也可以对不同的蜘蛛进行不抓取范围的限制。这个文件通常位于网站的根目录下,并且可以通过在浏览器的地址栏中输入“网站域名/robots.txt”来访问。
百度robots
对于百度搜索引擎,在配置robots文件之后,在百度资源后台如上图所示,点击检测更新,可以加快生效,并且可以测试访问来验证配置是否编写正确。
若站点不配置robots.txt文件,意味着网站没有任何的抓取限制,任何的蜘蛛可以对站点的任何可以访问的资源进行抓取。但是建议所有站点进行此配置,不仅仅是基于SEO优化,也是对于站点数据的保护,是对于爬虫使用者进行法律责任追溯的依据。如果发现爬虫行为侵犯了网站的合法权益,网站管理员可以通过法律途径进行维权。

使用meta标签屏蔽

<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, follow">
1
2
3
4

meta标签通常用于定义页面的元数据,但也可以在某些情况下用于告诉搜索引擎不要索引和跟随特定页面,可以有上面4种组合结果。
noindex: 指示搜索引擎不要将当前页面的内容添加到其索引中。这意味着,即使搜索引擎爬虫访问了这个页面,该页面的内容也不会在搜索结果中显示。然而,这并不影响搜索引擎抓取和解析页面上的其他内容(如链接)。
index: 这个指令告诉搜索引擎可以将当前页面的内容添加到其索引中。这意味着,如果搜索引擎爬虫访问了这个页面,并且该页面符合搜索引擎的抓取和索引标准,那么该页面的内容可能会在搜索结果中显示。
nofollow: 这个指令指示搜索引擎爬虫不要跟踪当前页面上的任何出站链接。也就是说,即使爬虫访问了这个页面,它也不会进一步访问这些链接指向的其他页面,也不会将这些页面添加到其索引中(除非这些页面通过其他方式被发现和索引)。
follow: 指示搜索引擎爬虫应该继续跟踪当前页面上的所有链接,并访问这些链接指向的其他页面。即使当前页面本身不被索引,其上的链接仍然可以被爬虫发现,并可能导致这些链接指向的页面被索引。
name=“robots” 指定了这个元标签是为搜索引擎爬虫(robots)提供的指令。如果要针对某个搜索引擎蜘蛛进行屏蔽,修改为对应搜索引擎蜘蛛的名称即可。

使用服务器配置

如果发现提交了robots之后还是存在抓取的情况,可以使用以下的方法进行屏蔽。站点可以通过服务器配置,来进行访问屏蔽。
对于使用Nginx服务器的网站,可以在Nginx的配置文件中添加特定的指令来禁止特定的爬虫访问,不防小人,伪造客户端ua可绕过。例如,以下配置将禁止名为spider(包含关系)的爬虫访问网站的panmourenseo目录:

location /panmourenseo/ {  
    if ($http_user_agent ~* "spider") {  
        return 403;  # 对蜘蛛返回 403 Forbidden  
    }  
}
1
2
3
4
5

后端屏蔽抓取

在网站的后端脚本中,可以通过检查HTTP请求中的User-Agent字段来识别并禁止特定的爬虫访问。原理与上述通过服务器屏蔽的原理一致,都是基于客户端的ua来实现。但是后端屏蔽可以具有更高的灵活性。

采用何种方式屏蔽蜘蛛

对于大多数的站点只需要使用第一种robots.txt文件的方法就可以了,但是如果发现一些不该收录的内容存在收录的情况,和结合其它几种方法共同使用。
划重点对于一些已经收录的内容,在使用robots.txt文件的方案进行屏蔽,你会发现过了一段时间之后收录依旧没有被删除,这是因为生效周期比较长。在一些特殊情况下就可以采用服务器配置来屏蔽蜘蛛的访问,然后对这些内容提交死链,可以更快速的进行收录的删除。

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/1074zhizhu
相关文章
  • 如何识别百度蜘蛛

    百度蜘蛛辨别

    如何识别百度蜘蛛,百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?

    1179
    • 百度蜘蛛辨别
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    1790
    • 搜索蜘蛛大全
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    1399
    • seo网站结构
  • 真假蜘蛛ip识别

    真假蜘蛛识别

    我们如何分辨真假蜘蛛的ip,对于SEO优化来说学会如何看网站日志,如何的去分辨有问题的假蜘蛛是非常有必要的。可以大大的提高网站的安全性,已经防止网站内容被大量的抄袭转载。

    1037
    • 真假蜘蛛识别
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    1244
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 如何防止假蜘蛛抓取内容

    假蜘蛛,防采集,原创保护

    如何让网站自动识别蜘蛛的真假,如何自动的屏蔽假蜘蛛抓取网站内容,从而更好的保护网站的原创内容呢?

    1634
    • 假蜘蛛
    • 防采集
    • 原创保护
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    1188
    • robots
    • 蜘蛛黑洞
  • 百度蜘蛛有权重之分吗?

    百度蜘蛛,权重

    百度搜索学院线上公开课第六讲——网站抓取建设指南,在这个百度官方的直播课程回放中,最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。

    1799
    • 百度蜘蛛
    • 权重
  • 各搜索引擎蜘蛛IP大全持续更新

    蜘蛛IP,引擎蜘蛛

    各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。

    2236
    • 蜘蛛IP
    • 引擎蜘蛛
  • 巧用Robots避免蜘蛛黑洞

    Robots,蜘蛛黑洞

    搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

    624
    • Robots
    • 蜘蛛黑洞
  • 百度快照与权重的关系

    权重,百度快照

    百度快照与权重的关系,事实上百度快照并不能反映出搜索引擎蜘蛛抓取网站数据的时间,更不能决定页面的权重。所以大家不必过度的关注百度快照

    1311
    • 权重
    • 百度快照
  • 如何让搜索引擎识别页面是PC还是移动端

    SEO页面类型识别

    如何让搜索引擎识别页面是PC还是移动端,让蜘蛛有效的识别页面类型,可以使得抓取更有效率,同时给用户在不同设备访问时,给到正确的对应页面,提升用户体验。

    2787
    • SEO页面类型识别
  • 百度抓取频率高代表什么,如何调整

    抓取频率调整

    百度蜘蛛抓取频次是根据网站的内容量来的,简单的来说,如果网站的内容多那么抓取频次就高;如果网站的内容少,那么百度抓取的频次就低。百度抓取频率高代表什么,如何调整?

    3118
    • 抓取频率调整
  • 如何充分利用抓取频次

    如何充分利用抓取频次

    现在,我们已经想知道了,爬行很重要,是不是花费更多的时间来管理抓取频次?您应该(或不应该)做很多事情来让搜索蜘蛛更多地消耗更多的网站页面,以下是最大化抓取频次功能的操作列方法:如何充分利用抓取频次?

    2277
    • 如何充分利用抓取频次
  • 百度惊雷算法3.0解读

    惊雷算法,百度算法

    百度惊雷算法3.0解读,对违规行为较严重的领域(如:汽车、下载、招聘、B2B、网站SEO等)进行了针对性的打击。

    1533
    • 惊雷算法
    • 百度算法
  • 如何正确的利用tag页面提升seo效果

    tag页面,seo效果

    tag标签聚合页面对于seo优化起到什么作用,如何操作才能获取最大的效果。tag页面生成规范应该注意哪些方面呢?

    801
    • tag页面
    • seo效果
  • 域名变更对于seo排名的影响

    域名变更,seo排名

    站点在实际运营的过程中,偶尔会因为一些因素需要变更网站的域名的情况,大家都知道网站的一次改版,都可能会对seo产生严重的影响,何况是网站域名的变更,对于seo优化的影响就不言而喻了。

    478
    • 域名变更
    • seo排名
-- 这已经是底线了,看看别的把! --