首页 >  SEO >  SEO知识 >  正文

百度spider 主要抓取策略类型

381

spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。
但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性

互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。
通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

2、常用抓取返回码示意

简单介绍几种百度支持的返回码:
1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

抓取策略类型

3、多种url重定向的识别

互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配

由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。

5、重复url的过滤

spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

6、暗网数据的获取

互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seozhishi/1057spider
相关文章
  • 事关转化,网站设计优化必须遵循的希克定律!

    希克定律,网站设计

    你知道吗,其实站点很多的流量都因为你不了解希克定律而流失了,不管你是通过SEO途径还是SEM等其它途径。很多时候最终是否能转化还是取决于站点给用户的感受。希克定律一个心理学上定律,是如何关联到网站的用户体验的。希克定律(Hick's Law)揭示了决策时间与选项数量之间的关系。

    135
    • 希克定律
    • 网站设计
  • 如何正确看待SEO与SEM之间的关系

    SEO,SEM

    ​不管你是SEO还是SEM都进来看看,正确认知下对方对于自身的意义。SEO和SEM合起来就可以基本覆盖搜索引擎的所有的流量入口,两者并不是对立而是相辅相承的关系。

    572
    • SEO
    • SEM
  • 如何合理设置展开全文功能

    SEO展开全文功能

    在SEO优化中,如何合理设置展开全文功能呢?根据百度移动白皮书5.0总结一下几点:要有明确的文字指示说明、展开全文按钮与其他内容模块需设置间隔、展开全文不能出现在首屏、全文中展开全文功能只有出现一次

    2340
    • SEO展开全文功能
  • 新站收录与老站收录的区别

    新站收录,老站收录,seo优化

    导致网站不收录的原因有很多,想要解决收录问题,那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了,对于老站和新站不收录的原因是有很大区别的。

    931
    • 新站收录
    • 老站收录
    • seo优化
  • 网站备案的注意事项,减少SEO的影响

    网站备案注意事项,备案SEO影响

    网站备案有的时候是需要关停网站的,这种情况非常不利于SEO优化,我们应该如何应对。同时在网站备案哪些方面需要我们注意,如果快速的完成备案。

    1669
    • 网站备案注意事项
    • 备案SEO影响
  • 如何定制百度索引量查看规则

    百度索引规则

    可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:

    1829
    • 百度索引规则
  • 如何利用百度站长工具做seo关键词排名?

    seo关键词排名优化

    为什么选择SEO这条路,因为在多年前,我们见证了许许多多的SEO神话,各种各样一夜暴富的神人,那是SEO飞速发展的时代,但为什么近几年这样的神话越来越少呢?

    1749
    • seo关键词排名优化
  • 移动网站建设常见问题

    移动网站建设常见问题

    移动站点变得越来越重要,那么我们应该如何做好移动站呢。移动站点和PC站点相辅相成,都是一个互为补充的关系,少了任何一个都是不合理的,那么在移动站点的优化中常见的问题有哪些呢?

    1563
    • 移动网站建设常见问题
  • 抓取角度分析百度不收录原因

    百度收录,蜘蛛抓取

    网站不收录的原因有很多,今天从蜘蛛抓取角度分析下造成不收录的原因有哪些,我们以百度搜索引擎为例来进行分析。

    1346
    • 百度收录
    • 蜘蛛抓取
  • 百度死链提交工具使用说明

    百度死链提交

    百度死链提交工具使用说明,当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。

    6251
    • 百度死链提交
  • 爬行、抓取、索引、收录的区别

    爬行,抓取,索引,收录

    收录对于站长来说是在熟悉不过的了,但是很多人对于收录还是存在一些理解上的偏差,要正确的理解收录,那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知,对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录,是搜索引擎的收录内容的一个流程。

    1780
    • 爬行
    • 抓取
    • 索引
    • 收录
  • 仿站相似站会对SEO有影响吗

    仿站SEO

    仿站或者类似结构站点会对SEO有影响吗?如何去搭建网站才能更加利于站点的seo优化呢?仿站对于网站优化的利弊有哪些呢?

    572
    • 仿站SEO
  • seo页面优化的常用技术

    seo页面优化的

    seo页面优化的常用技术,从核心关键词分析定位、网站目录和页面优化、标签优化技巧、利用好百度搜索资源平台、提高页面的附加价值、访客到客户的转化工作几个角度来讲下SEO页面优化的常用技术。

    1250
    • seo页面优化的
  • 网站百度快照被劫持如何快速恢复

    快照劫持解决

    当前查看网站收录或关键词排名的时候,发现自己的网站百度快照收录的标题和描述与实际标题不一样,这是由于你的网站百度快照被劫持了!网站百度快照被劫持如何快速恢复

    1164
    • 快照劫持解决
  • 用户喜欢的内容的样子,你知道吗

    SEO优化,用户喜欢的内容

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    840
    • SEO优化
    • 用户喜欢的内容
  • 收录和索引别搞混了!

    收录,索引

    ​我敢说很多人连收录和索引都会搞错,当你觉得这么简单的怎么可能错的时候,搞不好你就是其中之一,今天就你了解下收录和索引的区别,各个搜索引擎大同小异,以百度搜索引擎为例。

    934
    • 收录
    • 索引
  • 聚合标签对seo优化的作用

    seo聚合标签

    聚合标签这个词大家可能比较陌生,即使是SEO们也有很多人是没有听说过,聚合标签我们也可以认为是tag标签,那么这类聚合标签对于SEO优化的作用大不大呢?

    1775
    • seo聚合标签
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    2393
    • PC站和移动站如何做适配
-- 这已经是底线了,看看别的把! --