很多站长认为百度蜘蛛是由权重之分的,并且还神叨叨的统计分了除了一定的规律比如那些IP段蜘蛛抓取之后多久来收录,那些IP段来抓取说明网站进入沙盒期,有些IP段蜘蛛来访说明网站的权重很高,内容会秒收。
百度蜘蛛不存在权重之分
百度蜘蛛又称抓取器,是百度搜索引擎用于抓取内容爬虫,由于海量网站的存在,需要同时完成大量站点的抓取就需要大量的服务器,因此各大搜索引擎一般都会有几大IP段用于抓取。
百度蜘蛛的作用
百度蜘蛛只是用于抓取内容,及时发现网站的内容,网站的评级会觉得百度蜘蛛来的频率,以及数量。但是仅仅是停留于内容的抓取,最终排名是要经过算法对数据处理来决定是否收录以及它的展现排名。
百度蜘蛛的IP段
现在只要的ip段有两个220.181.108.*和116.179.37.*,很多站点总结出来的就是前者是高权重站点常来的ip短,而普通站点来的是后面一个IP段。
IP段权重之分的悖论
首先很多站点几个IP端都会来,那么如果百度蜘蛛IP段有权重之分,那么为什么站点会来两种权重的IP段呢?这个不就是多此一举吗?
对于百度蜘蛛内容的抓取分为两部分,一部分是新内容的抓取,还有一部分就是定期抓取已收录的内容抓取来及时响应网站内容的更新。网站新内容和就内容的更新内容的比例不同,那么这两部分的抓取频率也会不同于其他站点,也许某些IP端是负责新内容抓取,有些IP段是负责就内容的更新,这点还有进行实验验证。
百度蜘蛛无权重之分
一个关键的细节,大家可以看下这个两个IP段,前一个IP段是属于电信线路、后面一个IP端是属于联通线路;很多站点的服务器并不是多线的,这个时候如果出现跨运营商去抓取就会出现延迟高不稳定等因素。这一点在百度蜘蛛为什么要分IP段上解释更加的合理。
如果至此你还在坚持百度蜘蛛有权重之分,那么可以看一下百度搜索学院线上公开课第六讲——网站抓取建设指南,在这个百度官方的直播课程回放中,最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。