首页 >  SEO >  SEO心得 >  正文

一文带你了解百度搜索引擎抓取收录的原理

 作者:潘某人SEO
524

作为一个seo从业者三句话不离收录,但是大家对于收录的原理真的了解吗,相信很多了解到的就是蜘蛛来抓取然后内容收录,但其实这种理解是比较片面的,了解搜索引擎的收录原理对于提升收录是非常有帮助的。
例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。今天潘某人SEO就以百度搜索引擎为例来简单的介绍下搜索引擎的抓取建库的原理。

抓取原理

spider抓取系统的基本流程,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
百度Spider抓取系统的基本框架
图片来源:百度搜索资源平台
如上图所示,是百度搜索引擎抓取系统的基本原理,从图中可以看出链接的发现和抓取形成一个循环,因此百度搜索引擎抓取系统又称为抓取环。

抓取建库流程

下面举一个例子来理解这个抓取环,当潘某人SEO的站点上线之后,我们将站点的首页提交给了搜索引擎,百度搜索引擎的爬取系统会受到爬取这个url的命令。
然后会对这一页面进行抓取,将抓取到的内容进行网页解析,这一过程会对内容根据算法进行解析,决定是否建库;同时还会对这页面的包含的所有url去重提取,并提交到搜索引擎的总链库。
总链库则是搜索引擎需要进行抓取链接的仓库,链接的来源可以是蜘蛛抓取内容的时候发现的链接,也可以是来源站点通过百度资源平台提交的链接。
链接选取系统,会根据算法选取出需要抓取的链接,交给爬取系统,周而复始,一直循环着,不断的抓取着互联网上的内容。
所以,站点如果内容要被抓取,那么必须保证站点的结构设计合理,蜘蛛在抓取内容的时候可以不断的获取到更多内容,合理的网站结构设计,可以提升搜索引擎的抓取效率,避免信息孤岛;对于一些无法靠抓取环被抓取的内容,就需要站点主动及时的提交给搜索引擎。

爬取与建库

经常会有人问为什么站点抓取是正常的但是就是一直不收录,相信很多站点都有这个困扰。首先我们先需要明确一点,搜索引擎蜘蛛抓取页面并不代表一定会对内容进行建库,也就是大家常说的收录。
在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,而最终是否入库是多种原因共同决定的,下面潘某人SEO就为你列举出主要的因素,主要是对用户的价值和链接重要程度两方面的因素。

对用户的价值

内容独特性:内容在搜索引擎上近似内容少,并且内容是有价值的信息,能够满足用户的搜索需求,提升用户体验。
主体突出:网页的主题应该明确且突出,避免因为内容不突出而被搜索引擎误判为空短页面或不进行抓取。一个主题明确的页面更容易被用户理解和接受,也更容易被搜索引擎识别和索引。
内容丰富性:除了独特性外,内容的丰富性也是非常重要的,页面的内容更加的全面可以为用户提供更多价值,也就更容易获得搜索引擎的认可。
广告适当性:网站的广告布局和比例需要满足百度搜索引擎用户体验的白皮书的要求,并且广告比例也少的站点的页面,在搜索引擎的评价会更高;尤其是对于一些新站潘某人SEO不建议在网页添加页面,广告应该要待站点有了一定权重之后适当添加,更为合适。

链接重要程度

目录层级——浅层优先:在判断链接重要程度时,百度Spider会遵循浅层优先的原则。所以站点如果没有足够多的内容支撑的时候,就不要开辟过多的栏目和目录。
链接站内受欢迎程度:除了目录层级外,链接在站内的受欢迎程度也是判断其重要程度的一个重要指标。如果一个页面被站点很多页面中添加为内链也更容易被搜索引擎抓取建库。
因此,重复内容的网页,在互联网上已有的内容,必然很难在被再收录。加载速度过慢的网页,也有可能被当作空短页面处理,网站加载速度非常关键,需要做到3秒以内,理想值是1.5秒内。

建库与索引

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。并且搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。
目前60%的检索需求只调用重要索引库即可满足,这也就是很多网站收录量很高,但是流量很一般,甚至收录少的站点反而流量更高。
因此,站长们要理想看待收录量,一味的追求收录量而忽视了内容的质量,就有点舍本逐末。一定要对内容进行把控,提升进入到重要索引库内容的占比是获得流量的关键。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seoxinde/1063yuanli
相关文章
  • seo标题写法及其重要性

    seo标题写法,重要性

    标题对于SEO优化起着一个什么样的作用呢,这是一个值得思考的问题。很多人认为一个好的标题对于排名有着很好的作用,但是个人不这么认为,标题的作用没有我们想象的那么重要!

    1442
    • seo标题写法
    • 重要性
  • 网站制作上线的基本流程

    网站制作,SEO优化

    网站制作上线的基本流程,从网站定位、网站程序选择、网站域名主机选择、网站SEO优化、内容填充几个方面来分析如何进行SEO化的网站搭建。

    887
    • 网站制作
    • SEO优化
  • 什么是抓取频率,如何提升抓取量

    抓取频率

    抓取频率对于SEO优化是一个重要的参数,网站收录先决条件是抓取,抓取的数量以及频次决定了网站的页面的收录速度,保持网站的合理抓取频次至关重要

    2726
    • 抓取频率
  • 被k网站的症状,恢复需要多久,如何操作呢?

    被k网站恢复,降权

    网站被K也是常有的事情,一夜之间前功尽弃的站点屡见不鲜,那么网站被K之后如何处理才能尽快的恢复,站点又如何预防K站的情况发生呢!

    787
    • 被k网站恢复
    • 降权
  • 百度内容发布时间的重要性

    快照时间,内容发布时间

    为什么搜索结果页的快照时间修改为了内容发布时间。内容发布时间对于网站的排名又有什么样的影响呢?网页内容的产生时间更精准的告知用户,降低用户选择成本,提升点击效率,同时也能够提升网站的转化率。

    1185
    • 快照时间
    • 内容发布时间
  • 百度站长平台的外链分析工具

    外链分析工具

    百度站长平台的外链分析工具解析,一个网站发外链最多有多少条有效?发布的外链哪些会进行投票加分?同页面两个外链会计算哪个外链进行投票?

    2393
    • 外链分析工具
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    4535
    • domain命令如何使用
    • 外链反链数如何查询
  • 巧用robots避免蜘蛛黑洞

    robots,蜘蛛黑洞

    今天我们来了解下什么是蜘蛛黑洞,黑洞大家应该有一定的了解,属于一种高质量高引力天体,包括光任何的物体都无法逃逸。蜘蛛黑洞既是蜘蛛进入之后无法再出来,对正常的抓取工作产生负面影响。

    1314
    • robots
    • 蜘蛛黑洞
  • 新站收录与老站收录的区别

    新站收录,老站收录,seo优化

    导致网站不收录的原因有很多,想要解决收录问题,那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了,对于老站和新站不收录的原因是有很大区别的。

    929
    • 新站收录
    • 老站收录
    • seo优化
  • 新站考核期存在吗?

    新站考核期,沙盒期

    百度搜索引擎存在新站考核沙盒期吗?​很多站长遇到新站优化迟迟没有效果,就把原因归咎于沙盒期,既搜索引擎对于新站有一段时间考核,也就导致网站这段时间不管怎么优化都不会有效果。

    1064
    • 新站考核期
    • 沙盒期
  • ChatGPT的诞生站长们害怕不

    ChatGPT,

    在ChatGPT爆火全球之后,很多人开始担心起了自己饭碗,擅长写bug抄代码的程序员的开始担心起了自己的饭碗。比起写代码ChatGPT的文案创造能力更强,那么SEO们是否对自己的未来产生了担忧呢。

    1652
    • ChatGPT
  • 如何申请增加百度资源平台提交配额

    api提交,sitemap,百度

    站点没有sitemap权限,api提交额度只有10条,如何申请增加提交配额的方法,如上图所示,是百度搜索资源平台官方提供的配额权限申请的问卷,站点可以通过填写站点信息,以及配额的情况的,对于符合要求的站点会在15个工作日内赋予相应的资源配额。

    1171
    • api提交
    • sitemap
    • 百度
  • 如何让关键词排名进入前20名

    主动访问用户,排名如何进入前20

    进入50名是一道坎,靠外链用户积累可以做到,但是关键词排名进入前20名,还是得靠主动访问用户占比的提高,也就用内容抓住用户,提高用户的忠诚度,二次访问。

    1753
    • 主动访问用户
    • 排名如何进入前20
  • 新站不收录的原因

    新站不收录

    网站收录的重要性不言而喻,对于SEO优化来说,能够获得稳定的收录增长是最基本的。那么是哪些因素导致新站不收录呢?

    1026
    • 新站不收录
  • SEO外包靠谱吗?

    SEO外包

    SEO外包靠谱吗?你会选择外包吗?你觉得会有效果吗?为什么大多数站点SEO优化最终失败了?

    744
    • SEO外包
  • SEO优化之外链

    外链优化,绿萝算法

    SEO外链优化,买卖链接不可取,迟早要被打击,目光放远的,多提升站点内容质量,外链在于精,不在于多。切记不要舍本逐末。

    1683
    • 外链优化
    • 绿萝算法
  • 网站seo必须要写原创么

    SEO需要原创

    对于网站SEO优化,内容必须原创吗?对于非原创的内容就不适合去做SEO优化吗?但是作为一个优秀的SEO不能单单这么简单的考虑问题,SEO优化是一个灵活的工作,对于任何一个问题都没有一个标准的答案。

    1032
    • SEO需要原创
  • seo需要掌握的技术技能

    seo需要掌握的技术

    从事SEO工作的人员,个人能力不尽相同。有的可能是程序员转行过来,更多的更像是编辑人员。对于SEO优化来说最终的成功更取决于对于网站内容布局的长期规划,并不是说懂点技术,或者会写点文章就可以把SEO做的很好。那么对于SEO 来说我们需要掌握哪些技能呢?

    937
    • seo需要掌握的技术
-- 这已经是底线了,看看别的把! --