网站优化收录是我们每天关注的,但是你是否知道收录的流程呢?了解网页是如何被收录的,把收录的流程了解清楚对于优化工作是有很大的意义的。其实大家口中所说的收录准确来说应该是索引,索引和收录的区别简而言之,就是搜索引擎蜘蛛抓取了链接即为收录,然后经过算法处理建立索引,这个时候便可以在搜索引擎上搜索到结果,也就是我们常说的收录,所以准确的说应该称之为索引。
不管是什么搜索引擎,大致的原理都是一样的,整个收录过程大致可以分为三步,分别是抓取、识别、释放。而且一切的基础都是依托于搜索引擎蜘蛛的。蜘蛛在整个搜索引擎中是先头部队,负责去与各站点的服务器建立接连,抓取下载网页上的文字、图片、视频等内容。
爬行与抓取
抓取也就是上面讲到的收录,搜索引擎蜘蛛抓取到网页链接。我以百度搜索引擎为例,百度蜘蛛抓取链接的主要方式途径有,站点的链接推送、互联网上的外链。蜘蛛会抓取网页上的文字以及代码,生成一份快照保存在搜索引擎服务器。对于已经收录的链接,那么会根据算法决定是否去重新抓取,或者直接略过抓取。
识别
对于抓取来的数据,会进行文字提取、分词、语义分析等一系列复杂的过程,结合搜索需求等因素,决定当前页面适合符合建立搜索引的调价。这也是一个关键的环节,是为什么有的站点内容会被抓取,但是一个无法被收录。绝大部分就是在这个环节因为内容不达标,而不被建立索引库,那么后续的展现就无缘了。
释放展现
对于满足条件的页面会建立搜索引库,在需要的时候进行释放。此时用户通过在搜索引数据搜索关键词,那么相关联的索引结果就会呈现给用户。结合页面与关键词的相关性以及站点的整体质量来决定显示的排名位置。
并且搜索引擎会根据用户浏览搜索结果时的行为反馈,来对于关键词的排名位置进行一个调整。
索引删除
我们有的时候会发展已经收录的内容,过段时间之后又被取消收录了。这个其实是一种很正常的现象,搜索引擎会根据最近的搜索需求,来删除过时没加价值的索引;同时也会放出更有价值的内容。
索引量下降20%甚至更多都是正常的,站点只需要关注流量的变化,不要过度关注搜索引量的变化,大家对于索引量要有正确的认识。当然如果索引量对半的掉同时流量展现都收到影响,那么就需要警惕重视,是否存在违规行为被打击。