相信有很多小伙伴做了挺久的SEO优化,但是却不知道搜索引擎的原理是怎么样的。如果你对于搜索引擎大致的原理都不了解,对于整体优化是非常不利的,最直接的就是收录和排名提升上的影响,同时因为基础知识的匮乏没有判断辨别能力,很容易人云亦云被带偏,很容易吸收了错误的知识点。
今天就给大家简单的介绍一下搜索引擎系统大致工作原理,内容比较多会分几次更新,大家记得关注“潘某人SEO”坐等更新。先给大家介绍下搜索引擎的基础知识:抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。
搜索引擎的价值
网站是作为信息的承载载体,也是我们可以获得信息的主体,虽然说在这个信息爆炸的时代,基本上任何的问题答案信息都是可以在网上找到的,但是面对的最大的问题就是如何找到我们需要的内容。
因此网络内容虽多但是寻找的成本很高,好比你知道家里肯定有这样东西,但是你无法知道具体位置在里,你怎么毫无头绪的到处乱找。而搜索引擎对于互联网说是史诗级的发明,实现了在海量的网站内容中快速的检索到需要的内容。
搜索引擎的基本构成
如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。
抓取器
抓取器是搜索引擎的关键,也就是常说的搜索引擎爬虫又称蜘蛛,爬虫不仅仅是搜索引擎的专属。但是搜索引擎的实现是始于爬虫,负责在互联网上抓去搜集信息,数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspdier、Googlebot、Sogou Web Spider等。
搜索引擎蜘蛛不只是简单的抓取内容,对于搜索引擎需要满足用户不断变化的搜索需求以及内容的实效性。需要对每时每刻都存在网页被修改、删除或出现新的超链接进行及时的抓取对内容进行更新。
抓取原理
从上述的流程图中可以看出,搜索引擎的抓取流程还是比较复杂的,大致的流程是对新内容抓取;对抓取到内容进进行分析,经算法分析有价值的内容进行处理;同时对于抓到到的页面的链接进行提取,然后会将这些链接与库中历史抓取的链接进行合并处理,对于新内容进行抓取。下期给大家具体讲一下spider抓取的基本过程。