首页 > SEO > SEO知识 > 正文

搜索引擎检索原理解析

发布于：2021-12-20 21:35:57

作者：潘某人SEO

上期讲到了搜索引擎是如何抓取内容的，今天就来讲下搜索引擎的下半部分，搜索引擎的内容抓取的目的就是为了实现用户的搜索。对于网站来说，站点内容搜索是通过关键词来匹配，找出关联性最大的结果进行展示，搜索引擎的亦是如此。

但是搜索引擎面对整个网络，几乎抓取了互联网上的大部分内容，如果只是简单的粗暴的存储抓取到的内容，那么存储成本会很大，大量的重复内容效率会很低；对于用户搜索的时候因为内容过于庞大，搜索效率很低并且结果不精准，这就要依托于搜索引擎的算法加持。

对于搜索引擎面对最大的问题就是匹配的精准性，对于搜索引擎存在意义就是解决用户的搜索需求，但是机器毕竟是机器，及时现在的人工智能其实也是智障，所以就需要通过算法更加精准的把关键词和文档关联起来。

对于计算机来说，目前来说不可能读懂文档的内容，只能把文档分成若干的片段，经过算法分析得出文档的和各个关键词的关联性。检索系统主要包含了五个部分，如下图所示：

搜索引擎搜索匹配流程

（1）Query串切词分词即将用户的查询词进行分词，对之后的查询做准备，以“10号线地铁故障”为例，可能的分词如下（同义词问题暂时略过）：

10 0x123abc
号 0x13445d
线 0x234d
地铁 0x145cf
故障 0x354df

（2）查出含每个term的文档集合，即找出待选集合，如下：

0x123abc 1 2 3 4 7 9…..
0x13445d 2 5 8 9 10 11……
……
……

（3）求交，上述求交，文档2和文档9可能是我们需要找的，包含0x123abc0x123abc的文档有1 2 3 4 7 9，包含0x13445d的文档有2 5 8 9 10 11；只有文档2和9包含了最多的分词，搜索引擎关键词搜索的匹配就是将搜索关键词分词后，然后对各个文档出现的分词的数量和频次进行求交。

整个求交过程实际上关系着整个系统的性能，这里面包含了使用缓存等等手段进行性能优化；

（4）各种过滤，举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的；

（5）最终排序，将最能满足用户需求的结果排序在最前，可能包括的有用信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。

到了这里大家可能觉得那么直接堆砌关键词，关键词密度高了，那么关键词求交的几率不就高了，排名不就有了吗？但是求交是对于数据最基础的筛选，只能说内容的关联性到了，有机会参与排名；但是最终的排名第五小点是非常关键词的，现在搜索引擎对于用户体验非常的注重，所以还有算法评估着网站的用户行为数据反馈着网页的质量，更好的确认网页的质量来决定最终的排名。

事关转化，网站设计优化必须遵循的希克定律！
你知道吗，其实站点很多的流量都因为你不了解希克定律而流失了，不管你是通过SEO途径还是SEM等其它途径。很多时候最终是否能转化还是取决于站点给用户的感受。希克定律一个心理学上定律，是如何关联到网站的用户体验的。希克定律（Hick's Law）揭示了决策时间与选项数量之间的关系。
2025-02-20 134
- 希克定律
- 网站设计
seo优化是什么意思？
什么是SEO优化，SEO（Search Engine Optimization）搜索引擎优化，通过利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名，是一种不消耗额外广告费的一种推广手。
2021-07-18 776
- seo优化
SEO必看，搜索引擎是如何提取关键词？
了解搜索引擎是如何提取关键词，是每个SEO必须必须知道的，否则很容易一不小心优化了个寂寞。如果你认为关键词就是自己在页面keywords中设置的关键词，或者只要重复某个词就可以成为关键词，那你一定要听劝看完这篇文章。
2024-09-24 890
- 关键词
- 搜索引擎
SEO优化中常见的问题，你中了几个？
在做SEO的过程中，还有几个最常见的问题，问题不大影响却不小，下面列举几个经常在网站优化中忽略而犯的错误，看看你中了个！
2022-02-10 635
- SEO优化
百度搜索结果中APP调起行的处罚
17年2月百度搜索发布过关于严厉打击强制用户调起APP行为的公告。对于存在强制用户调起APP的行为，严重伤害用户搜索体验的站点进行打击。
2021-05-20 694
- APP调起行的处罚
搜狗一直不收录怎么办
现在新站收录各大搜索引擎越来越难，主要是因为一方面互联网的飞速发展，站点的数量也是指数级别的递增，所以最不缺的就是站点。缺少的是有价值的站点，由于网站数量的庞大，抓取站点需要的资源也越来越大，对于搜索引擎加大对于站点的筛选，选择有价值的站点去优先抓取，显得非常的合理。
2021-02-24 948
- 搜狗不收录
SEO不做地域关键词犹如入地狱！
很多站点的SEO优化是非常适合做地域关键词的，但是很多站点就是不要这部分流量，非要给自己上强度，给自己找不痛快，快来看看你是不是其中一员。不优化地域关键词等于掉入了地域。
2024-11-01 367
- 地域关键词
百度移动适配状态说明
百度移动适配状态说明，对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时，才会对适配数据进行生效处理，这个校验时间大约为10天。
2020-04-13 3396
- 移动适配状态
企业网站关键词优化应该怎么做
企业网站关键词优化应该怎么做？把我合理关键词的选择和关键词的密度十分的重要。核心关键词可以为网站带来80%流量，在关键词部署过程中，需要1-2个核心关键词
2020-05-03 1104
- 企业关键词优化
如何通过软文营销来提高关键词排名
如何通过软文营销来提高关键词排名呢？其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中，关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。
2020-06-23 1745
- 软文SEO优化
如何利用页面热图提升转化效果
页面热图作为一种直观且强大的分析工具，能够帮助我们深入了解用户在页面上的行为模式，从而优化页面布局和设计，最终实现转化率的显著提升。今天潘某人SEO就分享一下如何利用页面热图提升转化效果。
2024-12-25 246
- 页面热图
- 转化效果
域名带www和不带www哪个更有利于SEO
你的网站带www嘛，今天来探究下网站带www和不带www哪个更利于SEO优化。我们分为两种情况来分析，一种域名下有多个站点，还有一种就是域名下只有一个站点。
2021-08-10 730
- www
- SEO优化
网站被恶意泛解析的解决方法
什么是泛域名解析，网站被恶意泛解析的解决方法。通过site对某网站进行查询的时候，发现突然多了许多的陌生二级域名页面，经过网上大量搜索才知道，这都是因为域名被恶意泛解析后导致的后果。
2020-06-12 1182
- 恶意泛解析解决
SEO从业者应聘需要注意的那些事
很多时候，我们一开始的选择就注定了我们可以获得一个什么样的结局。尤其是对于SEO优化从业者，因为岗位的属性就更要注意。对于SEO从业者应该关注哪些当年呢？潘某人SEO就根据自身多年的经验和大家分享一些，大家可以参考下，希望可以帮助到大家避坑。
2024-03-13 529
- SEO应聘
百度下拉框的原理及删除方法
你知道什么是百度下拉框吗？百度下拉框是百度下拉词的承载容器。就是当我们搜索一个关键词的时候，搜索框推荐的相关搜索词。所以下拉框我们也可以理解为是下拉词。
2021-03-06 1708
- 百度下拉框
- 下拉词删除
SEO网站优化如何进行内容建设
网站优化建设内容，不在于原创还是伪原创，抓住用户的需求，提供最优价值的内容才是根本。保持稀缺性，是网站排名优化的核心手段！
2019-08-31 1516
- SEO网站内容建设
百度爬虫工作原理
百度爬虫是如何工作的，如何才能提升网站的抓取频次呢？抓取频次的影响因素有哪些？
2021-05-25 1148
- 百度蜘蛛原理
- 抓取频次
什么是SEO网站权重
什么是SEO网站权重，网站权重对于网站优化的重要性。如何查看自己网站的权重，以及如何进行SEO优化提升。方向优质内容，持之以恒坚持优化。
2019-08-25 1602
- 网站权重

-- 这已经是底线了,看看别的把！ --

事关转化，网站设计优化必须遵循的希克定律！

seo优化是什么意思？

SEO必看，搜索引擎是如何提取关键词？

SEO优化中常见的问题，你中了几个？

百度搜索结果中APP调起行的处罚

搜狗一直不收录怎么办

SEO不做地域关键词犹如入地狱！

百度移动适配状态说明

企业网站关键词优化应该怎么做

如何通过软文营销来提高关键词排名

如何利用页面热图提升转化效果

域名带www和不带www哪个更有利于SEO

网站被恶意泛解析的解决方法

SEO从业者应聘需要注意的那些事

百度下拉框的原理及删除方法

SEO网站优化如何进行内容建设

百度爬虫工作原理

什么是SEO网站权重