首页 >  SEO >  SEO知识 >  正文

搜索引擎检索原理解析

 作者:潘某人SEO
1004

上期讲到了搜索引擎是如何抓取内容的,今天就来讲下搜索引擎的下半部分,搜索引擎的内容抓取的目的就是为了实现用户的搜索。对于网站来说,站点内容搜索是通过关键词来匹配,找出关联性最大的结果进行展示,搜索引擎的亦是如此。

但是搜索引擎面对整个网络,几乎抓取了互联网上的大部分内容,如果只是简单的粗暴的存储抓取到的内容,那么存储成本会很大,大量的重复内容效率会很低;对于用户搜索的时候因为内容过于庞大,搜索效率很低并且结果不精准,这就要依托于搜索引擎的算法加持。

对于搜索引擎面对最大的问题就是匹配的精准性,对于搜索引擎存在意义就是解决用户的搜索需求,但是机器毕竟是机器,及时现在的人工智能其实也是智障,所以就需要通过算法更加精准的把关键词和文档关联起来。

对于计算机来说,目前来说不可能读懂文档的内容,只能把文档分成若干的片段,经过算法分析得出文档的和各个关键词的关联性。检索系统主要包含了五个部分,如下图所示:

搜索引擎搜索匹配流程

(1)Query串切词分词即将用户的查询词进行分词,对之后的查询做准备,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

  • 10 0x123abc

  • 号 0x13445d

  • 线 0x234d

  • 地铁 0x145cf

  • 故障 0x354df

(2)查出含每个term的文档集合,即找出待选集合,如下:

  • 0x123abc 1 2 3 4 7 9…..

  • 0x13445d 2 5 8 9 10 11……

  • ……

  • ……

(3)求交,上述求交,文档2和文档9可能是我们需要找的,包含0x123abc0x123abc的文档有1 2 3 4 7 9,包含0x13445d的文档有2 5 8 9 10 11;只有文档2和9包含了最多的分词,搜索引擎关键词搜索的匹配就是将搜索关键词分词后,然后对各个文档出现的分词的数量和频次进行求交。

整个求交过程实际上关系着整个系统的性能,这里面包含了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

(5)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。

到了这里大家可能觉得那么直接堆砌关键词,关键词密度高了,那么关键词求交的几率不就高了,排名不就有了吗?但是求交是对于数据最基础的筛选,只能说内容的关联性到了,有机会参与排名;但是最终的排名第五小点是非常关键词的,现在搜索引擎对于用户体验非常的注重,所以还有算法评估着网站的用户行为数据反馈着网页的质量,更好的确认网页的质量来决定最终的排名。



申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/781
相关文章
  • 【必看】设置死链的秘诀!

    如何设置死链,404,seo

    死链相信大家都不陌生,但是你知道不及时处理死链对于SEO优化会有多大的影响嘛?今天就来普及下死链处理时的注意事项。

    593
    • 如何设置死链
    • 404
    • seo
  • 如何利用百度站长工具做seo关键词排名?

    seo关键词排名优化

    为什么选择SEO这条路,因为在多年前,我们见证了许许多多的SEO神话,各种各样一夜暴富的神人,那是SEO飞速发展的时代,但为什么近几年这样的神话越来越少呢?

    1649
    • seo关键词排名优化
  • 原创内容收录排名一定好吗?

    原创内容收录

    可以说现在已经已经进入了内容为王的时代,站点想要流量就必须生产优质内容,逐渐的大家都在进行原创或者为原创,但是很多站点并没有多大的效果,甚至有的站点收录都非常困难。

    840
    • 原创内容收录
  • 绝对地址和相对地址哪个更利于SEO

    绝对地址,相对地址

    网页链接采用绝对地址和相对地址哪个更利于SEO优化呢?两种类型的链接可以说是各有个的优缺点。传授一个可以结合两者优点的方法,只需要一个简单的定义一个常量就可以实现。

    1199
    • 绝对地址
    • 相对地址
  • 网页打开速度很慢,对SEO有何影响

    网页打开速度,SEO影响因素

    网站打开速度是很多站点在优化的时候比较容易忽视的问题,然后网站打开速度慢不仅对于SEO优化会有很大的影响,对于网站的流量转化也会造成直接巨大的影响。今天来探讨下网站打开速度对于SEO有什么影响,又如何去提升网站的速度呢?

    1070
    • 网页打开速度
    • SEO影响因素
  • 域名带www和不带www哪个更有利于SEO

    www,SEO优化

    你的网站带www嘛,今天来探究下网站带www和不带www哪个更利于SEO优化。我们分为两种情况来分析,一种域名下有多个站点,还有一种就是域名下只有一个站点。

    644
    • www
    • SEO优化
  • 视频网页排名怎么优化

    视频排名优化

    网站视频页面排名优化,对于普通网站来说无法承受高额的硬件成本,以及相比于视频网站先天的流量不足,导致了普通网站想做视频排名优化是行不通的。

    1241
    • 视频排名优化
  • 被k网站的症状,恢复需要多久,如何操作呢?

    被k网站恢复,降权

    网站被K也是常有的事情,一夜之间前功尽弃的站点屡见不鲜,那么网站被K之后如何处理才能尽快的恢复,站点又如何预防K站的情况发生呢!

    691
    • 被k网站恢复
    • 降权
  • 网站页面更新对seo的影响

    页面更新的影响

    页面更新是网站优化中一个提升网站评级的重要因素,一个拥有良好更新频率的站点可以获得更好的排名优待。但是很多站点对于更新有一定的误解。

    693
    • 页面更新的影响
  • 网站被镜像,对网站有什么影响,如何应对?

    网站被镜像,seo优化

    网站被镜像,对网站有什么影响,分享一个有用的识别镜像行为和屏蔽镜像行为的方案。

    647
    • 网站被镜像
    • seo优化
  • 有效索引与关键词排名的关系

    收录排名,有效索引

    大多是人都知道索引这个词,但是不知道什么是有效索引,页面的排名取决于能不能进入有效索引库以及处在什么位置。

    1939
    • 收录排名
    • 有效索引
  • 百度快照更新时间的解析

    百度快照,快照时间更新

    百度快照时间更新和网站的权重是一个什么样的关系呢?很多站点一直的对于快照和权重的关系存在着误解。

    774
    • 百度快照
    • 快照时间更新
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    2072
    • 百度统计事件跟踪
    • _trackEvent
  • 域名泛解析对SEO优化的影响

    泛域名解析

    域名泛解析对SEO优化的影响超乎你的想象,通过泛域名解析来增加抓取及收录,在现阶段基本可以认为是提条绝路,基本上是百害无一利。

    3084
    • 泛域名解析
  • 伪原创文章会被收录吗

    伪原创,收录

    伪原创的方法有哪些?伪原创对于网站的收录有影响吗?为什么很多站点优化效果不好呢?大多数是因为站点内容的问题,内容不够优质是导致SEO优化失败的主要因素。

    1069
    • 伪原创
    • 收录
  • 内容采集对于网站优化有什么影响

    采集对于排名影响

    内容采集、伪原创、抄袭等操作方式对于网站排名会不会有影响;凡事都有两面性,重点在于我们找到里面的平衡点,对于seo优化来说采集伪原创的方式并不是不可以使用,关键在于掌握其中的奥秘.....

    1125
    • 采集对于排名影响
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    877
    • 站长关键词库
  • 网站安全对百度SEO有何重要性

    网站安全与SEO的关系

    网站安全对百度SEO有何重要性?国内至少有80%的网站存在着安全问题,严重困扰并威胁着网站的正常运维。那你的网站存在安全问题吗,该如何解决网站的安全问题?

    1062
    • 网站安全与SEO的关系
-- 这已经是底线了,看看别的把! --