首页 > SEO > SEO知识 > 正文

SEO必看，搜索引擎是如何提取关键词？

发布于：2024-09-24 08:03:05

作者：潘某人SEO

了解搜索引擎是如何提取关键词，是每个SEO必须必须知道的，否则很容易一不小心优化了个寂寞。如果你认为关键词就是自己在页面keywords中设置的关键词，或者只要重复某个词就可以成为关键词，那你一定要听劝看完这篇文章。

关键词的重要性

对于用户来说在搜索引擎获取内容的方式是，输入关键词获取检索结果然后选择查看自己感兴趣的内容。
对于搜索引擎，则需要将用户的搜索关键词，匹配到关键性最高的内容，精准高效解决用户的搜索需求是搜索引擎生存的根本。

搜索引擎是如何快速显示结果

搜索引擎中存有海量的内容，因此搜索引擎绝不可能是根据用户的搜索关键词去海量的内容中进行匹配，效率和成本因素都不允许这么去做。
搜索引擎的索引结构主要实现的是“关键词-文档”的映射关系，即将用户输入的关键词与包含这些关键词的文档关联起来。这种映射关系通过特定的数据结构来实现，其中最常见且最高效的是倒排索引。

搜索引擎是如何提取关键词的

接下来来到今天的重点，搜索引擎是如何提取关键词的。对于我们人类是直接理解整片文章的含义，但是对于搜索引擎是对整篇文章进行划分成需求关键词和短语，通过算法计算文章和各个关键词的关键程度。

文本预处理

首先，搜索引擎通过爬虫（Spider）程序在互联网上抓取网页内容，对抓取的网页进行预处理，搜索引擎会去除网页内容中的HTML标签，只保留纯文本内容。
去除停用词： 停用词是指那些在语言中非常常见但对文档内容理解没有实质性帮助的词汇，如“的”、“是”、“在”等。搜索引擎会将这些词汇从文本中去除，以减少索引大小并提高搜索效率。
分词： 对于中文等不进行自然空格分隔的语言，搜索引擎会使用分词技术将文本分割成有意义的词汇单元（即词或短语）。这通常通过基于规则的分词、基于统计的分词或混合方法来实现。

关键词提取

搜索引擎提取关键词的过程是一个复杂而精细的自然语言处理（NLP）任务，它涉及多个步骤和技术。涉及的算法较多简单的列举一些代表性的，关注潘某人SEO后期对于重点的做详细解说。

基于统计学的方法

TF-IDF（Term Frequency-Inverse Document Frequency）：是最常用的关键词提取方法之一。它考虑了一个词在文档中出现的频率（TF）以及该词在整个文档集合中的普遍重要性（IDF）。TF-IDF值越高的词，越有可能是关键词。
TF-IDF（Term Frequency-Inverse Document Frequency，词频-逆文档频率）是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF值用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。词语的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。这种计算方法可以帮助我们过滤掉一些常见的词语（如“的”、“是”等），因为它们对于大多数文件都是重要的，但对于区分文件内容并不具有特别的意义。
搜索引擎是如何提取关键词
TF-IDF值越高，表示该词语对于文件的重要性越高，越能够代表该文件的主题。这种方法在搜索引擎的文本挖掘中被广泛使用，用以评估用户查询与文件之间的相关性。

TextRank：是一种基于图的排序算法，通过构建文本中单词的共现图来计算单词的重要性，从而提取关键词。
TextRank算法通过把文本分割成若干组成单元（如句子或词语），并构建节点连接图，利用节点之间的关系来评估节点的重要性。这些关系可以是共现关系、语义相似度等，并通过迭代计算得到每个节点的权重值，最终根据权重值对节点进行排名。

TextRank算法可以用于从文本中提取关键词。它通过将文本中的词语视为图的节点，词语之间的关系（如共现关系）视为图的边，并通过迭代计算得到每个词语的权重值，最终根据权重值的高低提取出重要的关键词。

TextRank算法是一种无监督学习方法，它不需要额外的训练数据，仅依赖于文本本身的信息进行关键词提取和文本摘要。

基于机器学习的方法：

使用机器学习算法（如支持向量机SVM、朴素贝叶斯Naive Bayes等）从大量训练数据中学习如何确定关键词。这些算法能够自动学习并识别出与特定主题相关的关键词。
向量机SVM，全称为Support Vector Machine（支持向量机），是一种在机器学习领域广泛应用的算法，主要用于模式识别、分类以及回归分析。搜索引擎需要对海量的网页进行分类和索引，以便快速响应用户的查询请求。SVM算法因其良好的分类性能和泛化能力，常被用于网页内容的分类。通过训练SVM模型，可以自动将网页划分为不同的类别，如新闻、科技、娱乐等，从而帮助用户更快地找到所需信息。

搜索引擎中，朴素贝叶斯（Naive Bayes, NB）算法作为一种经典的机器学习算法，具有广泛的应用。搜索引擎需要对海量的网页进行分类和索引，以便快速响应用户的查询请求。朴素贝叶斯算法因其简单高效的特点，常被用于网页内容的分类。例如，将网页分为新闻、科技、娱乐等不同类别，以便用户能够更准确地找到所需信息。在搜索引擎中，用户的查询意图往往多种多样。朴素贝叶斯算法可以通过分析用户的查询历史、点击行为等特征，识别用户的查询意图，并推荐相关的搜索结果。这有助于提升搜索引擎的用户体验，使用户能够更快地找到所需信息。

基于词性标注的方法：

通过分析文本中单词的词性（如名词、动词等）来确定关键词。通常，名词和动词更有可能成为关键词。常用的词性标注工具有Stanford CoreNLP、NLTK等。

人工干预：

对于一些特定的领域或主题，搜索引擎可能会通过人工干预的方式来选择关键词。例如，在新闻搜索中，编辑可能会手动为新闻报道添加关键词标签。

搜索引擎提取关键词是一个复杂而精细的过程，涉及多个步骤和方法。通过这些方法和技术手段的结合应用，搜索引擎能够准确地提取出与网页内容相关的关键词，并为用户提供高质量的搜索结果。

关键词优化与筛选

提取出的关键词可能数量较多，搜索引擎还需要对这些关键词进行优化和筛选：去除重复的关键词，并对意思相近的关键词进行合并；根据关键词在文档中的位置（如标题、段落开头等）、词频、TF-IDF值等因素评估关键词的重要性；结合用户查询意图和上下文信息，选择最符合用户需求的关键词。

因此，对于站点使用以前的堆砌关键词的方法获取排名已经是行不通的，各个算法多维度的取长补短，尤其是NLP从早期的规则和语法分析，到基于统计的方法，再到近年来深度学习的广泛应用，NLP技术不断取得突破性进展。

深度学习的兴起极大地推动了NLP的发展，卷积神经网络（CNN）和循环神经网络（RNN）等技术被广泛应用。近年来，基于（Transformer）的模型（如BERT、GPT等）在多个NLP任务上取得了突破性进展，显著提高了语言理解和生成的能力。

如何做好关键词优化

对于一篇文章来说，我们可以理解成多个关键词的合集，但是我们要做的就是突出需要优化关键词与文章的关联性。而这个关键性不能简单的只是基于词频上，内容语意上也要有足够的关联性。

对于seo中常见的TDK标签，潘某人SEO认为其中的title标签较为重要之外，在语意化之下其余两者的重要度有限，即使忽略留空也未尝不可。重点优化title标签即可，title标签直接作用于用户的点击意向。

一个合格的标题应该承载包含所需优化的关键词，并且标题也要成为整个页面的大意中心。

长尾关键词
什么是长尾关键词，不管网站权重高低，长尾词的建设在SEO优化中起着至关重要的作用，长尾关键词不仅可以提升目标关键词的排名，其次长尾关键词占据着更多的流量
2019-08-26 1874
- 关键词建设
- 长尾关键词
SEO优化中如何控制关键词密度频率
SEO优化中如何控制关键词密度频率，关键词的密度不是越高越好，不同行业网站的密度的阈值也是不一样宁愿关键词密度低，也不要的一味去堆砌关键词。
2019-08-28 1544
- 关键词密度
- 关键词频率
如何让关键词排名进入前20名
进入50名是一道坎，靠外链用户积累可以做到，但是关键词排名进入前20名，还是得靠主动访问用户占比的提高，也就用内容抓住用户，提高用户的忠诚度，二次访问。
2019-12-26 1753
- 主动访问用户
- 排名如何进入前20
进入前100名的关键词如何提升排名
进入前100名的关键词如何提升排名如何提升？持续更新，切勿大动干戈，50-100名就是就是搜索引擎对页面最后的考察期，一旦进了50名那就不一样了。按照以往的经验来说，网站排名在这个区间会持续短则一个星
2019-09-15 1384
- 关键词排名提升
为什么网站关键词排名在第二页上去不
为什么网站关键词排名在第二页上去不，这种情况一般是网站内容质量度不够，那么后续的SEO优化方向就要去提升站点的内容质量。揭秘排名计算的方式
2019-12-26 2035
- 排名怎么计算的
- 排名提升的原理
- 第二页的关键词如何提升排名
如何增加关键词密度
关键词密度需要控制得当，关键词密度不同行业也是不同的不可人云亦云，还得自己通过不断试验测试分析，同时关键词铺排要自然分散，增加关键词密度不是堆砌关键词。
2019-12-26 1498
- 关键词密度
有效索引与关键词排名的关系
大多是人都知道索引这个词，但是不知道什么是有效索引，页面的排名取决于能不能进入有效索引库以及处在什么位置。
2019-12-26 2045
- 收录排名
- 有效索引
百度关键词指数是什么意思
百度关键词指数是什么意思，通俗来说，百度指数是一个数据分享平台，通过这个海量数据平台，直观的以指数展现，从而能够反应这个关键词在百度的搜索规模有多大，一段时间内的涨跌态势以及相关的新闻舆论变化，关注这些词的网民是什么样的，分布在哪里。
2020-03-09 3439
- 百度指数
- 关键词指数
关键词排名波动原因
理论上讲，关键词的排名决定了网站的流量，定期审查关键词的排名是每个SEO人员的工作，在以往的工作我们可能会遇到这样一种情况：关键词排名频繁波动，很不稳定。它往往搞的SEOer一头雾水，明明没有过度优化，为什么还会出现这个问题?
2020-03-31 2046
- 排名波动原因
关键词库如何增加？
关键词库如何增加？关键词库，是指网站所有关键词详细情况的记录，包括但不限于是否收录、排名、对应页面的URL、百度指数、月获得流量。
2020-04-17 2313
- 如何增加关键词库
TF-IDF算法、关键词的形成条件
说到SEO优化，那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词，或者把一个词在文章中突出重复，提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词，然后一个词是否能成为关键词，并不是简单的重复就可以实现的，更多的是参考TF-IDF算法值来确定一个词是否成为关键词。
2020-04-20 2048
- 成为关键词的条件
如何快速提升关键词排名？
如何快速提升关键词排名？可以从流量冲击、时效性热点内容、高质量外链、网站整体权重、交换一些友情链接，多角度同时进行有效快速提升关键词排名。
2020-05-01 1212
- 提升关键词排名
企业网站关键词优化应该怎么做
企业网站关键词优化应该怎么做？把我合理关键词的选择和关键词的密度十分的重要。核心关键词可以为网站带来80%流量，在关键词部署过程中，需要1-2个核心关键词
2020-05-03 1104
- 企业关键词优化
SimHash算法，关键词堆砌打击
Simhash算法又被SEO站长们成为关键词匹配算法，当用户搜索一个关键词的时候，会出现相关的网站进行展现，但是前些年有个别站长发现关键词密度越高排名越好，这是搜索引擎前期的漏洞，Simhash算法（也成分词匹配算法）对关键词堆砌起到了决定性的打击，
2020-05-10 2896
- SimHash算法
内链算法快,快速提升关键词排名
内链算法快,快速提升关键词排名？内链是搜索引擎200多项算法中对网站打分的一个重要算法，利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链，
2020-05-11 1598
- 内链算法
SEO关键词布局优化方案
网站的关键字布局一直是大多数seoer注重的一个关键方面。关键字布局与用户的需求相关。然后，根据对有效竞争对手的分析，总体规划布局是合理的。你对网站的关键词布局出了问题怎么办？
2020-05-22 1241
- SEO优化方案
简单易用的SEO关键词工具大全
简单易用的SEO关键词挖掘工具有哪些？搜索引擎优化的重要性不言自明，但选择正确的搜索引擎优化工具是一件困难的事，那么哪种搜索引擎优化工具比较适合你
2020-05-24 1098
- 关键词挖掘工具
SEO关键词优化的必需知道的秘诀
SEO关键词优化的必需知道的秘诀？SEO优化的本质上让设置的词有排名，通过搜索，能找到我们的网站（引流）。做优化的时候，我们还是需要掌握一点小技巧，方法策略运用对了。后面优化起来就会比较方便，而关于技巧方面的。
2020-05-30 1110
- SEO关键词优化
搜索引擎的工作原理
讲述搜索引擎的工作原理，以及SEO优化中如何提高收录效率的方法。提高网站内容的质量原创度，稀缺性，和搜索引擎建立良好的信任关系。
2019-08-30 1369
- 搜索引擎工作原理
- 收录原理
搜索引擎如何判断内容的原创
搜索引擎其实并不能判断内容的到底是谁原创，看似有点惨无人道，原创成为抄袭。
2019-12-26 1634
- 如何判断内容的原创
如何让搜索引擎识别页面是PC还是移动端
如何让搜索引擎识别页面是PC还是移动端，让蜘蛛有效的识别页面类型，可以使得抓取更有效率，同时给用户在不同设备访问时，给到正确的对应页面，提升用户体验。
2020-03-13 2890
- SEO页面类型识别
搜索引擎蜘蛛爬虫名大全
对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键，掌握各大搜索引擎蜘蛛爬虫，对我们开展网站SEO优化具有挺大作用；作者搜集了各大搜索引擎的蜘蛛爬虫UA，便于你需要时查看。
2020-03-25 1902
- 搜索蜘蛛大全
搜索引擎高级搜索指令大全
搜索引擎高级搜索指令大全。普通的搜索肯定需要会，但是有一些特殊的搜索是SEO必修课程。下面就来介绍一下搜索引擎的特殊搜索——高级搜索指令。
2020-04-21 1535
- 高级搜索指令大全
百度搜索引擎蜘蛛喜欢什么样的网站结构
百度搜索引擎蜘蛛喜欢什么样的网站结构？希望能在百度获得好的排名、更多优质低价的流量，这个前提就是网站得有好的结构，百度蜘蛛才能顺利、快速的抓取，也就是说网站结构是关键词排名、链接优化、内容优化的前提。
2020-06-10 1497
- seo网站结构
搜索引擎的基础原理知识
搜索引擎的基础知识，从抓取、过滤筛选、建立索引及输出结果，这几个步骤的工作原理。对于SEO优化来说如果连搜索引擎的基本工作原理都不清楚，这样是一件非常糟糕的事情。
2020-12-03 994
- 搜索引擎原理
搜索引擎抓取系统概述
今天就给大家简单的介绍一下搜索引擎系统大致工作原理，内容比较多会分几次更新，大家记得关注“潘某人SEO”坐等更新。先给大家介绍下搜索引擎的基础知识：抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。
2021-12-19 1049
- 搜索引擎
- 蜘蛛
搜索引擎检索原理解析
搜索引擎检索原理解析，搜索引擎是如何实现关键词的精准匹配？
2021-12-20 1124
- 搜索引擎
- 检索原理
搜索引擎内容原创性之分词技术与文本粒度
seo优化中内容的原创性是非常重要的，那么对于搜索引擎是如何判断内容的原创性呢？从分词技术和文本粒度来研究下伪原创内容对于SEO优化存在意义。
2022-04-24 838
- 分词技术
- 文本的粒度
- 内容原创性
各搜索引擎蜘蛛IP大全持续更新
各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。
2022-06-13 2546
- 蜘蛛IP
- 引擎蜘蛛
ChatGPT将革新搜索引擎跨入新时代
ChatGPT的发布代表着人工智能技术开启了新篇章，不少人开始纷纷感受到了恐惧，在不久的将来被ChatGPT所淘汰，这个就让我们拭目以待吧。作为SEO从业者，最关注的还是ChatGPT会对搜索引擎的发展带来何种影响呢？
2023-02-13 794
- ChatGPT
- 搜索引擎发展
搜索引擎网页质量判定的标准
搜索引擎的根本是什么，是内容是对于用户搜索需求满足，这是搜索引擎最根本的逻辑，后续的一切也都是根据这个方向展开的。根据《百度搜索引擎网页质量白皮书》，站长们在百度搜索引擎优化中如何才能输出高质量内容呢？
2023-08-21 628
- 搜索引擎
- 网页质量
AI搜索会替代搜索引擎吗？
各大搜索引擎公司确实在积极研发并推出基于人工智能（AI）的搜索功能，不仅能提供更准确、更个性化的搜索结果，还能够理解复杂的查询语句，甚至提供对话式的互动，使得搜索过程更加自然和高效,未来AI搜索会替代掉搜索引擎呢！
2024-06-13 726
- AI搜索
- 搜索引擎
- seo
百度搜索引擎Spider抓取系统的基本框架
互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。
2024-07-27 470
- 搜索引擎
- 百度spider
百度搜索引擎优先建重要库的原则
Baiduspider抓了多少页面并不是最重要的，重要的是有多少页面被建索引库，即我们常说的“建库”。众所周知，搜索引擎的索引库是分层级的，优质的网页会被分配到重要索引库，普通网页会待在普通库，再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足，这也就解释了为什么有些网站的收录量超高流量却一直不理想。
2024-09-12 388
- 搜索引擎
- 百度spider
一文带你了解百度搜索引擎抓取收录的原理
作为一个seo从业者三句话不离收录，但是大家对于收录的原理真的了解吗，相信很多了解到的就是蜘蛛来抓取然后内容收录，但其实这种理解是比较片面的，了解搜索引擎的收录原理对于提升收录是非常有帮助的。
2024-07-30 525
- 百度seo
- 抓取
- 收录
TF-IDF技术在搜索引擎中的作用
TF-IDF技术在搜索引擎中的作用，事关如何更好的选择关键词，如何获得更好的排名的关键。掌握了解TF-IDF技术对于搜索引擎的作用可以让你更在SEO优化中更好如何筛选和优化关键词。
2024-09-26 578
- TF-IDF
- 搜索引擎

-- 这已经是底线了,看看别的把！ --

关键词的重要性

搜索引擎是如何快速显示结果

搜索引擎是如何提取关键词的

文本预处理

关键词提取

基于统计学的方法

基于机器学习的方法：

基于词性标注的方法：

人工干预：

关键词优化与筛选

如何做好关键词优化

长尾关键词

SEO优化中如何控制关键词密度频率

如何让关键词排名进入前20名

进入前100名的关键词如何提升排名

为什么网站关键词排名在第二页上去不

如何增加关键词密度

有效索引与关键词排名的关系

百度关键词指数是什么意思

关键词排名波动原因

关键词库如何增加？

TF-IDF算法、关键词的形成条件

如何快速提升关键词排名？

企业网站关键词优化应该怎么做

SimHash算法，关键词堆砌打击

内链算法快,快速提升关键词排名

SEO关键词布局优化方案

简单易用的SEO关键词工具大全

SEO关键词优化的必需知道的秘诀

搜索引擎的工作原理

搜索引擎如何判断内容的原创

如何让搜索引擎识别页面是PC还是移动端

搜索引擎蜘蛛爬虫名大全

搜索引擎高级搜索指令大全

百度搜索引擎蜘蛛喜欢什么样的网站结构

搜索引擎的基础原理知识

搜索引擎抓取系统概述

搜索引擎检索原理解析

搜索引擎内容原创性之分词技术与文本粒度

各搜索引擎蜘蛛IP大全持续更新

ChatGPT将革新搜索引擎跨入新时代

搜索引擎网页质量判定的标准

AI搜索会替代搜索引擎吗？

百度搜索引擎Spider抓取系统的基本框架

百度搜索引擎优先建重要库的原则

一文带你了解百度搜索引擎抓取收录的原理

TF-IDF技术在搜索引擎中的作用