TF-IDF算法、关键词的形成条件

发布于：2020-04-20 12:26:10

说到SEO优化，那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词，或者把一个词在文章中突出重复，提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词，然后一个词是否能成为关键词，并不是简单的重复就可以实现的，更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足：一个词预测主题的能力越强，权重越大，反之，权重越小。所有统计的文章中，一些词只是在其中很少几篇文章中出现，那么这样的词对文章的主题的作用很大，这些词的权重应该设计的较大。IDF就是在完成这样的工作.

关键词的生成

TF-IDF算法计算公式

TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是：如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大，则这个词成为一个关键词的概率就越大。

TF-IDF算法实例

以《亚洲的网络技术》为例，假定该文长度为1000个词，"亚洲"、"网络"、"技术"各出现20次，则这三个词的"词频"（TF）都为0.02。然后，搜索Google发现，包含"的"字的网页共有250亿张（假定这就是中文网页总数），包含"亚洲"的网页共有62.3亿张，包含"网络"的网页为0.484亿张，包含"技术"的网页为0.973亿张。则它们的逆文档频率（IDF）和TF-IDF的计算结果如下：

TF-IDF算法实例

从上表可见，"网络"的TF-IDF值最高，"技术"其次，"亚洲"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）所以，如果只选择一个词，"网络"就是这篇文章的关键词。除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"亚洲"、"网络"、"技术"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语，同时该词语在整个文档集合中分布是比较集中的。因此，TF-IDF算法倾向于过滤掉常见的词语，保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。因为IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，idf越大，则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m，而其他类包含t的文档总数为k，显然所有包含t的文档数n = m + k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t 类别区分能力不强。但实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好地代表这个类的文本特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词，以区别于其他类的文档。

比如对于如下几个短文本：

1、鲜花多少钱？

2、白百合多少钱？

3、月季多少钱？

4、香蕉多少钱？

如果按照TF-IDF算法，鲜花、香蕉这些主体词会成为关键词，但是从这些语句的总体来看，他们又都属于询问价格的类型，所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构，比如将上述短文本归并为一个文档，这样就可以在增加TF值的同时，也增加IDF值。但是这样就会增加模型的计算成本，需要大量的人为经验加入其中。

如何做好原创内容版权保护

分享如何对站点原创内容的保护，如何查找抄袭站点，如何保留抄袭证据等方法，来保护自己的合法权益。
2021-08-27

1533
- 版权保护
- 原创内容保护
- 百度时间因子
SEO优化检测工具有哪些

SEO优化检测工具有哪些？网站建成之后，我们往往还要进行SEO的优化工作。但是，怎么检查您的网站的SEO优化是否符合相关的技术标准呢？那么就需要配合第三方的SEO检测工具来帮助您检查。
2020-05-23

4253
- SEO工具
CDN防止网站被黑攻击

CDN的可以有效的隐藏网站的真实的IP地址，用户访问到的是离自己最近的CDN服务器；不仅仅加快了全球各地用户的访问速度体验，同时因为IP的隐藏，加大了攻击者访问到真实地址的难度，另一方学会如何设置好服务器的安全组，也可以有效防止网站被黑。
2021-06-30

1266
- CDN
- 网站被黑
域名后缀对seo的影响

域名后缀以及域名的长短会对网站seo产生影响吗？早期来说域名的后缀对于SEO优化不会有任何的影响，但是随着这个行业的发展慢慢的出现了群站，如今是否存在影响也是成为了一个不确定的因素。
2020-09-16

2784
- 域名后缀SEO影响
百度抓取频次忽然下降的原因有哪些？

百度抓取频次忽然下降的原因有哪些？网站抓取频率不知道作为seoer的大家是否有时常的关注，可以说检查我们的网站是否健康，网站的健康程度，关注这些网站上的日常数据也是seo的工作之一，当然看到有一些小伙伴们问道说，自己的网站突然遇到了网站抓取频率下降这是为什么？
2020-06-02

7506
- 抓取频次降低的原因
关键词库如何增加？

关键词库如何增加？关键词库，是指网站所有关键词详细情况的记录，包括但不限于是否收录、排名、对应页面的URL、百度指数、月获得流量。
2020-04-17

2748
- 如何增加关键词库
SEO优化全流程解析：从零开始，打造高效搜索引擎友好网站

网站SEO（搜索引擎优化）已成为企业获取流量、提升品牌知名度的关键策略之一。然而，对于许多初学者而言，如何系统地进行SEO优化仍是一个复杂的问题。今天，潘某人SEO就来详细探讨一下SEO优化的基础流程，帮助您从无到有建立一个高效的搜索引擎友好网站。
2025-07-03

725
- 搜索引擎
索引量变化存在的误区

索引量是那个站长都会关注的点，对于SEO优化来说是非常重要的指标，但是很多人对于索引量的变化存在错误的认知，为大家总结了常见的对于索引量变化的误区。要正确的认知索引量变化的影响，首先要明白什么是索引量。索引量简单讲就是站点内容经过搜索引擎抓取，算法分析之后符合标准，建立索引进入索引库的数量，内容只有进入的索引库是进行排名展现的必要条件。
2022-12-06

1079
- 索引量
SEO标题长度多少合适呢？

标题在SEO优化之中是至关重要的，如果不会正确合理的写标题是很难做好SEO的，标题不仅仅是搜索引擎排名的重要的因素，同时也是重要的流量入口，一个好的标题是吸引用户点击的关键。因此，标题会一定程度上影响这排名站点和点击率。
2023-05-24

1433
- SEO优化
- 标题长度
如何防止网站内容被复制

通过js修改document上的相关属性值来实，防止网站内容被复制。
2021-12-22

1558
- 防止复制
- js
死链对于SEO的危害，及其处理方式

网站运营之中死链的出现是无法避免的，但如果无法及时发现并正确处理势必对于网站的SEO优化产生一定的影响。那么我们应该如何及时发现死链，如何及时处理呢？
2023-06-02

1188
- 死链
- SEO优化
网站SEO过度优化的危害

过度的SEO优化是很多站点都存在的问题，现在很多站点的SEO优化已经是病态的，一天到晚执着了页面结构、关键词布局、内链、外链、友链以及一些技术手法，而忽视了最关键词的内容的优化
2021-09-23

1620
- SEO过度优化
域名的长短会影响排名吗

域名的长短、以及域名后缀会影响权重吗？这个问题困扰着很多人，其实域名只要没有黑历史，真的不要介意那么多，我们需要看穿网站优化得本质需要得是什么！
2019-12-26

2359
- 域名对权重得影响
nginx网站域名重定向怎么做

网站上线最基础的一步就是确立域名如何重定向，如果最优的设置重定向。一方面要确立网站主域，另一方面跳转配置不遗漏并且尽可能减少没必要的跳转。
2021-11-01

1370
- nginx重定向
- 网站域名重定向
ETag提升sitemap抓取速度频次

sitemap快速更新抓取，ETag提升sitemap抓取速度频次，sitemap是大家提交url的主要途径之一，但是sitemap最大的一个问题就是抓取速度比较慢，
2021-06-27

1596
- ETag
- sitemap
- 链接提交
关键词密度,在SEO中的作用!

关键词密度对于关键词的排名有着重要影响，那么关键词密度多少合适呢？相信大家经常听到网上的说法，控制关键词密度2-8%之间。这种说法其实是不对的，对于不同行业适合的关键密度肯定是不一样的。
2021-08-25

1487
- 关键词密度
网站备案对于SEO优化有影响吗？

网站备案的注意事项,关于网站未备案对于SEO优化排名是否有影响争议不断，有部分人始终认为网站备案和SEO之间没有任何的影响。网站进行ICP备案是提升网站权威性的因素中较为重要的一个。
2023-05-10

979
- 网站备案
- SEO优化
- 权威性
你分享的链接泄露隐私了吗?

今天这个话题看似和SEO没啥关系，那就耐心看到最后就有了，先回归正题大家有没有意识到自己平时分享的链接会泄漏隐私吗？大家平时是不是会分享一些歌曲、一些短视频的链接及各种社交app应用的链接给微信好友或者是分享到朋友圈，当然分享到其它地方也是如此，只要你分享了这些链接你都将面临有隐私泄漏的可能。
2024-06-26

2934
- 跟踪链接
- 隐私

FCP:	waiting...
LCP:	waiting...
CLS:	waiting...
页面加载:

什么是TF-IDF

TF-IDF算法计算公式

TF计算公式

2.IDF计算公式

3.TF-IDF算法计算公式

TF-IDF算法实例

TF-IDF算法不足

相关文章