TF-IDF算法、关键词的形成条件

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/382

相关文章

  • 关键词排名到第一位的秘诀

    关键词排名,排名因素

    你有没有想过关键词排名第一的因素吗?为什么同样的内容在不同的站点排名就不一样?如果你但是简单的归于网站权重那么就大错特错了。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1002
    • 关键词排名
    • 排名因素
  • 站长SEO新手必看,SEO思想分享

    SEO,站长

    SEO是文学、科技、哲学、数学等共同作用的产物。大家有没有想过按照了所谓的白皮书完全按照规范去优化,但是永远都是不叫效果。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 6094
    • SEO
    • 站长
  • 百度蜘蛛有权重之分吗?

    百度蜘蛛,权重

    百度搜索学院线上公开课第六讲——网站抓取建设指南,在这个百度官方的直播课程回放中,最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2407
    • 百度蜘蛛
    • 权重
  • 百度移动适配怎么做

    百度移动适配怎么做

    当我们的网站同时存在pc站点和移动站点的时候,两者都被收录的时候,有的时候搜索引擎不能很好的判断哪个网址是PC端的哪个是移动的端的,就需要进行移动端适配规则提交

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2889
    • 百度移动适配怎么做
  • 为什么网站关键词排名在第二页上去不

    排名怎么计算的,排名提升的原理,第二页的关键词如何提升排名

    为什么网站关键词排名在第二页上去不,这种情况一般是网站内容质量度不够,那么后续的SEO优化方向就要去提升站点的内容质量。揭秘排名计算的方式

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2266
    • 排名怎么计算的
    • 排名提升的原理
    • 第二页的关键词如何提升排名
  • 掌握品牌词监控:SEO优化的隐形翅膀

    SEO优化,品牌词

    在当今数字化营销的世界中,每一个站点都在追求流量的增长。然而,在众多的关键词中,我们往往忽略了最能直接反映网站健康状况的品牌词的重要性。今天,潘某人SEO就来探讨一下品牌词监控对于SEO优化的关键意义。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 270
    • SEO优化
    • 品牌词
  • 收录数量和网站排名的关系

    收录数和排名的关系

    seo优化之网站文章的收录是不是越多对排名越好?答案肯定不是,因为很简单所有的事情不是一概而论的;大家可以去随便找几个相关领域的网站对比下,你就可以发现有的网站收录数量只有几千,但是权重却要高于收录数量几十万的网站。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1514
    • 收录数和排名的关系
  • 搜索流量 vs 推荐流量:很多人搞错了关键所在!

    搜索流量,推荐流量

    在内容生态中,搜索流量和推荐流量是两个维度,它们背后的逻辑、用户意图、内容形态,甚至SEO策略,都完全不同。搜索流量:用户主动搜索关键词、明确需求,如“如何做SEO”;内容类型,深度、结构化、信息密度高;长期有效,可积累。推荐流量:平台算法主动推送,被动浏览,娱乐消遣为主,短平快、情绪化、视觉冲击强,短期爆发,易过期。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 238
    • 搜索流量
    • 推荐流量
  • 影响网站页面加载速度的原因,如何提升加载速度

    页面加载速度,网站优化

    百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户流畅快捷的极速体验,而加载速度过长的页面,会加快用户的流失。谁在影响页面的加载速度?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 826
    • 页面加载速度
    • 网站优化
  • 百度天网算法,用户隐私保护

    百度天网算法,用户隐私保护

    百度天网算法打击恶意盗取网民的QQ号、手机号进行营销推广的行为。打击这种严重侵犯用户隐私的行为的站点。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1577
    • 百度天网算法
    • 用户隐私保护
  • 百度石榴算法打击什么行为

    石榴算法

    石榴算法是针对低质量网站的进一步打击的升级版,与之前百度绿萝算法相对应,这正是百度搜索引擎为了提高用户体验,提高入网安全性,提高搜索质量的有力手段。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1771
    • 石榴算法
  • 百度白杨算法解析

    白杨算法

    白杨算法”的作用:为更好满足川户地域化需求,也更好扶持各种地方特色类站点,百度移动搜索推出白杨算法,对符合百度地域优化标准的优质站点进行优先展现。“白杨算法”:为方便用户根据自身位置查找和使用本地信息与服务,帮助移动站点健康、稳定地提升流量,百度移动搜索现提供地域优化服务。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1893
    • 白杨算法
  • SEO入门到精通需要掌握的知识

    SEO入门教程

    简单理解:SEO实际上是指搜索引擎优化,主要的目的是基于SERP(搜索结果),通过更加符合搜索引擎抓取、索引、排名的方法,有针对性的调整自有网站的相关数据指标,从而提高目标网站相关关键词的排名。 那么对于SEO优化入门者需要掌握哪些知识点,走向精通。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2206
    • SEO入门教程
  • 新站不收录怎么办,如何快速收录

    新站不收录解决方法

    对于新网站来说收录是一个比较困难的,相信很多SEO们都会遇到。分享一下如何让新站可以实现一个月 不到就开始稳定快速收录,以及新站建站中需要注意的哪些坑.....

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 2686
    • 新站不收录解决方法
  • 事关转化,网站设计优化必须遵循的希克定律!

    希克定律,网站设计

    你知道吗,其实站点很多的流量都因为你不了解希克定律而流失了,不管你是通过SEO途径还是SEM等其它途径。很多时候最终是否能转化还是取决于站点给用户的感受。希克定律一个心理学上定律,是如何关联到网站的用户体验的。希克定律(Hick's Law)揭示了决策时间与选项数量之间的关系。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 5044
    • 希克定律
    • 网站设计
  • 如何禁止百度建立页面快照

    屏蔽快照

    很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1635
    • 屏蔽快照
  • ETag对于SEO优化的作用

    ETag,SEO优化

    ETag,全称Entity Tag,中文名为实体标签,是HTTP协议的一部分。它是Web服务器和浏览器用于确认缓存组件有效性的一种机制。合理正确的使用ETag对于seo优化可以起到非常大的帮助,今天就和潘某人SEO一起来了解下ETag是何为以及对SEO优化起到了何种作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 419
    • ETag
    • SEO优化
  • SEO优化之网站抓取频次

    抓取频次

    今天我们要聊的是每一个想要提升自己网站搜索引擎优化(SEO)效果的人都应该了解的一个重要概念——网站抓取频次。你是否曾经好奇过,为什么有的网站内容更新后能够迅速被搜索引擎发现,而你的却需要等待许久?这一切都与抓取频次息息相关。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 288
    • 抓取频次