首页 >  SEO >  SEO算法 >  正文

TF-IDF算法、关键词的形成条件

2215

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/382
相关文章
  • a标签怎么写对seo更友好

    a标签如何优化

    拿比较重要的<a>标签来探讨下,相信大家对于<a>标签是十分的熟悉的,链接是互联网之所以能成为一张网的基本条件,并且对于SEO优化起着十分重要的影响,<a>标签优化的到不到位对于SEO效果的影响,

    4092
    • a标签如何优化
  • seo的就业前景怎么样

    SEO就业前景

    seo优化就业前景如何呢?对于刚入踏入SEO优化领域的小伙伴们最关心的就是就业前景怎么,适不适合长期发展?今天给大家解析一下,SEO行业到底适合进入吗?

    964
    • SEO就业前景
  • 网站如何制作才会被百度收录?

    网站内容规划

    网站如何制作才会被百度收录? 新网站建设成功后,只有在百度等大型网站被审核认可后,才能被其他人搜索,所以如何使百度收录成为一个非常重要的问题

    2272
    • 网站内容规划
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    768
    • SEO优化
  • SEO优化中权重和栏目的关系

    SEO优化,权重优化

    你知道网站首页、栏目页、详情页之间是什么关系,对于权重又有什么影响呢?

    1375
    • SEO优化
    • 权重优化
  • 智能小程序对seo效果那么好,为什么做的人还是很少

    智能小程序,seo优化

    站点开通智能小程序可以有机会获得站点logo权限、快速收录等权限,对于seo优化有着非常好的帮助。即使如此智能小程序的普及并不高,大家知道这是为什么吗?

    706
    • 智能小程序
    • seo优化
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    1210
    • 原创保护
    • 防止抄袭爬取
  • 网站改版如何降低对SEO优化的影响?

    网站改版

    在网站的运营过程中,网站改版几乎是不可避免的一件事。无论是为了提升用户体验、适应新的业务需求,还是优化搜索引擎排名(SEO),我们都会面临改版的需求。 然而,很多站长或企业主担心的是:网站改版会影响SEO效果吗?会不会导致流量大幅下降?

    181
    • 网站改版
  • 网站URL设计你做对了吗?收下这份攻略!

    URL设计,网站优化

    网站URL设计你真的会吗?合理的url设计不仅仅是对于用户体验和运营效果重要,对于seo优化也起到了非常重要的影响,在见过了各种的网站url设计模式,潘某人SEO结合自身多年SEO优化经验,给大家总结下,本人认为比较好的网站url设计的方案。

    879
    • URL设计
    • 网站优化
  • SEO优化的常规策略

    SEO优化策略

    凡事都先要有计划,对于SEO优化首先要确立站点的优化策略和方针,劲往一处使才可以更快获得更好的效果。今天我们就来说一下如何正确的选择优化策略,避免走弯路,好的开始是成功的一半,走错方向越努力离成功就越远。

    716
    • SEO优化策略
  • 网站收录狂掉的原因及解决方法

    收录狂掉原因

    很多站长在做网站优化的时候会出现这种情况,原本有收录的文章突然没收录了,甚至网站出现大量的掉收录的情况,这种可能是因为网站死重复内容过多,被降权或者进入沙盒期,所以被收录的文章后面又没了,那么是什么原因造成的呢,又该如何解决呢?

    2198
    • 收录狂掉原因
  • SEO行业面临的困境

    SEO行业的困境

    SEO行业面临的困境,客户对于SEO不正确的理解和期望值过高​、美好的SEO前景、Seo竞争如火如荼该放弃还是坚持 、从事seo每一个阶段都要有不同的方略 。

    1691
    • SEO行业的困境
  • SEO列表页如何做,你的方法正确吗?

    列表页,SEO优化,栏目页

    列表页的优化可以说是充满了奥秘,不管是内容层面还是SEO优化层面。如果思路出现了问题,那么自然不可避免影响整体的效果,今天潘某人SEO通过几个重要的纬度和大家探讨下如何正确的优化网站列表页。

    748
    • 列表页
    • SEO优化
    • 栏目页
  • SEO为什么没办法快速见效?

    seo优化

    SEO为什么没办法快速见效?如何正确的看待seo优化?

    884
    • seo优化
  • 如何利用页面热图提升转化效果

    页面热图,转化效果

    页面热图作为一种直观且强大的分析工具,能够帮助我们深入了解用户在页面上的行为模式,从而优化页面布局和设计,最终实现转化率的显著提升。今天潘某人SEO就分享一下如何利用页面热图提升转化效果。

    428
    • 页面热图
    • 转化效果
  • 百度冰桶算法,移动页用户体验保护

    百度冰桶算法

    百度一直都在打击移动端用户体验不好的网站,从app的强制下载到现在的广告位置布局,冰桶算法是专门为了移动端体验效果而生的算法,为了提高移动端的用户体验效果

    2659
    • 百度冰桶算法
  • 外链对SEO优化的影响

    外链SEO优化

    SEO优化中核心的一个过程就是发外链,不论是过去还是现在,外链都是一个备受争议的话题,有人说外链对SEO优化没有什么用了,而有的人又对做外链情有独钟。那么外链到底还有没有用,我们在发布外链的时候该注意什么,怎样才能获得优质的外链呢。

    1319
    • 外链SEO优化
  • DNS对于SEO至关重要

    DNS服务器,seo

    如果你错误的选择dns服务器,那么对于站点的SEO优化是致命的,轻则影响SEO效果,严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器,正确的选择对于seo优化是必要的也是重要的。

    845
    • DNS服务器
    • seo
-- 这已经是底线了,看看别的把! --