首页 >  SEO >  SEO算法 >  正文

TF-IDF算法、关键词的形成条件

2096

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/382
相关文章
  • seo优化对于新站该怎么做

    SEO优化,新站优化,收录提升

    随着搜索引擎的不断的发展,现在SEO优化的难度也越来越高,尤其是对于零基础的新站想要做出效果就更加的难了。我们常说一个好的开始是成功的一半,对于新站的优化也是如此,搜索引擎对于新站都会有一个考核期,在这个阶段如果不能进行合理的优化,造成了负面出现,那么自然会延长这个考核时间段,甚至很容易把网站搞费。那么对于新站的SEO优化我们应该注意哪些方面呢?

    934
    • SEO优化
    • 新站优化
    • 收录提升
  • 各搜索引擎蜘蛛IP大全持续更新

    蜘蛛IP,引擎蜘蛛

    各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。

    2606
    • 蜘蛛IP
    • 引擎蜘蛛
  • 搜索引擎如何判断内容的原创

    如何判断内容的原创

    搜索引擎其实并不能判断内容的到底是谁原创,看似有点惨无人道,原创成为抄袭。

    1662
    • 如何判断内容的原创
  • 网址结构优化对于SEO的重要性

    网址结构,网站层级

    你的网站的结构是怎么样的结构呢?是佛性随意来,还是条例清晰彰显网站结构层级的呢?不要忽视网址结构的设计对于SEO优化还是比较重要的一个方面。

    1104
    • 网址结构
    • 网站层级
  • 烽火算法持续升级,控制回退按钮失效问题

    烽火算法持续,退按钮失效

    烽火算法解析,2021年8月百度搜索引擎对于烽火算法进行了升级,此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。

    1219
    • 烽火算法持续
    • 退按钮失效
  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    365
    • 百度spider
  • 如何判断网站的优化效果

    seo优化效果

    如何判断网站的优化效果,尤其是新站的效果有什么科学有效的方法去判定网站所处的一个阶段。如果通过数据看出搜索引擎对于站点的评级。

    967
    • seo优化效果
  • 网站制作上线的基本流程

    网站制作,SEO优化

    网站制作上线的基本流程,从网站定位、网站程序选择、网站域名主机选择、网站SEO优化、内容填充几个方面来分析如何进行SEO化的网站搭建。

    918
    • 网站制作
    • SEO优化
  • 什么是nofollow标签

    nofollow标签

    解释了什么是nofollow标签,以及nofollow标签的只用方法,以及对于SEO的作用,合理利于这个标签可以集中页面的权重分配传递!

    1475
    • nofollow标签
  • 网站SEO优化监控哪些指标

    SEO优化效果,SEO指标

    数据是进行网站建设的重要参考依据,任何网站的建立都不是凭空幻想出来的。标题的撰写、导航的确立以及内容的编辑都是依靠数据而进行,数据对于我们seo后期的工作更具指导作用。那么网站的哪些数据是优化人员需要关注的呢?

    826
    • SEO优化效果
    • SEO指标
  • 百度移动适配状态说明

    移动适配状态

    百度移动适配状态说明,对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天。

    3424
    • 移动适配状态
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    1366
    • 网站排名优化思路
  • 【春节版】2024年SEO优化还值得继续做下去吗?

    SEO优化

    2023年充满了挑战,相信很多站点都遇到了巨大的挑战吧,遭受降权的站点应该不是少数,还有更多的站点努力了1年没有任何起色的。这种情况的站点,不用担心,大家亦是如此,那么在2024年大家是否还有坚持把SEO做下去的勇气和毅力吗?

    663
    • SEO优化
  • seo页面优化的常用技术

    seo页面优化的

    seo页面优化的常用技术,从核心关键词分析定位、网站目录和页面优化、标签优化技巧、利用好百度搜索资源平台、提高页面的附加价值、访客到客户的转化工作几个角度来讲下SEO页面优化的常用技术。

    1281
    • seo页面优化的
  • 老域名建站对seo真的有好处吗

    老域名建站,seo优化,新站考核期

    很多站点的时候会选用权重高的老域名,可以获得更好的效果,但是事实真的是这样吗?老域名建站大部分的情况下不但没有正向作用,还会有负面的作用,那么老域名建站需要注意哪些方面呢?

    885
    • 老域名建站
    • seo优化
    • 新站考核期
  • 如何禁止网页内容被复制

    如何禁止网页内容被复制

    现在SEO优化鼓励内容为王,也就是鼓励大家原创。那么问题来了,如果当我们在原创的时候自己的内容却在被别人抄袭,是不是很气人,今天教大家如何屏蔽网页内容的复制。

    1818
    • 如何禁止网页内容被复制
  • 这收录速度还真是逆天,别错过了!

    收录,必应

    如果你在网站优化中遇到了收录难的问题,那么这篇文章别错过了,也许可以帮你获取不少流量。这几年大多数网站的收录量和收录速度大多不太理想,尤其是站点质量一般的情况下,有的站点和收录都绝缘了。得益于windows系统对于Edge浏览器,必应搜索的占有率会持续走高,必应搜索SEO优化的价值也会变得更高。

    449
    • 收录
    • 必应
  • 新站被快速收录的秘诀

    新站快速收录的方法

    新站被快速收录的秘诀,如何让新站快速的收录。如果你能做到下面这些,你的网站就可能在12个小时内被收录。

    1344
    • 新站快速收录的方法
-- 这已经是底线了,看看别的把! --