首页 >  SEO >  SEO算法 >  正文

TF-IDF算法、关键词的形成条件

2049

说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-IDF的含义.

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作.


关键词的生成

TF-IDF算法计算公式


  1. TF计算公式

TF计算公式

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

 

2.IDF计算公式

IDF计算公式

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

 

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。


TF-IDF算法实例

以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

TF-IDF算法实例

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


TF-IDF算法不足

TF-IDF 算法会倾向于选出某一特定文档内的高频词语,同时该词语在整个文档集合中分布是比较集中的。因此,TF-IDF算法倾向于过滤掉常见的词语,保留“独有”词语。但是这也造成了TF-IDF算法的缺陷。 因为IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t 具有很好的类别区分能力。如果某一文档C中包含词条t的文档数为m, 而其他类包含t的文档总数为k,显然所有包含t的文档数n = m + k, 当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t 类别区分能力不强。但实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好地代表这个类的文本特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词,以区别于其他类的文档。


比如对于如下几个短文本:

1、鲜花多少钱?

2、白百合多少钱?

3、月季多少钱?

4、香蕉多少钱?


如果按照TF-IDF算法,鲜花、香蕉这些主体词会成为关键词,但是从这些语句的总体来看,他们又都属于询问价格的类型,所以“多少钱”应该成为关键词。这就是IDF的不足之处。

改进的方法可以通过改变文档结构,比如将上述短文本归并为一个文档,这样就可以在增加TF值的同时,也增加IDF值。但是这样就会增加模型的计算成本,需要大量的人为经验加入其中。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/382
相关文章
  • 如何搭建网站更利于SEO优化

    wordpress,SEO优化,网站搭建

    如何搭建网站才更合适利于SEO,采用cms系统建站、外包建站、还是自己开发呢?内容为王这是一切的根本;技术为辅,但是也同样重要,保证网站基本的稳定性及访问速度。一个优秀的站点需要创造用户的喜爱的内容,通过可以让用户舒服的方式去展示出来。

    518
    • wordpress
    • SEO优化
    • 网站搭建
  • 如何提升seo网站收录的关键点

    seo收录

    seo近1年来大家应该发现了网站越来难收录了,很多站点以前都是正常收录的也出现了收录难,那么要如何解决收录问题呢?

    559
    • seo收录
  • 什么是nofollow标签

    nofollow标签

    解释了什么是nofollow标签,以及nofollow标签的只用方法,以及对于SEO的作用,合理利于这个标签可以集中页面的权重分配传递!

    1436
    • nofollow标签
  • 建站用老域名效果更好吗

    老域名建站

    建站用老域名效果更好吗?首先要知道重点住在与域名的年限,而是域名的质量,历史优化记录。并且老于是可与不求,虽然说会有一定的效果,但是你想获得的成本比你优化的投入更加大。

    1151
    • 老域名建站
  • 网站响应速度如何提升

    网站速度提升

    网站响应速度如何提升,移动网站越来越受到重视.网页的加载速度也是用户体验中就重要的一环。百度推出的闪电算法更是要求移动端的网页必须在2秒内完全加载,这也成了整个行业的标准。同时网站的加载速度也将直接影响搜索引擎中的排名。

    2043
    • 网站速度提升
  • 什么是SEO网站权重

    网站权重

    什么是SEO网站权重,网站权重对于网站优化的重要性。如何查看自己网站的权重,以及如何进行SEO优化提升。方向优质内容,持之以恒坚持优化。

    1603
    • 网站权重
  • 网站采集对seo优化有哪些影响

    采集对于SEO的影响

    网站采集对seo优化有哪些影响,百度有飓风算法就是针对于网站内容采集的。那么我们作为站长应该是如何采集文章效果号,有效提高我们网站的内容建设。

    2097
    • 采集对于SEO的影响
  • 什么是网站的抓取频次

    抓取频次,网站收录

    抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数,比如在百度站长工具内容看到的抓取的频次都是按天进行统计的,那么数据中的抓取频次都是日抓取频次。

    1227
    • 抓取频次
    • 网站收录
  • 用户喜欢的内容的样子,续集

    SEO优化

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    711
    • SEO优化
  • PageRank排名算法

    PageRank算法

    PageRank排名算法,是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一。在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

    2247
    • PageRank算法
  • 带Nofollow标签的外链有用吗

    Nofollow标签,外链

    站长的任何操作都是无法干预搜索引擎最终的决定。即使外链上加了nofollow标签,蜘蛛依然会去抓取这个链接。

    1395
    • Nofollow标签
    • 外链
  • 如何打击抄袭洗稿行为

    原创内容,抄袭打击

    很多站点喜欢复制粘帖到处抄袭,对于原创站点我们如何让他们付出代价呢?今天就分享一下对于打击抄袭的一个方案,让抄袭洗稿者付出代价。

    1103
    • 原创内容
    • 抄袭打击
  • 网站seo优化description标签摘要规范

    description,描述标签

    网站seo优化是description标签摘要内容如何设置才能符合seo规范,描述指的是页面源码中的description中的内容,description标签的内容是搜索引擎搜索页面展示的摘要的主要内容来源之一。

    693
    • description
    • 描述标签
  • SEO关键词你选对了吗?分享选词妙招!

    SEO,关键词,选词

    ​关键词是SEO优化核心之一,也是用户、搜索引擎和站点之间的桥梁,用户通过在搜索引擎使用关键词搜索所需的内容,搜索引擎通过关键词实现内容的索引和排序的建立。潘某人SEO常用的选词方法分享给大家。

    488
    • SEO
    • 关键词
    • 选词
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    1126
    • 原创保护
    • 防止抄袭爬取
  • 共享ip服务器对seo优化的影响

    seo优化的影响,共享ip

    目前的服务器大致可以分为两种,一种是虚拟主机,还有一种是实例主机。这两者在seo层面最值得关注就是ip的共享问题。那么共享ip是否会对seo优化造成影响,那么这篇文章值得一看。

    748
    • seo优化的影响
    • 共享ip
  • 百度石榴算法打击什么行为

    石榴算法

    石榴算法是针对低质量网站的进一步打击的升级版,与之前百度绿萝算法相对应,这正是百度搜索引擎为了提高用户体验,提高入网安全性,提高搜索质量的有力手段。

    1449
    • 石榴算法
  • 网站备案对于SEO优化有影响吗?

    网站备案,SEO优化,权威性

    ​网站备案的注意事项,关于网站未备案对于SEO优化排名是否有影响争议不断,有部分人始终认为网站备案和SEO之间没有任何的影响。网站进行ICP备案是提升网站权威性的因素中较为重要的一个。

    611
    • 网站备案
    • SEO优化
    • 权威性
-- 这已经是底线了,看看别的把! --