首页 >  SEO >  SEO算法 >  正文

“TF-IDF”算法与网站SEO关系

 作者:潘某人SEO
2428

SEO“TF-IDF”算法的的概念与网站SEO运用

TF-IDF是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎运用,作为文件与用户查询之间相关程度的衡量或评级。除了TF-IDF以外,因特网上的搜索引擎还会运用根据链接剖析的评级方法,以确认文件在搜寻效果中出现的次序。


“TF-IDF”算法的原理

TFIDF的思维是:假设某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则以为此词或许短语具有很好的类别差异才干,适宜用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表明词条在文档d中出现的频率。IDF的首要思维是:假设包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区别能力。

假设某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,明显全部包含t的文档数n=m+k,当m大的时分,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区别能力不强。

可是实际上,假设一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以避免它倾向长的文件。(同一个词语在长文件里或许会比短文件有更高的词数,而不管该词语重要与否。)


“TF-IDF”算法的的概念与网站SEO运用

一、TF词频的概念与SEO建议

TF是指词频,查询的关键词在文档中出现的次数核算。相关文档是这样介绍的,假定查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO怎样运用这个知识点呢?

假定有一篇文章的标题是:“SEO服务外包”,从字面上了解,文章首要是以SEO服务为中心,“外包”为拓展词。假定文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

实际上有些时分写文章时,在意思很清晰的情况下,会省掉主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会以为外包是主题,出现错误的判别。

那既然是这样,做SEO关键词布局的时候,应该要恰当考虑主关键词的出现频率大于副词。当然搜索引擎判别网页主题有许多维度,这儿只是单从TF词频的视点考虑,个人以为这样做会缩短搜索引擎判别网页主题的时间,对SEO来说是有利的。

TF-IDF算法


第二、怎样快速了解“IDF逆文档频率”

这个概念假设看文档的话有点难了解,笔者看百度百科好几次才了解。涉及到杂乱的公式在这儿就不讲,结合TF一起来了解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。

举个比如来说明,假定有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,可是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或许搜索引擎资料库中包含关键词的文档数量相同,文章中出现次数越多的关键词越能代表网页主题。


从SEO的层面讲,IDF这个值是客观存在的

不必去深究,只需了解不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关效果约XXX个”的这样句子,里边的数值能够作为文档数参阅。每个搜索引擎的包含关键词的文档数或许不相同,可是整体的相对比例值应该是差不多的。并且随着时间的推移,文档数也会不断发作改变。

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 本文参考于互联网如有侵权,请联系 pmrseo@foxmail.com删除 本文地址:https://www.chateach.com/seo/seosuanfa/472
相关文章
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    1908
    • 成为关键词的条件
  • 百度SEO三大算法

    百度SEO算法

    百度SEO三大算法,HITS算法、百度分词算法、TF-IDF算法,掌握这3大算法可以更好对关键词进行优化,尤其时TF-IDF算法,实际上就是 TF-IDF,TF表示词条在文章中出现的频率。

    1614
    • 百度SEO算法
  • 百度飓风算法解读

    百度飓风算法

    百度飓风算法主要是打击恶劣采集拼凑行为,保护原创作者的权益,提升用户的阅读体验,促进搜索引擎生态的健康发展。

    1437
    • 百度飓风算法
  • 网站多久才不算新站

    网站多久才不算新站

    新站的时间大概在3-6个月不等,判断一个网站是否过了考核期,应当有两个标准,一收录,二排名。有收录,过了一半;有排名了,全过。一般而言,首页和内页的考核期也不同。

    2277
    • 网站多久才不算新站
  • https网站对排名有好处吗?

    HTTPS与SEO优化

    最近几年https开始出现在我们眼前,越来越多的网站开始从http协议升级为HTTPS协议,那么站在网站SEO优化的角度,https对于网站的排名等各项指标是否能提供帮助呢?那么我们就需要先了解https协议于传统http的区别,那么你到时候就自然明白了https到底会与会影响SEO优化。

    1097
    • HTTPS与SEO优化
  • 关键词布局对SEO优化还有用吗?

    关键词,SEO

    说到SEO优化的操作就不得不提及关键词的布局以及外链建设,这是我们过去常见的操作入口,那么在如今的SEO优化场景下关键词布局对网站排名还有用吗?

    305
    • 关键词
    • SEO
  • 速查站点违规低质页面

    低质页面,百度搜索

    23年8月底,百度搜索资源平台发布了百度搜索违规低质页面问题说明,将加强对于违规和低质页面的清理,速度看看你的站点在此之列吗。

    676
    • 低质页面
    • 百度搜索
  • 如何选择合适的编程语言构建SEO友好的网站

    编程语言,SEO友好

    决定搜索引擎优化(SEO)优化的最终结果的因素很多,网站的编程语言可以算作是重要的因素之一,并且编程语言的选择是网站的开端,并且后期更改的代价是非常大的,因此选择正确的编程语言对于SEO优化是非常的重要的。

    474
    • 编程语言
    • SEO友好
  • 网站seo必须要写原创么

    SEO需要原创

    对于网站SEO优化,内容必须原创吗?对于非原创的内容就不适合去做SEO优化吗?但是作为一个优秀的SEO不能单单这么简单的考虑问题,SEO优化是一个灵活的工作,对于任何一个问题都没有一个标准的答案。

    933
    • SEO需要原创
  • SEO关键词布局优化方案

    SEO优化方案

    网站的关键字布局一直是大多数seoer注重的一个关键方面。关键字布局与用户的需求相关。然后,根据对有效竞争对手的分析,总体规划布局是合理的。你对网站的关键词布局出了问题怎么办?

    1129
    • SEO优化方案
  • 域名变更对于seo排名的影响

    域名变更,seo排名

    站点在实际运营的过程中,偶尔会因为一些因素需要变更网站的域名的情况,大家都知道网站的一次改版,都可能会对seo产生严重的影响,何况是网站域名的变更,对于seo优化的影响就不言而喻了。

    479
    • 域名变更
    • seo排名
  • 百度蜘蛛有权重之分吗?

    百度蜘蛛,权重

    百度搜索学院线上公开课第六讲——网站抓取建设指南,在这个百度官方的直播课程回放中,最后百度搜索工程师最后的QA中明确的表明了不存在蜘蛛权重之分的行为。

    1801
    • 百度蜘蛛
    • 权重
  • 网站收录速度和权重的关系

    收录和权重的关系

    网站收录速度和权重的关系,对于搜索引擎来说,对于网站的重视程度如何和这个权重并没有直接的关系,建议大家还是更多关机没人访客数的变化,这个才是重要,网站存在意义就是作为用户抓取的一个平台,而不是为了去做多好看的权重。

    1235
    • 收录和权重的关系
  • 移动端网站优化步骤是什么

    移动优化方法

    目前国内手机用户已经突破了10亿,并且手机上网已经替代电脑设备成为了主流的上网搜索方式,正因为移动搜索市场的越来越庞大,也就不得不使得越来越多的站点也开始关注其移动端的SEO优化问题,那么移动的SEO优化大致是一个什么样的步骤呢,和PC端有什么不同之处呢?

    1121
    • 移动优化方法
  • 做seo需要具备哪些条件

    seo优化条件

    并不是所有网站所有行业适合做网站优化,哪些网站适合做SEO优化呢?需要哪些条件呢?

    791
    • seo优化条件
  • 百度搜索引擎蜘蛛喜欢什么样的网站结构

    seo网站结构

    百度搜索引擎蜘蛛喜欢什么样的网站结构?希望能在百度获得好的排名、更多优质低价的流量,这个前提就是网站得有好的结构,百度蜘蛛才能顺利、快速的抓取,也就是说网站结构是关键词排名、链接优化、内容优化的前提。

    1400
    • seo网站结构
  • 深度详解SEO页面加载时间那点事

    加载速度,seo优化

    在SEO优化中页面加载时间是用户体验中重点考量的因素之一,那么大家知道页面加载的理想时间是多少呢?又如何才能提升站点的加载速度呢?先说结论,为了保证正常用户体验,页面首屏的加载完成要控制在1.5秒以内,再慢也不能超过3秒。

    529
    • 加载速度
    • seo优化
  • h1标签对seo优化重要吗

    H标签SEO优化

    H标签可以通过重要程度分为H1>H2>H3>H4>H5>H6.........,那么很多都会想到既然H1标签可以突出页面的重点,那么岂不是对于想要优化的关键词我们可以使用H1标签来突出它?

    1309
    • H标签SEO优化
-- 这已经是底线了,看看别的把! --