首页 >  SEO >  SEO算法 >  正文

“TF-IDF”算法与网站SEO关系

2532

SEO“TF-IDF”算法的的概念与网站SEO运用

TF-IDF是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎运用,作为文件与用户查询之间相关程度的衡量或评级。除了TF-IDF以外,因特网上的搜索引擎还会运用根据链接剖析的评级方法,以确认文件在搜寻效果中出现的次序。


“TF-IDF”算法的原理

TFIDF的思维是:假设某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则以为此词或许短语具有很好的类别差异才干,适宜用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表明词条在文档d中出现的频率。IDF的首要思维是:假设包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区别能力。

假设某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,明显全部包含t的文档数n=m+k,当m大的时分,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区别能力不强。

可是实际上,假设一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以避免它倾向长的文件。(同一个词语在长文件里或许会比短文件有更高的词数,而不管该词语重要与否。)


“TF-IDF”算法的的概念与网站SEO运用

一、TF词频的概念与SEO建议

TF是指词频,查询的关键词在文档中出现的次数核算。相关文档是这样介绍的,假定查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO怎样运用这个知识点呢?

假定有一篇文章的标题是:“SEO服务外包”,从字面上了解,文章首要是以SEO服务为中心,“外包”为拓展词。假定文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

实际上有些时分写文章时,在意思很清晰的情况下,会省掉主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会以为外包是主题,出现错误的判别。

那既然是这样,做SEO关键词布局的时候,应该要恰当考虑主关键词的出现频率大于副词。当然搜索引擎判别网页主题有许多维度,这儿只是单从TF词频的视点考虑,个人以为这样做会缩短搜索引擎判别网页主题的时间,对SEO来说是有利的。

TF-IDF算法


第二、怎样快速了解“IDF逆文档频率”

这个概念假设看文档的话有点难了解,笔者看百度百科好几次才了解。涉及到杂乱的公式在这儿就不讲,结合TF一起来了解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。

举个比如来说明,假定有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,可是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或许搜索引擎资料库中包含关键词的文档数量相同,文章中出现次数越多的关键词越能代表网页主题。


从SEO的层面讲,IDF这个值是客观存在的

不必去深究,只需了解不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关效果约XXX个”的这样句子,里边的数值能够作为文档数参阅。每个搜索引擎的包含关键词的文档数或许不相同,可是整体的相对比例值应该是差不多的。并且随着时间的推移,文档数也会不断发作改变。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/472
相关文章
  • TF-IDF算法、关键词的形成条件

    成为关键词的条件

    说到SEO优化,那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词,或者把一个词在文章中突出重复,提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词,然后一个词是否能成为关键词,并不是简单的重复就可以实现的,更多的是参考TF-IDF算法值来确定一个词是否成为关键词。

    2048
    • 成为关键词的条件
  • 百度SEO三大算法

    百度SEO算法

    百度SEO三大算法,HITS算法、百度分词算法、TF-IDF算法,掌握这3大算法可以更好对关键词进行优化,尤其时TF-IDF算法,实际上就是 TF-IDF,TF表示词条在文章中出现的频率。

    1715
    • 百度SEO算法
  • 网站seo标题如何设置符合规范

    网站标题,seo规范

    在百度搜索引擎中如何规范的设置网站seo标题,不管是对于用户还是搜索引擎,网站标题是至关重要的;是用户和搜索引擎对于站点的内容了解的关键。站点首页是站点的第一印象,因此网站首页基础信息的设置是十分关键的。

    1436
    • 网站标题
    • seo规范
  • 各搜索引擎蜘蛛IP大全持续更新

    蜘蛛IP,引擎蜘蛛

    各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。

    2545
    • 蜘蛛IP
    • 引擎蜘蛛
  • 如何做到秒收录,保护原创

    保护原创,及时收录

    对于保护原创内容的所有,保证内容的及时收录很重要,有的时候经常会遇到自己幸幸苦苦码出来的内容被别人转载了,还比自己先收录,这边就教大家几个技巧,来有效的防止原创内容被他们抄袭被先收录.....

    1923
    • 保护原创
    • 及时收录
  • 事关转化,网站设计优化必须遵循的希克定律!

    希克定律,网站设计

    你知道吗,其实站点很多的流量都因为你不了解希克定律而流失了,不管你是通过SEO途径还是SEM等其它途径。很多时候最终是否能转化还是取决于站点给用户的感受。希克定律一个心理学上定律,是如何关联到网站的用户体验的。希克定律(Hick's Law)揭示了决策时间与选项数量之间的关系。

    134
    • 希克定律
    • 网站设计
  • SEO如何正确的判断网站关键词流量

    关键词流量,SEO优化,

    大家流量统计会用什么根据呢,百度统计?相信很多站点的流量统计都是按照百度统计来计算,但是对于SEO优化来说是远远不够的。个人认为百度统计并不是非常适用于SEO优化效果的判定,对于百度SEO优化效果推荐大家使用百度搜索资源平台的中流量与关键词工具,比起百度统计更加适用。

    944
    • 关键词流量
    • SEO优化
  • AI搜索会替代搜索引擎吗?

    AI搜索,搜索引擎,seo

    各大搜索引擎公司确实在积极研发并推出基于人工智能(AI)的搜索功能,不仅能提供更准确、更个性化的搜索结果,还能够理解复杂的查询语句,甚至提供对话式的互动,使得搜索过程更加自然和高效,未来AI搜索会替代掉搜索引擎呢!

    726
    • AI搜索
    • 搜索引擎
    • seo
  • SEO优化有没有更好的捷径

    seo优化捷径

    SEO优化有没有更好的捷径,SEO优化没有捷径SEO优化营销推行掩盖面广,多渠道,多范畴,多查找引擎渠道展现,一切的事物都是平衡的,多劳多得,没有什么捷径。最多是少走点弯路

    1674
    • seo优化捷径
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    1330
    • 原创保护
    • 爬虫屏蔽
  • SEO优化一定需要做原创内容吗?

    SEO必须原创吗

    随着时代进步SEO优化可以说是越来越难,现在发展方向是内容为王,支持原创内容。那么对于我们网站优化的时候是不是就只有一条路一定要去更新原创内容呢?

    1588
    • SEO必须原创吗
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    4535
    • domain命令如何使用
    • 外链反链数如何查询
  • 网站打开速度慢的原因及解决方案

    网页打开速度

    有些站点各方面优化都很注重,但是却忽略了极为重要的网站的打开速度。对于搜索引擎网站稳定的打开速度决定了蜘蛛的抓取频次及抓取成功率;对于用户,打开速度慢会选择直接关闭,导致流量的丢失。

    973
    • 网页打开速度
  • 别再一味的关注关键词排名

    关键词排名

    关键词排名不能代表什么,如果你一味的最求关键词排名,那么必然掉坑里;seo优化的最终目的是带来转化,这需要的是有价值的流量,需要的是有搜索热度并且匹配度高的关键词。

    680
    • 关键词排名
  • 域名总数达到 3187 万,搜索引擎与 SEO 价值凸显

    域名,搜索引擎

    中国家顶级域名“.CN”数量为1956万个,占域名总数的61.4%,连续十年位居全球第一。预示着seo其价值不仅没有衰减,反而随着用户对高质量内容需求的增长而愈发重要。在信息爆炸的时代,SEO已经从单纯的关键词排名工具,进化为连接用户需求与优质内容的核心桥梁。

    137
    • 域名
    • 搜索引擎
  • SEO行业面临的困境

    SEO行业的困境

    SEO行业面临的困境,客户对于SEO不正确的理解和期望值过高​、美好的SEO前景、Seo竞争如火如荼该放弃还是坚持 、从事seo每一个阶段都要有不同的方略 。

    1604
    • SEO行业的困境
  • 聚合标签对seo优化的作用

    seo聚合标签

    聚合标签这个词大家可能比较陌生,即使是SEO们也有很多人是没有听说过,聚合标签我们也可以认为是tag标签,那么这类聚合标签对于SEO优化的作用大不大呢?

    1774
    • seo聚合标签
  • 二级域名和二级目录的区别

    二级域名,二级目录,内容权重的区别

    二级域名和二级目录的区别十分大,在建站的时候一定要谨慎选择,简单的描述了二级域名和二级目录的定义,以及在网站权重、内容上优化的区别!

    1609
    • 二级域名
    • 二级目录
    • 内容权重的区别
-- 这已经是底线了,看看别的把! --