首页 >  SEO >  SEO算法 >  正文

HITS算法链接分析算法

1940

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/383
相关文章
  • seo优化必须知道的网站路径结构重点

    seo优化,网站路径,采集

    网站路径是最容易被站长们忽略的关键点,网站路径对于网站的结构有着关键的影响,并且对于seo优化起到了深远的影响。今天给大家分享下,网站路径与seo之间的关系,我们应该如何处理正确的处理网站路径。

    803
    • seo优化
    • 网站路径
    • 采集
  • 网站优化中的site指令怎么使用

    site命令的使用方法,注意事项

    讲述site命令的定义,以及site命令为什么说对于SEO优化来说有着至关重要的作用。了解该命令的真正含义对于排名优化十分重要。

    1777
    • site命令的使用方法
    • 注意事项
  • 作为一名SEOER,你是否懂得一门编程语言

    seo优化与编程

    作为一名SEOER,你是否懂得一门编程语言,那么哪门编程语言更加合适呢?

    710
    • seo优化与编程
  • 百度信风算法

    百度信风算法,翻页诱导

    百度信风算法是打击翻页诱行为的算法, 是为了防止站点通过利用翻页进行诱导,从而保护用户的浏览体验。

    1912
    • 百度信风算法
    • 翻页诱导
  • PHP VS Python VS JavaScript VS Java:谁才是SEO优化王者?

    SEO优化,网站程语

    SEO(搜索引擎优化)与程序语言、框架的选择密切相关。不同技术栈直接影响网站的渲染方式、加载速度及内容可读性,进而影响搜索引擎排名。常见的网站编程语言及框架,哪种更适合SEO优化。

    162
    • SEO优化
    • 网站程语
  • 收录工具常见问题解析

    收录工具

    今天讲一下百度收录工具那些事,今年百度搜索引擎的收录工具发生很大的变化。首先自动提交功能下线了,手动提交不再支持未认证站点链接的提交,sitemap不再支持索引型,并且每日提交的数量也有了限制。

    1243
    • 收录工具
  • 低成本让网站资源加载速度提升的方法

    加载速度,网站速度

    分享一个低成本的方法,让网站速度提升的方法,通过提升网站速度提升用户体验,从而获得更好的seo优化效果。通过资源的预获取,可以实现在服务器配置不变的情况下提升网站资源加载速度的提升。

    591
    • 加载速度
    • 网站速度
  • AI降低SEO成本:机遇还是危机?

    AI,SEO

    曾经内容生产成本是SEO优化的主要成本,随着大模型的遍地开花,AI内容的生成技术的使用变得低门槛触手可及,小微团队也可以轻松短时间内,轻松生成千量级的内容,那么这种变化对于seo优化的发展是机遇还是危机?

    102
    • AI
    • SEO
  • 网站中毒被降权了怎么操作

    网站被黑中毒怎么优化

    网站中毒被降权了怎么操作,这种情况立即关闭网站,申请闭站保护,然后对网站进行全面的检查加固,沉淀1-6个月之后再重新上线。

    1169
    • 网站被黑中毒怎么优化
  • 网站制作上线的基本流程

    网站制作,SEO优化

    网站制作上线的基本流程,从网站定位、网站程序选择、网站域名主机选择、网站SEO优化、内容填充几个方面来分析如何进行SEO化的网站搭建。

    889
    • 网站制作
    • SEO优化
  • 网站打开速度慢的原因及解决方案

    网页打开速度

    有些站点各方面优化都很注重,但是却忽略了极为重要的网站的打开速度。对于搜索引擎网站稳定的打开速度决定了蜘蛛的抓取频次及抓取成功率;对于用户,打开速度慢会选择直接关闭,导致流量的丢失。

    974
    • 网页打开速度
  • 如何用domian命令查询网站反链数量

    domain命令如何使用,外链反链数如何查询

    很多人会使用domain指令去查询网站的外链数量,更有机构公司把domain值当作外链数量的考核标准,真的是十分荒谬,domian真正的作用是!

    4539
    • domain命令如何使用
    • 外链反链数如何查询
  • seo优化行业的现状

    seo优化的现状

    seo优化行业的现状解析。随着付费推广的竞争 越来越激烈,广告成本也是指数级的上升,这也一定的程度会让大家重视成本相对更低的SEO优化。但是SEO优化行业却充满着不和谐的因素!

    1064
    • seo优化的现状
  • SimHash算法,关键词堆砌打击

    SimHash算法

    Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,

    2899
    • SimHash算法
  • 事关转化,网站设计优化必须遵循的希克定律!

    希克定律,网站设计

    你知道吗,其实站点很多的流量都因为你不了解希克定律而流失了,不管你是通过SEO途径还是SEM等其它途径。很多时候最终是否能转化还是取决于站点给用户的感受。希克定律一个心理学上定律,是如何关联到网站的用户体验的。希克定律(Hick's Law)揭示了决策时间与选项数量之间的关系。

    135
    • 希克定律
    • 网站设计
  • 已收录页面修改需要注意什么

    收录页面修改

    对于已收录页面大家是如何进行内容的修改呢?是直接在原文上修改,还是直接删除然后重新发布呢?如何操作才更利于SEO优化呢?

    785
    • 收录页面修改
  • seo关键词优化策略新手必看

    seo关键词优化

    大家觉得如何才能做好一个站的seo优化呢?站点seo优化效果是无数因素的一个集合,站点的流量则是一个个关键词流量的集合。站点的可以获取的流量则取决于各个关键词可以带来的流量,以及关键词的数量。

    921
    • seo关键词优化
  • 共享ip服务器对seo优化的影响

    seo优化的影响,共享ip

    目前的服务器大致可以分为两种,一种是虚拟主机,还有一种是实例主机。这两者在seo层面最值得关注就是ip的共享问题。那么共享ip是否会对seo优化造成影响,那么这篇文章值得一看。

    748
    • seo优化的影响
    • 共享ip
-- 这已经是底线了,看看别的把! --