HITS算法链接分析算法

发布于：2020-04-20 20:48:30

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法，用户输入关键词后，算法对返回的匹配页面计算两种值，一种是枢纽值（Hub Scores），另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值，指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的，比如一个以程序开发为主题网页，指向另一个以程序开发为主题的网页，则另一个网页的重要性就可能比较高，但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵，通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

Hub页面与Authority页面

所谓“Authority”页面，是指与某个领域或者某个话题相关的高质量网页，比如搜索引擎领域，Google和百度首页即该领域的高质量网页，比如视频领域，优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面，指的是包含了很多指向高质量“Authority”页面链接的网页，比如hao123首页可以认为是一个典型的高质量“Hub”网页。

HITS算法的目的即是通过一定的技术手段，在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面，尤其是“Authority”页面，因为这些页面代表了能够满足用户查询的高质量内容，搜索引擎以此作为搜索结果返回给用户。

算法基本思想：相互增强关系

基本假设1：一个好的“Authority”页面会被很多好的“Hub”页面指向；

基本假设2：一个好的“Hub”页面会指向很多好的“Authority”页面；

HITS算法

可利用上面提到的两个基本假设，以及相互增强关系等原则进行多轮迭代计算，每轮迭代计算更新每个页面的两个权值，直到权值稳定不再发生明显的变化为止。

1 根集合

将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合总取前n个网页(如n=200)，作为根集合(root set)，记为root，则root满足：

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页

链接分析算法

2 扩展集合base

在根集root的基础上，HITS算法对网页集合进行扩充集合base，扩充原则是：凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base，无论是有链接指向根集内页面也好，或者是根集页面有链接指向的页面也好，都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。

3 计算扩展集base中所有页面的Hub值（枢纽度）和Authority值（权威度）

将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合中取前n个网页(如n=200)，作为根集合(root set)，记为S，则S满足：

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。

百度自然搜索排序规则

搜索引擎排名规则应该是广大站点探究的话题，只有对各大搜索引擎的排名规则有所了解，才能更有针对性的做优化，最短时间获得最好的效果。那么那些因素是决定排名的主要的因素，分享下个人的理解。
2021-07-01

1199
- 排序规则
- 百度自然搜索
新站需要多久才能有排名

新站需要多久才能有排名，平均需要6-12个月以上。即使1年以上的页面，获得第一页排名的也只是5%左右，70-80%的新页面过多久都不会有任何排名。
2020-03-28

2745
- 新站多久有排名
新站排名不稳定的原因

新站排名不稳定的原因，新站排名不稳定最基础的原因有两个，一是搜索引擎更新算法引起的影响，其实搜索引擎更新算法，不仅影响新站，老站也会被波及到。二是，新站本身权重都很低，搜索引擎对新站有一个观察前，前期信任度低。
2020-03-30

2247
- 新站排名不稳定
网站收录速度和权重的关系

网站收录速度和权重的关系，对于搜索引擎来说，对于网站的重视程度如何和这个权重并没有直接的关系，建议大家还是更多关机没人访客数的变化，这个才是重要，网站存在意义就是作为用户抓取的一个平台，而不是为了去做多好看的权重。
2020-03-27

1728
- 收录和权重的关系
爬行、抓取、索引、收录的区别

收录对于站长来说是在熟悉不过的了，但是很多人对于收录还是存在一些理解上的偏差，要正确的理解收录，那么必须要对搜索引擎的爬行、抓取、索引、收录几个概念有正确的认知，对于掌握搜索引擎的收录过程是先决条件。爬行、抓取、索引、收录，是搜索引擎的收录内容的一个流程。
2022-06-10

2244
- 爬行
- 抓取
- 索引
- 收录
如何合理设置展开全文功能

在SEO优化中，如何合理设置展开全文功能呢？根据百度移动白皮书5.0总结一下几点：要有明确的文字指示说明、展开全文按钮与其他内容模块需设置间隔、展开全文不能出现在首屏、全文中展开全文功能只有出现一次
2020-05-18

2686
- SEO展开全文功能
掌握SEO内部链接优化，让网站权重更上一层

如何让你的网站在众多竞争对手中脱颖而出？内链优化无疑是你不容忽视的关键环节。内链的基本构成首先，我们要了解内链的种类和它们出现的位置。首先，我们要了解内链的种类和它们出现的位置。内链，即指向站内其他页面的链接，主要分为三类：锚文本链接、文本链接、图像链接。
2025-06-10

677
- 权重
- 内链
网站多久才不算新站

新站的时间大概在3-6个月不等，判断一个网站是否过了考核期，应当有两个标准，一收录，二排名。有收录，过了一半;有排名了，全过。一般而言，首页和内页的考核期也不同。
2020-03-30

2746
- 网站多久才不算新站
网站更新和排名之间的关系你知道吗

大多数站长会认为网站的流量靠的是不断的更新才可以稳定的获取流量，那么事实真的是如此吗？加入网站长期不更新，那么站点的流量和排名会消失吗？今天我们就来探索下网站排名流量和网站更新之间的关系。
2022-07-25

1058
- 网站更新
- 网站排名
SEO优化内容应该走心还是走量

SEO优化内容应该应该注重内容质量还是内容数量,作为SEO一员的你肯定会困扰于，索引量上不去，展现低，流量不理想会。不管怎么做就是没有明显改变，那么希望这篇文章可以帮助到你。
2023-04-13

813
- SEO优化
- 内容数量质量
新站收录与老站收录的区别

导致网站不收录的原因有很多，想要解决收录问题，那么首先需要找到站点不收录的原因。但是很多站点在寻找原因的时候第一个方向就错了，对于老站和新站不收录的原因是有很大区别的。
2022-02-09

1302
- 新站收录
- 老站收录
- seo优化
权重域名对SEO的影响大吗?

一直有一种说法建站要用权重高的域名，可以对站点的SEO优化起到很好的促进作用，那么事实是真的如此吗？今天就来探究下。
2021-07-28

1263
- 权重域名
- 老域名建站
百度清风算法解读

清风算法针对违规标题及虚假下载问题，包括关键词堆砌、虚假标题和虚假下载等问题。所以简单的理解就是清风算法主要打击的就是标题党，通过虚假的标题来获取用户的点击的一种行为。
2019-12-26

3160
- 百度清风算法
绝对地址和相对地址哪个更利于SEO

网页链接采用绝对地址和相对地址哪个更利于SEO优化呢？两种类型的链接可以说是各有个的优缺点。传授一个可以结合两者优点的方法，只需要一个简单的定义一个常量就可以实现。
2020-11-23

1946
- 绝对地址
- 相对地址
伪原创文章会被收录吗

伪原创的方法有哪些？伪原创对于网站的收录有影响吗？为什么很多站点优化效果不好呢？大多数是因为站点内容的问题，内容不够优质是导致SEO优化失败的主要因素。
2021-04-22

1540
- 伪原创
- 收录
一个简单的操作让你的网站安全立马上一个级别

对于SEO来说，网站安全是极为重要，因为网站被黑导致内容被串改成黑产，被搜索引擎降权K站的比比皆是，今天潘某人SEO教大家一个简单的操作就可以把网站的安全提升一个级别。快速检查下自己站点是否正确设置了，虽然不是万无一失，但还是非常有用的。平时还是应该定期排查，及时打补丁，免得追悔莫及！
2025-03-05

5280
- 网站安全
- 防火墙
优化新站一般多久出排名

做seo的应该都知道，网站优化是一个漫长的过程，seo见效的时间相对来说比较慢，当然我们也想seo的速度能够大大的提升，但是太快的话，被k站的几率也是大大的增加，那么一个正常的网站一般出排名应该是多久呢？下面我们来看看新站出排名的时间。
2020-07-20

1572
- 新站多久有排名
多个域名对网站seo有什么影响

多个域名对网站seo的影响你知道吗？对于多域名解析的态度就是能不用就千万别用，对于网站权重和收录都会有着严重的影响，处理不当那么对于网站优化是一个致命伤。
2020-10-29

2460
- 多域名解析

FCP:	waiting...
LCP:	waiting...
CLS:	waiting...
页面加载: