首页 >  SEO >  SEO算法 >  正文

HITS算法链接分析算法

2292

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/383
相关文章
  • 修改网站关键词会影响网站排名吗?

    修改关键词影响排名

    对于网站关键词关键词会不会影响网站排名,相信大多数人都是人为网站关键词的修改对于网站的排名会有很大的影响的。但是在现实中很对网站因为运营需求的改变,就不得不需要对网站的关键词进行修改。那么如何才能保证网站的受到最小的影响呢?

    1840
    • 修改关键词影响排名
  • SEO与付费SEM推广哪个好?

    SEO优化,SEM推广

    网站的推广方式只要有两种SEO(搜索引擎优化)和SEM(搜索引擎竞价推广),两者同时通过在搜索关键词时在搜索引擎上获得靠前的排名,增加展现几率来获取用户的点击。那么SEO与付费SEM推广哪个好呢,那种推广方式才更加适合我们呢?

    835
    • SEO优化
    • SEM推广
  • SEO关键词布局优化方案

    SEO优化方案

    网站的关键字布局一直是大多数seoer注重的一个关键方面。关键字布局与用户的需求相关。然后,根据对有效竞争对手的分析,总体规划布局是合理的。你对网站的关键词布局出了问题怎么办?

    1336
    • SEO优化方案
  • 锚文本链接对SEO有什么好处

    锚文本的作用

    SEO是一项繁琐而复杂的工作,如果想要把网站的优化做好,那么需要涉及的方方面面是非常多的。今天来讲一下我们常说的锚文本链接对于SEO优化是一个什么样的作用呢?我们又该如何去做好锚文本及它的注意事项。

    1548
    • 锚文本的作用
  • 各搜索引擎蜘蛛IP大全持续更新

    蜘蛛IP,引擎蜘蛛

    各搜索引擎蜘蛛IP大全持续更新,各个搜索引擎的蜘蛛ua,持续更新中。

    2789
    • 蜘蛛IP
    • 引擎蜘蛛
  • 如何合理设置展开全文功能

    SEO展开全文功能

    在SEO优化中,如何合理设置展开全文功能呢?根据百度移动白皮书5.0总结一下几点:要有明确的文字指示说明、展开全文按钮与其他内容模块需设置间隔、展开全文不能出现在首屏、全文中展开全文功能只有出现一次

    2413
    • SEO展开全文功能
  • 网站SEO过度优化的危害

    SEO过度优化

    过度的SEO优化是很多站点都存在的问题,现在很多站点的SEO优化已经是病态的,一天到晚执着了页面结构、关键词布局、内链、外链、友链以及一些技术手法,而忽视了最关键词的内容的优化

    1300
    • SEO过度优化
  • 百度绿萝算法打击哪些行为

    绿萝算法

    百度绿萝算法解读,绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的,主要为了保证搜索排名的公平性,保护真正有价值内容获得更高的流量,保障了搜索引擎生态的健康发展。

    1613
    • 绿萝算法
  • 怎么增加站长工具关键词库

    站长关键词库

    了解了什么是关键词库,接下来就要了解到关键词的意义了。关键词库和网站的权重是息息相关的,大家可以看一下网站权重的计算方法就明白了。简单的讲权重是根据预估流量来划分的,而预估流量就是来源于关键词库中的关键词的排名所决定的。

    1077
    • 站长关键词库
  • “千人一面”与“千人千面”的区别

    千人一面,千人千面

    大家有没有发现在查询关键排名的时候,旁人搜索出来的结果和你不一样呢?造成这种现象是因为千人千面的存在,千人千面简单的讲就是一千人提供一千种策略,也是对于每个用户的策略都是不同的。

    1291
    • 千人一面
    • 千人千面
  • 如何屏蔽某些页面的抓取,但是让页面中链接正常抓取

    meta标签屏蔽页面抓取

    如何屏蔽某些页面的抓取,但是让页面中链接正常抓取,对于这种情况,使用meta标签来进行屏蔽页面的抓取,可以变得更加的有效。相比常用的robots文件屏蔽,或者nofollow标签屏蔽的实用性更加的广。

    3207
    • meta标签屏蔽页面抓取
  • 关注网站抓取频率的重要性

    网站抓取频率

    关注网站抓取频率的重要性,每天都会有数以万计的url被搜素引擎抓取,而形成的相互的链接,而构成了我们所看到的互联网,对于网站优化来讲,就是网站抓取频率,那网站抓取频率对seo有哪些重要的意义呢?下面我们来看看为什么要关注网站抓取频率。

    2274
    • 网站抓取频率
  • 网页打开速度很慢,对SEO有何影响

    网页打开速度,SEO影响因素

    网站打开速度是很多站点在优化的时候比较容易忽视的问题,然后网站打开速度慢不仅对于SEO优化会有很大的影响,对于网站的流量转化也会造成直接巨大的影响。今天来探讨下网站打开速度对于SEO有什么影响,又如何去提升网站的速度呢?

    1348
    • 网页打开速度
    • SEO影响因素
  • 百度下拉框是什么

    百度下拉框,下拉词

    什么是百度下拉框,不管站点做不做SEO优化,是否在意自然流量。凡是下拉词是大家都需要关键词的,不仅仅是简单的SEO层面

    1127
    • 百度下拉框
    • 下拉词
  • 进入前100名的关键词如何提升排名

    关键词排名提升

    进入前100名的关键词如何提升排名如何提升?持续更新,切勿大动干戈,50-100名就是就是搜索引擎对页面最后的考察期,一旦进了50名那就不一样了。按照以往的经验来说,网站排名在这个区间会持续短则一个星

    1462
    • 关键词排名提升
  • ETag提升sitemap抓取速度频次

    ETag,sitemap,链接提交

    sitemap快速更新抓取,ETag提升sitemap抓取速度频次,sitemap是大家提交url的主要途径之一,但是sitemap最大的一个问题就是抓取速度比较慢,

    1208
    • ETag
    • sitemap
    • 链接提交
  • site首页位置不在第一怎么办

    site命令,site首页

    很多站长在网站优化的时候会特别的关注网站site首页的排名位置,当首页不在第一位的时候就会非常的不安,觉得网站出现了问题,认为站点被降权了。但是网站site首页不在首位很多原因都会造成这种结果。

    1367
    • site命令
    • site首页
  • SEO优化中常见的问题,你中了几个?

    SEO优化

    在做SEO的过程中,还有几个最常见的问题,问题不大影响却不小,下面列举几个经常在网站优化中忽略而犯的错误,看看你中了个!

    691
    • SEO优化
-- 这已经是底线了,看看别的把! --