HITS算法链接分析算法

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。


Hub页面与Authority页面

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

 HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。


算法基本思想:相互增强关系

基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;


HITS算法

可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。


1 根集合

 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页


链接分析算法


2 扩展集合base

 在根集root的基础上,HITS算法对网页集合进行扩充集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。


3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合中取前n个网页(如n=200),作为根集合(root set),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用!

本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理

本文地址:https://www.chateach.com/seo/seosuanfa/383

相关文章

  • 品牌词监控对于SEO优化的重要性

    品牌词监,SEO优化

    流量监控是每个站点都会去做的一件事,但是大多数非常宽泛的一个统计,并不会精确到关键词的流量的变化,当然精力有限不可能去统计所有关键词,但是网站的一些核心关键词的排名和流量变化是必须要监控的,尤其是站点的品牌词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1216
    • 品牌词监
    • SEO优化
  • TF-IDF技术在搜索引擎中的作用

    TF-IDF,搜索引擎

    TF-IDF技术在搜索引擎中的作用,事关如何更好的选择关键词,如何获得更好的排名的关键。掌握了解TF-IDF技术对于搜索引擎的作用可以让你更在SEO优化中更好如何筛选和优化关键词。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 958
    • TF-IDF
    • 搜索引擎
  • 如何提升seo网站收录的关键点

    seo收录

    seo近1年来大家应该发现了网站越来难收录了,很多站点以前都是正常收录的也出现了收录难,那么要如何解决收录问题呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 717
    • seo收录
  • 如何鉴别一个人SEO的能力水平

    SEO的能力

    大家是通过什么方式鉴别一个人的seo能力呢?相信大多数人的方法就是看项目经验,比如面试的时候大多数情况就是看应聘者有没有成功的案例,但其实这种方式的是非常不科学的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 968
    • SEO的能力
  • 网站排名优化seo学习心得

    seo学习心得

    近几年网络推广的费用成本直线上升,正是因为如何免费的SEO优化更加的得到青睐,可以有效的降低推广成本,因此对于SEO优化这块的专业人士的需求还是很大的,SEO优化作为在学校之后没有设立任何教学的领域,更多的依靠社会人士的自学来创造出相关的专业人士。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1236
    • seo学习心得
  • ETag对于SEO优化的作用

    ETag,SEO优化

    ETag,全称Entity Tag,中文名为实体标签,是HTTP协议的一部分。它是Web服务器和浏览器用于确认缓存组件有效性的一种机制。合理正确的使用ETag对于seo优化可以起到非常大的帮助,今天就和潘某人SEO一起来了解下ETag是何为以及对SEO优化起到了何种作用。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 381
    • ETag
    • SEO优化
  • 页面收录是一个怎么样的流程

    页面收录,搜索引擎

    搜索引擎收录一个页面的流程是怎么样的呢?网站优化收录是我们每天关注的,但是你是否知道收录的流程呢?了解网页是如何被收录的,把收录的流程了解清楚对于优化工作是有很大的意义的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1709
    • 页面收录
    • 搜索引擎
  • 网站seo如何正确设置基础信息

    seo,基础信息

    什么是搜索展现基础信息、标题设置规范、摘要设置规范、站点名设置规范、配图设置规范、时间因子设置规范以及网站内容设置注意事项,详细讲解如何正确设置基础信息。用户在百度搜索引擎中根据自身的搜索需求输入关键词,从得到的搜索结果中,筛选出符合需求的内容,产生点击行为。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1025
    • seo
    • 基础信息
  • “千人一面”与“千人千面”的区别

    千人一面,千人千面

    大家有没有发现在查询关键排名的时候,旁人搜索出来的结果和你不一样呢?造成这种现象是因为千人千面的存在,千人千面简单的讲就是一千人提供一千种策略,也是对于每个用户的策略都是不同的。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1403
    • 千人一面
    • 千人千面
  • 下载站注意,清风算法4.0来了

    清风算法4.0,SEO算法,下载站

    如果你的站点是下载站,那么请一定进来看下百度清风算法4.0版本,2021-09-02百度搜索资源平台发布公告对清风算法进行升级,进入了4.0版本。本次清风算法升级加大了针对不符合规范的低质下载站,将限制其在百度搜索结果中的展现。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1514
    • 清风算法4.0
    • SEO算法
    • 下载站
  • 如何最大化挖掘关键词

    挖掘关键词

    关键词挖掘一定程度上决定了SEO优化的成与败,在网站的内容和搜索引擎之间衔接的桥梁就是关键词,关键词是用户需求解决的起点,对于搜索引擎通过关键词来匹配最优质的内容的。不考虑其他因素,站点的关键词覆盖面更全,流量覆盖更完整。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 828
    • 挖掘关键词
  • 域名注册注意什么

    域名注册注意点

    域名注册注意什么?对于网站优化来说域名的选择是非常重要的,如果在域名的选择注册时发生了错误,那么对于网站后续的SEO优化是一个非常不利的起点,对于任何一件事一个好的开始是成功的一半。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1092
    • 域名注册注意点
  • 用户喜欢的内容的样子,你知道吗

    SEO优化,用户喜欢的内容

    SEO优化回归本质是内容的优化,内容的核心是基于用户的需求,那么你了解用户吗?用户真正想要的内容是怎么样呢?当你搞明白了这个问题,相信对于的SEO优化会有很大的帮助。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 973
    • SEO优化
    • 用户喜欢的内容
  • 移动站点SEO优化不可忽视的点

    SEO优化

    随着智能手机的普及,移动互联网已经成为我们日常生活中不可或缺的一部分。特别是在电商领域,移动端的成交量已经远超PC端,成为主流。面对这样的趋势,如何优化我们的手机网站,以提供最佳用户体验并促进转化率呢?今天潘某人SEO就来探讨下手机网站优化的关键点,帮助您在竞争激烈的市场中占据优势。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 252
    • SEO优化
  • 新站不收录的原因

    新站不收录

    网站收录的重要性不言而喻,对于SEO优化来说,能够获得稳定的收录增长是最基本的。那么是哪些因素导致新站不收录呢?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1186
    • 新站不收录
  • 收下这份防爬虫的策略

    爬虫

    对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 775
    • 爬虫
  • 网站打开速度慢的原因及解决方案

    网页打开速度

    有些站点各方面优化都很注重,但是却忽略了极为重要的网站的打开速度。对于搜索引擎网站稳定的打开速度决定了蜘蛛的抓取频次及抓取成功率;对于用户,打开速度慢会选择直接关闭,导致流量的丢失。

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 1134
    • 网页打开速度
  • 影响网站页面加载速度的原因,如何提升加载速度

    页面加载速度,网站优化

    百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户流畅快捷的极速体验,而加载速度过长的页面,会加快用户的流失。谁在影响页面的加载速度?

    用于表示时间的图标 一个时钟的图标,用于向用户表达后面跟着的是一个时间
    用于表示阅读次数的图标 一个类似睁开眼睛的图标,用于向用户表达后面跟着的数字是一个阅读的次数 787
    • 页面加载速度
    • 网站优化