首页 >  SEO >  SEO算法 >  正文

SimHash算法,关键词堆砌打击

 作者:潘某人SEO
2712

Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,尤其是新站一旦有关键词堆砌的嫌疑,将会在好几个月内无法获得排名。

说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页,爬虫需要对网页进行判重处理。如果采用VSM方法,计算量是相当可观的。

这里介绍的SimHash算法很好的解决了VSM方法的缺陷,该方法最初由Google提出,用于网页去重。在介绍SimHash前,先大概说下传统的Hash算法。我们知道,衡量一个Hash算法好坏的一个指标是随机性。也被称作简单一致散列假设:每个关键字都等可能地散列到m个槽位中的任何一个中去,并与其他的关键字已被散列到哪一个槽位中无关。说白了,就是让散列的分布尽量均匀,哪怕内容发生很小的变化,hash值也会发生很大的变化。因此,根据传统的hash值无法得知被散列内容的相似程度。

simhash可以计算文本间的相似度,我们可以通过simhash算法计算出文档的simhash值,通过比较各个文本的simhash值之间的汉明距离的大小来判断其相似度,汉明距离越小,则相似度越大。一般大文本去重,大小<=3的即可判断为重复。



simhash算法分为5个步骤:1、分词、2、hash、3、加权、4、合并、5、降维


1、分词:

选择适合自己的分词库进行分词即可。

如“欢迎来到随迹”->(分词后)“欢迎”、“来到”、“随迹”


2、hash:

对每个词计算其hash值,hash值为二进制数01组成的n-bit签名。

设“欢迎“(100101)、“来到”(101011)、“随迹”(101011)


SimHash算法


3、加权:

对于给定的文本,权值即为分词后对应词出现的数量。给所有特征向量进行加权,即W = Hash * weight;这里我们假设三个词权值分别为4、5、9;

根据计算规则遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘

例如给“欢迎”的hash值“100101”加权得 到:W(欢迎) = 1001014 = 4 -4 -4 4 -4 4,给“来到”的hash值“101011”加权得到:W(来到)=1010115 = 5 -5 5 -5 5 5,剩下的按此规则计算


4、合并

将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“欢迎”的“4 -4 -4 4 -4 4”和“来到”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。


5、降维

对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海 明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。


申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 本文参考于互联网如有侵权,请联系 pmrseo@foxmail.com删除 本文地址:https://www.chateach.com/seo/seosuanfa/407
相关文章
  • 实测——百度api和手动提交需要重复提交吗

    百度api提交,手动提交,网站收录

    很多站点为了收录速度就会使用api提交之后还会在手动提交一下链接,期望加快收录速度,那么这种重复提交的行为对于收录有作用吗,今天就来现场实测一下。

    971
    • 百度api提交
    • 手动提交
    • 网站收录
  • 域名转移怎么操作

    域名转移怎么操作

    域名对于网站优化来说是十分重要的,因此保持域名的稳定对于SEO优化来说至关重要。我们应该对自己的域名进行集中管理。那么这里就要涉及到域名的转移过户,这种情况分为两种。一种是账户转移,一种是夸服务商转移。

    1924
    • 域名转移怎么操作
  • ETag对于SEO优化的作用

    ETag,SEO优化

    ETag,全称Entity Tag,中文名为实体标签,是HTTP协议的一部分。它是Web服务器和浏览器用于确认缓存组件有效性的一种机制。合理正确的使用ETag对于seo优化可以起到非常大的帮助,今天就和潘某人SEO一起来了解下ETag是何为以及对SEO优化起到了何种作用。

    17
    • ETag
    • SEO优化
  • 内容权威性对网站排名的影响

    权威性与排名

    你知道吗网站内容的权威性一定程度上决定了网站的质量以及排名。你知道什么是权威性呢,我们应该如何去优化网站才可以提网站在领域内的权威性呢?

    849
    • 权威性与排名
  • seo优化行业的现状

    seo优化的现状

    seo优化行业的现状解析。随着付费推广的竞争 越来越激烈,广告成本也是指数级的上升,这也一定的程度会让大家重视成本相对更低的SEO优化。但是SEO优化行业却充满着不和谐的因素!

    961
    • seo优化的现状
  • 影响网站页面加载速度的原因,如何提升加载速度

    页面加载速度,网站优化

    百度搜索对用户行为的研究表明,页面首屏的加载时间在1秒以内的页面,会带给用户流畅快捷的极速体验,而加载速度过长的页面,会加快用户的流失。谁在影响页面的加载速度?

    461
    • 页面加载速度
    • 网站优化
  • 移动网页怎么快速排名

    移动排名优化

    移动网页怎么快速排名?从移动网站准备阶断、移动页面细节把握、搜索引擎工具这三方来讲下如何对于移动端的优化。为了让移动页面有较好的收录,在网站准备阶断就要进行考虑。首先,移动网站与pc网站一样,选择简短、易懂、注册年限较长的域名有利于搜索引擎收录。

    1064
    • 移动排名优化
  • 死链对于SEO的危害,及其处理方式

    死链,SEO优化

    ​网站运营之中死链的出现是无法避免的,但如果无法及时发现并正确处理势必对于网站的SEO优化产生一定的影响。那么我们应该如何及时发现死链,如何及时处理呢?

    627
    • 死链
    • SEO优化
  • 百度自然排名的规律

    自然排名的规律

    排在百度首页的,很多人认为是经常更新内容,外链发的多,时间做得久的页面,但实则不然。那么我们如何做才能在百度SEO中脱颖而出呢?从百度排名的规则分析了如何快速获得排名呢?

    1799
    • 自然排名的规律
  • SEO关键词优化策略

    关键词,SEO

    站点SEO关键词的优化策略应该是怎么样的。也许那个SEO从业者都有着不同看法对于这个问题,​大家SEO优化关键词的策略是怎么样的呢?

    474
    • 关键词
    • SEO
  • 链接权重分析HITS算法的不足之处

    HITS算法的不足之处,链接权重分析

    搜索引擎链接权重分析,主要参考。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法的不足之处,引用越多高质量页面的网页,其链接权威度越高。

    1999
    • HITS算法的不足之处
    • 链接权重分析
  • 原创内容收录排名一定好吗?

    原创内容收录

    可以说现在已经已经进入了内容为王的时代,站点想要流量就必须生产优质内容,逐渐的大家都在进行原创或者为原创,但是很多站点并没有多大的效果,甚至有的站点收录都非常困难。

    840
    • 原创内容收录
  • SEO与付费SEM推广哪个好?

    SEO优化,SEM推广

    网站的推广方式只要有两种SEO(搜索引擎优化)和SEM(搜索引擎竞价推广),两者同时通过在搜索关键词时在搜索引擎上获得靠前的排名,增加展现几率来获取用户的点击。那么SEO与付费SEM推广哪个好呢,那种推广方式才更加适合我们呢?

    689
    • SEO优化
    • SEM推广
  • seo关键词优化策略新手必看

    seo关键词优化

    大家觉得如何才能做好一个站的seo优化呢?站点seo优化效果是无数因素的一个集合,站点的流量则是一个个关键词流量的集合。站点的可以获取的流量则取决于各个关键词可以带来的流量,以及关键词的数量。

    819
    • seo关键词优化
  • 百度站长平台的外链分析工具

    外链分析工具

    百度站长平台的外链分析工具解析,一个网站发外链最多有多少条有效?发布的外链哪些会进行投票加分?同页面两个外链会计算哪个外链进行投票?

    2283
    • 外链分析工具
  • vue适合做SEO优化吗

    vue适合做SEO优化

    现在越来越多的网站开始运用VUE,但是大家都知道搜索引擎对于JavaScript是不友好的,而vue框架本质就是javascript是一种应用,那么对于网站有SEO优化需求的站点对于vue应该如何的抉择。

    1225
    • vue适合做SEO优化
  • seo页面优化的常用技术

    seo页面优化的

    seo页面优化的常用技术,从核心关键词分析定位、网站目录和页面优化、标签优化技巧、利用好百度搜索资源平台、提高页面的附加价值、访客到客户的转化工作几个角度来讲下SEO页面优化的常用技术。

    1164
    • seo页面优化的
  • 网站排名不稳定如何处理

    网站排名不稳定

    网站排名不稳定如何处理,多数情况站长会比较喜欢新网站内容运营,相对来说只需要做基础的工作内容建设,而且效果很快就能看到。老网站基础内容已经做得差不多,排名不稳定也不知如何下手,让很多站长们头疼,那么老网站排名不稳定,SEO优化该如何处理?

    1227
    • 网站排名不稳定
-- 这已经是底线了,看看别的把! --