首页 >  SEO >  SEO算法 >  正文

SimHash算法,关键词堆砌打击

2895

Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,尤其是新站一旦有关键词堆砌的嫌疑,将会在好几个月内无法获得排名。

说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页,爬虫需要对网页进行判重处理。如果采用VSM方法,计算量是相当可观的。

这里介绍的SimHash算法很好的解决了VSM方法的缺陷,该方法最初由Google提出,用于网页去重。在介绍SimHash前,先大概说下传统的Hash算法。我们知道,衡量一个Hash算法好坏的一个指标是随机性。也被称作简单一致散列假设:每个关键字都等可能地散列到m个槽位中的任何一个中去,并与其他的关键字已被散列到哪一个槽位中无关。说白了,就是让散列的分布尽量均匀,哪怕内容发生很小的变化,hash值也会发生很大的变化。因此,根据传统的hash值无法得知被散列内容的相似程度。

simhash可以计算文本间的相似度,我们可以通过simhash算法计算出文档的simhash值,通过比较各个文本的simhash值之间的汉明距离的大小来判断其相似度,汉明距离越小,则相似度越大。一般大文本去重,大小<=3的即可判断为重复。



simhash算法分为5个步骤:1、分词、2、hash、3、加权、4、合并、5、降维


1、分词:

选择适合自己的分词库进行分词即可。

如“欢迎来到随迹”->(分词后)“欢迎”、“来到”、“随迹”


2、hash:

对每个词计算其hash值,hash值为二进制数01组成的n-bit签名。

设“欢迎“(100101)、“来到”(101011)、“随迹”(101011)


SimHash算法


3、加权:

对于给定的文本,权值即为分词后对应词出现的数量。给所有特征向量进行加权,即W = Hash * weight;这里我们假设三个词权值分别为4、5、9;

根据计算规则遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘

例如给“欢迎”的hash值“100101”加权得 到:W(欢迎) = 1001014 = 4 -4 -4 4 -4 4,给“来到”的hash值“101011”加权得到:W(来到)=1010115 = 5 -5 5 -5 5 5,剩下的按此规则计算


4、合并

将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“欢迎”的“4 -4 -4 4 -4 4”和“来到”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。


5、降维

对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海 明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/407
相关文章
  • 网站一定要定期更新吗?节假日停更对于SEO会有影响吗?

    定期更新,SEO影响

    春节来临大家的站点的节假日会继续正常的更新吗?节假日停止更新对于站点会有不利的影响吗?不知道大家有没有想过这个问题呢?还是说管它怎么样,哪有比我过节重要呢?

    551
    • 定期更新
    • SEO影响
  • 网页打开速度很慢,对SEO有何影响

    网页打开速度,SEO影响因素

    网站打开速度是很多站点在优化的时候比较容易忽视的问题,然后网站打开速度慢不仅对于SEO优化会有很大的影响,对于网站的流量转化也会造成直接巨大的影响。今天来探讨下网站打开速度对于SEO有什么影响,又如何去提升网站的速度呢?

    1203
    • 网页打开速度
    • SEO影响因素
  • 百度不收录网站怎么办

    网站不收录

    百度不收录网站怎么办,不收录对于SEO人员来说是一个致命一击。我们如何才能保证网站出现不收录的问题,当网站出现收录问题的时候我们又应该如何应对呢?

    901
    • 网站不收录
  • SEO如何正确的进行工作交流沟通

    SEO,工作交流,沟通

    今天这个话题就非常的有意思,不管是不是从事SEO都可以看一下,和每个人息息相关,就是在工作中如何正确的进行交流。大家觉得交流沟通的重点是什么?我说是解决问题大家没有意见吧!交流沟通最终的目的必然是解决问题。但是在现实中,大部分的交流沟通是没有结果的。

    508
    • SEO
    • 工作交流
    • 沟通
  • SEO中domain的是什么

    domain,什么是domain

    SEO中domain的是什么,domain可以一定程度上反映外链数,但是能作为外链数量的判断标准。如何提升domain数。

    1657
    • domain
    • 什么是domain
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    2393
    • PC站和移动站如何做适配
  • 移动站SEO优化要点

    移动站优化

    进入2015年之后,很多用户从PC端向移动端迁移.但目前很多企业并没有建设专门的移动站,这也使得移动手机网站的SEO优化工作还处于探索阶段。分享移动站SEO优化的七个方法,具体可以从这几方面来了解(此经验适合新手)

    1956
    • 移动站优化
  • HTTP和HTTPS对于SEO优化有影响吗

    HTTP和HTTPS,SEO优化

    HTTP和HTTPS对于SEO优化有影响吗?这应该是很多人会有疑虑的,由于很多老站点都是http协议的,会纠结https对于seo优化会更加友好吗?在网站是否升级https的问题上犹豫不觉着。结论是有条件升级https的还是尽可能升级。

    630
    • HTTP和HTTPS
    • SEO优化
  • 如何做到秒收录,保护原创

    保护原创,及时收录

    对于保护原创内容的所有,保证内容的及时收录很重要,有的时候经常会遇到自己幸幸苦苦码出来的内容被别人转载了,还比自己先收录,这边就教大家几个技巧,来有效的防止原创内容被他们抄袭被先收录.....

    1923
    • 保护原创
    • 及时收录
  • 域名泛解析对SEO优化的影响

    泛域名解析

    域名泛解析对SEO优化的影响超乎你的想象,通过泛域名解析来增加抓取及收录,在现阶段基本可以认为是提条绝路,基本上是百害无一利。

    3278
    • 泛域名解析
  • 如何让关键词排名进入前20名

    主动访问用户,排名如何进入前20

    进入50名是一道坎,靠外链用户积累可以做到,但是关键词排名进入前20名,还是得靠主动访问用户占比的提高,也就用内容抓住用户,提高用户的忠诚度,二次访问。

    1753
    • 主动访问用户
    • 排名如何进入前20
  • 百度搜索算法大全,站长速度查阅收藏

    百度搜索算法

    百度搜索算法大全,百度算法主要从:页面内容质量、用户需求满足、用户体验友好、搜索公正及用户安全,今天给大家梳理下这四块内容下涉及到的算法。作为seo优化从业者必须掌握的搜索引擎的算法,梳理一下百度搜索引擎常见的算法。飓风算法、劲风算法、细雨算法、蓝天算法、冰桶算法、惊雷算法、清风算法

    1849
    • 百度搜索算法
  • 智能小程序对seo效果那么好,为什么做的人还是很少

    智能小程序,seo优化

    站点开通智能小程序可以有机会获得站点logo权限、快速收录等权限,对于seo优化有着非常好的帮助。即使如此智能小程序的普及并不高,大家知道这是为什么吗?

    613
    • 智能小程序
    • seo优化
  • SEO挖掘关键词的方法

    关键词挖掘

    找对关键词就是抓住了流量的入口,关键词决定了你内容,决定了可以带来什么类型的流量。那么挖掘关键词的渠道有哪些呢?

    769
    • 关键词挖掘
  • 网站采集对seo优化有哪些影响

    采集对于SEO的影响

    网站采集对seo优化有哪些影响,百度有飓风算法就是针对于网站内容采集的。那么我们作为站长应该是如何采集文章效果号,有效提高我们网站的内容建设。

    2096
    • 采集对于SEO的影响
  • 如何识别百度蜘蛛

    百度蜘蛛辨别

    如何识别百度蜘蛛,百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?

    1269
    • 百度蜘蛛辨别
  • 仿站相似站会对SEO有影响吗

    仿站SEO

    仿站或者类似结构站点会对SEO有影响吗?如何去搭建网站才能更加利于站点的seo优化呢?仿站对于网站优化的利弊有哪些呢?

    572
    • 仿站SEO
  • 网站site和索引量差距过大

    site与索引量

    对于seo的日常会比较关注site出来的结果数量和站长后台的索引量,但是很多情况下我们会遇到site数量和索引量的差距比较大,出现这种情况大家的小心脏不免心慌慌,那么为什么站长平台的索引量和site展现不一致呢?

    2211
    • site与索引量
-- 这已经是底线了,看看别的把! --