首页 >  SEO >  SEO算法 >  正文

SimHash算法,关键词堆砌打击

2890

Simhash算法又被SEO站长们成为关键词匹配算法,当用户搜索一个关键词的时候,会出现相关的网站进行展现,但是前些年有个别站长发现关键词密度越高排名越好,这是搜索引擎前期的漏洞,Simhash算法(也成分词匹配算法)对关键词堆砌起到了决定性的打击,尤其是新站一旦有关键词堆砌的嫌疑,将会在好几个月内无法获得排名。

说到文本相似性计算,大家首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网搜索引擎,收录了上百亿的网页,爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页,爬虫需要对网页进行判重处理。如果采用VSM方法,计算量是相当可观的。

这里介绍的SimHash算法很好的解决了VSM方法的缺陷,该方法最初由Google提出,用于网页去重。在介绍SimHash前,先大概说下传统的Hash算法。我们知道,衡量一个Hash算法好坏的一个指标是随机性。也被称作简单一致散列假设:每个关键字都等可能地散列到m个槽位中的任何一个中去,并与其他的关键字已被散列到哪一个槽位中无关。说白了,就是让散列的分布尽量均匀,哪怕内容发生很小的变化,hash值也会发生很大的变化。因此,根据传统的hash值无法得知被散列内容的相似程度。

simhash可以计算文本间的相似度,我们可以通过simhash算法计算出文档的simhash值,通过比较各个文本的simhash值之间的汉明距离的大小来判断其相似度,汉明距离越小,则相似度越大。一般大文本去重,大小<=3的即可判断为重复。



simhash算法分为5个步骤:1、分词、2、hash、3、加权、4、合并、5、降维


1、分词:

选择适合自己的分词库进行分词即可。

如“欢迎来到随迹”->(分词后)“欢迎”、“来到”、“随迹”


2、hash:

对每个词计算其hash值,hash值为二进制数01组成的n-bit签名。

设“欢迎“(100101)、“来到”(101011)、“随迹”(101011)


SimHash算法


3、加权:

对于给定的文本,权值即为分词后对应词出现的数量。给所有特征向量进行加权,即W = Hash * weight;这里我们假设三个词权值分别为4、5、9;

根据计算规则遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘

例如给“欢迎”的hash值“100101”加权得 到:W(欢迎) = 1001014 = 4 -4 -4 4 -4 4,给“来到”的hash值“101011”加权得到:W(来到)=1010115 = 5 -5 5 -5 5 5,剩下的按此规则计算


4、合并

将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“欢迎”的“4 -4 -4 4 -4 4”和“来到”的“5 -5 5 -5 5 5”进行累加,得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。


5、降维

对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海 明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。


申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seosuanfa/407
相关文章
  • SEO优化前景揭秘,别再被忽悠?

    SEO优化

    随着社交媒体、短视频等新兴渠道的兴起,使得一些用户可能不再完全依赖搜索引擎来获取信息,导致SEO的流量来源受到一定冲击。也就越来越多的人开始唱衰SEO及放弃SEO优化,那么SEO真的大势已去吗?

    220
    • SEO优化
  • 如何快速提高网站收录

    快速收录,网站权重

    如何快速的提升网站的权重,哪些因素影响了网站的收录。但是网站权重不是一朝一夕就可以提升上来的,今天从几个重要点并且是力所能及的的点讲下如何提升网站的收录。

    880
    • 快速收录
    • 网站权重
  • 为什么搜索结果和点进去看的内容不一样

    User-Agent,搜索引擎

    有时候会遇到这种情况,在搜索引擎上找到了需要的内容,但是点击进去网站之后,发现和搜索引擎中的检索结果无关,甚至有的页面连主题都不相关。为什么会有这种情况出现呢?

    1624
    • User-Agent
    • 搜索引擎
  • 百度自然搜索排序规则

    排序规则,百度自然搜索

    搜索引擎排名规则应该是广大站点探究的话题,只有对各大搜索引擎的排名规则有所了解,才能更有针对性的做优化,最短时间获得最好的效果。那么那些因素是决定排名的主要的因素,分享下个人的理解。

    886
    • 排序规则
    • 百度自然搜索
  • 答应我以后别这么设计网址路径,迟早会后悔!

    网址路径

    今天有人跟我痛诉网站几千的内容,全部被爬走了,一个不剩的那种,如何才能避免这种悲剧的发生呢?很多人的站点都会有这个问题,并且我见过的很多企业站点都有这个通病。

    146
    • 网址路径
  • SEO关键词优化的必需知道的秘诀

    SEO关键词优化

    SEO关键词优化的必需知道的秘诀?SEO优化的本质上让设置的词有排名,通过搜索,能找到我们的网站(引流)。做优化的时候,我们还是需要掌握一点小技巧,方法策略运用对了。后面优化起来就会比较方便,而关于技巧方面的。

    1109
    • SEO关键词优化
  • 百度spider抓取过程中涉及的网络协议

    百度spider,抓取

    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。

    364
    • 百度spider
    • 抓取
  • SEO入门到精通需要掌握的知识

    SEO入门教程

    简单理解:SEO实际上是指搜索引擎优化,主要的目的是基于SERP(搜索结果),通过更加符合搜索引擎抓取、索引、排名的方法,有针对性的调整自有网站的相关数据指标,从而提高目标网站相关关键词的排名。 那么对于SEO优化入门者需要掌握哪些知识点,走向精通。

    2001
    • SEO入门教程
  • seo图片优化技巧

    图片优化技巧

    在做SEO优化的过程中,很多人都注重内容的优化,而图片在内容优化中起到了关键性的作用,做好图片的优化,不仅可以在展现的时候能展现,同时也能吸引用户的点击,带来更多的流量,不过由于搜索引擎暂时无法识别图片的内容,因此我们需要做好哪些操作来让搜索引擎更好的了解图片的内容并展现呢?

    1499
    • 图片优化技巧
  • 百度细雨算法打击什么

    百度算法,细雨算法

    细雨算法主要是正对B2B网站,地址栏内容虚假内容进行打击,对于B2B网站应该如何应对。怎么样的内容才是符合百度细雨算法规范的!

    2164
    • 百度算法
    • 细雨算法
  • SEO从业者必须掌握的TDK优化技巧

    SEO关键词,TDK编写,网站描述优化

    SEO从业者需要知道网站TDK是什么,需要知道SEO改如何编写关键词标题描述,现在对于搜索引擎来说关键词和描述并不是很重要了,这么调整原因就是太多了的人乱写关键词,文章与关键词相关性低;不过如果你的关

    1920
    • SEO关键词
    • TDK编写
    • 网站描述优化
  • 分享我的SEO学习方法心得

    SEO学习

    分析一些学习感悟,对于SEO初学者应该如何正确的学习!SEO其实是非常考验综合能力的,文案能力、运营思路、IT能力。

    709
    • SEO学习
  • 烽火算法持续升级,控制回退按钮失效问题

    烽火算法持续,退按钮失效

    烽火算法解析,2021年8月百度搜索引擎对于烽火算法进行了升级,此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。

    1182
    • 烽火算法持续
    • 退按钮失效
  • 百度SEO抓取友好性之链接发现

    百度SEO,链接提交

    ​当网站有了内容,要实现内容的收录,就需要先实现内容被搜索引擎抓取,而要实现抓取就可以让搜索引擎发现链接。对于常见搜索引擎,发现链接的方式主要有两种方式,一种是抓取获取,一种是站点的提交。

    597
    • 百度SEO
    • 链接提交
  • 百度统计事件跟踪怎么添加

    百度统计事件跟踪,_trackEvent

    百度统计事件跟踪_trackEvent怎么添加使用,以一个页面点击的追踪统计作为一个例子。来演示下如何部署使用百度统计的事件分析js-api接口。学会合理利用事件分析功能,会对数据统计的灵活度有很大的提升,不仅对于SEO优化,网站的转化优化都可以提供强有力的支持。

    2166
    • 百度统计事件跟踪
    • _trackEvent
  • 网站seo标题如何设置符合规范

    网站标题,seo规范

    在百度搜索引擎中如何规范的设置网站seo标题,不管是对于用户还是搜索引擎,网站标题是至关重要的;是用户和搜索引擎对于站点的内容了解的关键。站点首页是站点的第一印象,因此网站首页基础信息的设置是十分关键的。

    1433
    • 网站标题
    • seo规范
  • 索引量并不能决定流量大小

    索引量

    很多人认为对于网站优化提升索引数量就可以快速的提升网站的流量,因此对于索引的增加情况十分的关注,整体的精力也是放在如何快速大量增加索引数据。

    1144
    • 索引量
  • 网址结构优化对于SEO的重要性

    网址结构,网站层级

    你的网站的结构是怎么样的结构呢?是佛性随意来,还是条例清晰彰显网站结构层级的呢?不要忽视网址结构的设计对于SEO优化还是比较重要的一个方面。

    1066
    • 网址结构
    • 网站层级
-- 这已经是底线了,看看别的把! --