首页 > SEO > SEO算法 > 正文

SimHash算法，关键词堆砌打击

发布于：2020-05-10 16:05:45

Simhash算法又被SEO站长们成为关键词匹配算法，当用户搜索一个关键词的时候，会出现相关的网站进行展现，但是前些年有个别站长发现关键词密度越高排名越好，这是搜索引擎前期的漏洞，Simhash算法（也成分词匹配算法）对关键词堆砌起到了决定性的打击，尤其是新站一旦有关键词堆砌的嫌疑，将会在好几个月内无法获得排名。

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（Vector Space Model）。使用VSM计算相似度，先对文本进行分词，然后建立文本向量，把相似度的计算转换成某种特征向量距离的计算，比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题：需要对文本两两进行相似度比较，无法扩展到海量文本的处理。想想像Google这种全网搜索引擎，收录了上百亿的网页，爬虫每天爬取的网页数都是百万千万级别的。为了防止重复收录网页，爬虫需要对网页进行判重处理。如果采用VSM方法，计算量是相当可观的。

这里介绍的SimHash算法很好的解决了VSM方法的缺陷，该方法最初由Google提出，用于网页去重。在介绍SimHash前，先大概说下传统的Hash算法。我们知道，衡量一个Hash算法好坏的一个指标是随机性。也被称作简单一致散列假设：每个关键字都等可能地散列到m个槽位中的任何一个中去，并与其他的关键字已被散列到哪一个槽位中无关。说白了，就是让散列的分布尽量均匀，哪怕内容发生很小的变化，hash值也会发生很大的变化。因此，根据传统的hash值无法得知被散列内容的相似程度。

simhash可以计算文本间的相似度，我们可以通过simhash算法计算出文档的simhash值，通过比较各个文本的simhash值之间的汉明距离的大小来判断其相似度，汉明距离越小，则相似度越大。一般大文本去重，大小<=3的即可判断为重复。

simhash算法分为5个步骤：1、分词、2、hash、3、加权、4、合并、5、降维

1、分词：

选择适合自己的分词库进行分词即可。

如“欢迎来到随迹”->（分词后）“欢迎”、“来到”、“随迹”

2、hash：

对每个词计算其hash值，hash值为二进制数01组成的n-bit签名。

设“欢迎“（100101）、“来到”（101011）、“随迹”（101011）

SimHash算法

3、加权：

对于给定的文本，权值即为分词后对应词出现的数量。给所有特征向量进行加权，即W = Hash * weight；这里我们假设三个词权值分别为4、5、9；

根据计算规则遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘

例如给“欢迎”的hash值“100101”加权得到：W(欢迎) = 1001014 = 4 -4 -4 4 -4 4，给“来到”的hash值“101011”加权得到：W(来到)=1010115 = 5 -5 5 -5 5 5，剩下的按此规则计算

4、合并

将上述各个特征向量的加权结果累加，变成只有一个序列串。拿前两个特征向量举例，例如“欢迎”的“4 -4 -4 4 -4 4”和“来到”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。

5、降维

对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维（某位大于0记为1，小于0记为0），得到的01串为：“1 0 1 0 1 1”，从而形成它们的simhash签名。

如何禁止网页内容被复制
现在SEO优化鼓励内容为王，也就是鼓励大家原创。那么问题来了，如果当我们在原创的时候自己的内容却在被别人抄袭，是不是很气人，今天教大家如何屏蔽网页内容的复制。
2020-03-14 1915
- 如何禁止网页内容被复制
关注网站抓取频率的重要性
关注网站抓取频率的重要性，每天都会有数以万计的url被搜素引擎抓取，而形成的相互的链接，而构成了我们所看到的互联网，对于网站优化来讲，就是网站抓取频率，那网站抓取频率对seo有哪些重要的意义呢？下面我们来看看为什么要关注网站抓取频率。
2020-07-19 2271
- 网站抓取频率
网站优化中的site指令怎么使用
讲述site命令的定义，以及site命令为什么说对于SEO优化来说有着至关重要的作用。了解该命令的真正含义对于排名优化十分重要。
2019-12-26 1911
- site命令的使用方法
- 注意事项
cms是什么意思
CMS是Content Management System的缩写，意为"内容管理系统"。常见的CMS系统主要包括：帝国cms、织梦cms、phpcms、WordPress、Zblog等博客系统。
2021-07-20 838
- cms系统
- WordPress
如何通过软文营销来提高关键词排名
如何通过软文营销来提高关键词排名呢？其中关键的地方就在于关键词的选择和关键词的布局。因为在一篇高质量的软文当中，关键词既不能太多又不能太少。另外对于关键词的选择和使用也是有许多讲究的。
2020-06-23 1830
- 软文SEO优化
链接权重分析HITS算法的不足之处
搜索引擎链接权重分析，主要参考。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法的不足之处,引用越多高质量页面的网页，其链接权威度越高。
2020-04-26 2350
- HITS算法的不足之处
- 链接权重分析
关于索引量，你必须知道的事
网站被Baiduspider抓取收录后，经过一系列计划才得以建入索引库，有了和搜索用户见面的机会。所以，索引量一直是站长们关注的焦点，但我们发现，依然有很多站长对索引量存在误读。
2020-04-18 1846
- 百度索引量
智能小程序对seo效果那么好，为什么做的人还是很少
站点开通智能小程序可以有机会获得站点logo权限、快速收录等权限，对于seo优化有着非常好的帮助。即使如此智能小程序的普及并不高，大家知道这是为什么吗？
2022-05-30 703
- 智能小程序
- seo优化
新站不收录怎么办，如何快速收录
对于新网站来说收录是一个比较困难的，相信很多SEO们都会遇到。分享一下如何让新站可以实现一个月不到就开始稳定快速收录，以及新站建站中需要注意的哪些坑.....
2020-02-13 2551
- 新站不收录解决方法
图片字体版权你注意了吗？
如果作为一个网站运营者，对于图片字体版权没有一个正确的认知，那么在你盈利之前可能就要做一个赔钱货了！
2021-05-19 1000
- 图片版权
- 字体版权
SEO中domain的是什么
SEO中domain的是什么，domain可以一定程度上反映外链数，但是能作为外链数量的判断标准。如何提升domain数。
2019-09-02 1773
- domain
- 什么是domain
如何做好原创内容版权保护
分享如何对站点原创内容的保护，如何查找抄袭站点，如何保留抄袭证据等方法，来保护自己的合法权益。
2021-08-27 1188
- 版权保护
- 原创内容保护
- 百度时间因子
SEO优化的基础要素
根据多年的SEO优化经验，为大家总结下SEO优化的基础要素，可以说以下几点搞清楚对于网站收录提升是非常重要的。
2022-02-07 705
- SEO优化
原创内容如何保护，防止被抄袭爬取
如今搜索引发展趋势是内容为王，想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。
2021-03-04 1204
- 原创保护
- 防止抄袭爬取
内容模块之间为何要设置合理间隔
内容模块之间为何要设置合理间隔，主体内容应与广告、相关推荐等次要内容板块之间有明显间隔距离或分割线，使用户获取信息时不受任何干扰。”本文将为你详细讲解如何设置合理间隔更符合用户浏览页面信息的需要。
2020-05-19 1504
- 页面为何要设置合理间隔
别让推广追踪url链接毁了你的SEO
推广追踪url链接也就是我们常说的跟踪链接，它可以帮助我们实现对于广告投放效果的追踪。不管是常见SEM推广，其它的推广方式都需要用到跟踪链接，但是很多站点没有正确的使用，不知不觉中对站点的SEO已经造成了不利的影响。
2023-07-27 843
- 追踪链接
- 跟踪链接
AI人工智能对于SEO优化产生的影响
如今，AI人工智能已经渗透到生活工作中的方方面面，应用场景日益丰富，于此同时问题也逐步显现，如隐私保护、社会影响、就业影响等问题，那么人工智能AI对于SEO优化会产生什么样的影响呢？今天我们就来探索下AI对于SEO会带来什么样的影响,分别从搜索引擎的三方角色进行分析。
2024-06-21 719
- AI
- SEO优化
SEO优化有没有更好的捷径
SEO优化有没有更好的捷径，SEO优化没有捷径SEO优化营销推行掩盖面广，多渠道，多范畴，多查找引擎渠道展现，一切的事物都是平衡的，多劳多得，没有什么捷径。最多是少走点弯路
2020-05-26 1761
- seo优化捷径

-- 这已经是底线了,看看别的把！ --

1、分词：

2、hash：

3、加权：

4、合并

5、降维

如何禁止网页内容被复制

关注网站抓取频率的重要性

网站优化中的site指令怎么使用

cms是什么意思

如何通过软文营销来提高关键词排名

链接权重分析HITS算法的不足之处

关于索引量，你必须知道的事

智能小程序对seo效果那么好，为什么做的人还是很少

新站不收录怎么办，如何快速收录

图片字体版权你注意了吗？

SEO中domain的是什么

如何做好原创内容版权保护

SEO优化的基础要素

原创内容如何保护，防止被抄袭爬取

内容模块之间为何要设置合理间隔

别让推广追踪url链接毁了你的SEO

AI人工智能对于SEO优化产生的影响

SEO优化有没有更好的捷径