首页 > SEO > SEO知识 > 正文

如何防止假蜘蛛抓取内容

发布于：2021-05-06 20:49:29

作者：潘某人SEO

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛，假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽，对于搜索引擎蜘蛛站点都是没什么警惕心，希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此，我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查，比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛，在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛，内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取，我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例，可以使用gethostbyaddr函数，可以实现nslookup同样的功能，返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名，然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查，我们可以把这类蜘蛛的ip段添加白名单，同时我们对于网站反查到的蜘蛛ip经过人工确定之后，也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛，以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为，对于异常ip我们可以使用验证码等方式验证，这也是基于我们拥有了通过ip鉴别蜘蛛的前提下，可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集，要想完全避免是不可能的，是双方之间的一场博弈。

什么是网站的抓取频次
抓取频次是搜索引擎蜘蛛在单位时间内容访问网站的次数，比如在百度站长工具内容看到的抓取的频次都是按天进行统计的，那么数据中的抓取频次都是日抓取频次。
2021-05-27 1226
- 抓取频次
- 网站收录
keywords、description已经不重要了?
不要随大众觉得keywords、description,即SEO优化中常说的关键词和描述两大SEO标签不在重要，这种观点过于果断缺乏依据。无论搜索引擎怎么调整。
2019-09-06 2090
- keywords和description
- SEO标签
- 关键词和描述
搜狗一直不收录怎么办
现在新站收录各大搜索引擎越来越难，主要是因为一方面互联网的飞速发展，站点的数量也是指数级别的递增，所以最不缺的就是站点。缺少的是有价值的站点，由于网站数量的庞大，抓取站点需要的资源也越来越大，对于搜索引擎加大对于站点的筛选，选择有价值的站点去优先抓取，显得非常的合理。
2021-02-24 948
- 搜狗不收录
SEO优化之外链
SEO外链优化，买卖链接不可取，迟早要被打击，目光放远的，多提升站点内容质量，外链在于精，不在于多。切记不要舍本逐末。
2019-08-27 1684
- 外链优化
- 绿萝算法
SEO优化中如何控制关键词密度频率
SEO优化中如何控制关键词密度频率，关键词的密度不是越高越好，不同行业网站的密度的阈值也是不一样宁愿关键词密度低，也不要的一味去堆砌关键词。
2019-08-28 1545
- 关键词密度
- 关键词频率
DNS对于SEO至关重要
如果你错误的选择dns服务器，那么对于站点的SEO优化是致命的，轻则影响SEO效果，严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器，正确的选择对于seo优化是必要的也是重要的。
2023-08-24 681
- DNS服务器
- seo
长尾关键词
什么是长尾关键词，不管网站权重高低，长尾词的建设在SEO优化中起着至关重要的作用，长尾关键词不仅可以提升目标关键词的排名，其次长尾关键词占据着更多的流量
2019-08-26 1875
- 关键词建设
- 长尾关键词
什么是SEO网站权重
什么是SEO网站权重，网站权重对于网站优化的重要性。如何查看自己网站的权重，以及如何进行SEO优化提升。方向优质内容，持之以恒坚持优化。
2019-08-25 1602
- 网站权重
百度快照与权重的关系
百度快照与权重的关系，事实上百度快照并不能反映出搜索引擎蜘蛛抓取网站数据的时间，更不能决定页面的权重。所以大家不必过度的关注百度快照
2019-08-29 1408
- 权重
- 百度快照
网站响应速度如何提升
网站响应速度如何提升，移动网站越来越受到重视.网页的加载速度也是用户体验中就重要的一环。百度推出的闪电算法更是要求移动端的网页必须在2秒内完全加载，这也成了整个行业的标准。同时网站的加载速度也将直接影响搜索引擎中的排名。
2020-03-18 2042
- 网站速度提升
网站为什么不收录
有些站点不管怎么折腾就是不收录，那你知道不收录的原因吗？我们如何知道站点不收录的原因。网站不收录的原因，大致可以分类两类：内容没有被抓取到和网站存在违规不符合收录标准。
2021-03-10 808
- 网站不收录
百度搜索引擎蜘蛛喜欢什么样的网站结构
百度搜索引擎蜘蛛喜欢什么样的网站结构？希望能在百度获得好的排名、更多优质低价的流量，这个前提就是网站得有好的结构，百度蜘蛛才能顺利、快速的抓取，也就是说网站结构是关键词排名、链接优化、内容优化的前提。
2020-06-10 1497
- seo网站结构
内链算法快,快速提升关键词排名
内链算法快,快速提升关键词排名？内链是搜索引擎200多项算法中对网站打分的一个重要算法，利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链，
2020-05-11 1599
- 内链算法
网站seo首页标题怎么写
标题是一篇文章的核心，是对于全片内容的一个简明扼要的概括，同样一个网站的首页的标题是整个网站的一个门面，代表着整个网站的内容及属性。那么网站的标题应该如何写，又该考虑哪些因素呢？
2020-10-26 1055
- seo首页标题
seo优化必须知道的网站路径结构重点
网站路径是最容易被站长们忽略的关键点，网站路径对于网站的结构有着关键的影响，并且对于seo优化起到了深远的影响。今天给大家分享下，网站路径与seo之间的关系，我们应该如何处理正确的处理网站路径。
2022-09-21 802
- seo优化
- 网站路径
- 采集
智能小程序对seo效果那么好，为什么做的人还是很少
站点开通智能小程序可以有机会获得站点logo权限、快速收录等权限，对于seo优化有着非常好的帮助。即使如此智能小程序的普及并不高，大家知道这是为什么吗？
2022-05-30 615
- 智能小程序
- seo优化
新站如何快速增加收录
网站收录的开始，是站点SEO优化旅程的开启。对新站的SEO优化来说，收录就是一个难题，几个月不收录或者只收录几个页面是很常见的。那么新站我们如何做到快速收录呢？
2020-11-10 1507
- 新站快速收录
搜索引擎的工作原理
讲述搜索引擎的工作原理，以及SEO优化中如何提高收录效率的方法。提高网站内容的质量原创度，稀缺性，和搜索引擎建立良好的信任关系。
2019-08-30 1369
- 搜索引擎工作原理
- 收录原理

-- 这已经是底线了,看看别的把！ --

什么是假蜘蛛

如何鉴别假蜘蛛

如何识别鉴别假蜘蛛

添加蜘蛛白名单

原创保护防采集

什么是网站的抓取频次

keywords、description已经不重要了?

搜狗一直不收录怎么办

SEO优化之外链

SEO优化中如何控制关键词密度频率

DNS对于SEO至关重要

长尾关键词

什么是SEO网站权重

百度快照与权重的关系

网站响应速度如何提升

网站为什么不收录

百度搜索引擎蜘蛛喜欢什么样的网站结构

内链算法快,快速提升关键词排名

网站seo首页标题怎么写

seo优化必须知道的网站路径结构重点

智能小程序对seo效果那么好，为什么做的人还是很少

新站如何快速增加收录​

搜索引擎的工作原理

新站如何快速增加收录