首页 > SEO > SEO知识 > 正文

如何防止网站被爬虫恶意抓取

发布于：2021-01-29 13:12:47

作者：潘某人SEO

对于SEO优化来说最讨厌的就是抄袭行为，而爬虫技术则是抄袭手段的升级版，通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化，各个站点面对这种行为也是无可奈何。

防爬虫的几种方法

User-Agent屏蔽

User-Agent也就是http请求头，当客户端访问的时候，服务器就可以接收到访问者的User-Agent。我们可以通过设置屏蔽常见的爬虫的User-Agent名，比如python、robots等。

但是这种方法的弊端很明显首先爬虫的User-Agent可以说是各式各样，只能发现了去屏蔽。并且如果是处于恶意爬取为目的的，基本上会把User-Agent伪装成浏览器，很难去发现。

IP访问频次限制

通过检测ip请求的频次来限制访问，当爬虫进行爬取的时候会在短时间内，在同一个IP下频繁抓取不同的页面。我们可以设置一个阈值，同一个IP在多少时间内访问超过多少个页面就屏蔽当前IP或者通过验证码来验证是否是正常访问。

这种方法的弊端就是，如果采用多个IP并且降低抓取的速度就可以绕过这个防御机制。

机智应对爬虫

想要高准确度识别人和爬虫就要首先找到两者最大的差异；一个明显的差异就是人永远只会去访问眼睛能够看见的东西，而爬虫只要去源码里有的网址都会去访问。

因此我们可以使用一个img标签实现精准的爬虫识别,<a href="防御地址"><img src="图片地址" style="height:1px;width:1px;"></a>。我们可以使用一个1个像素点图片，放在导航栏或者网站页面，颜色就融于这个环境，并且放在角落边；这样人眼首先看不到这张图片，其次非常的小根本不可能点击到<a>标签，不会触发防御地址。

爬虫恶意抓取

然而爬虫则会去抓取页面的所有链接，当然我们不一定必须使用img标签，我们只要放下这种类似的陷阱，一但某个ip触发这个防御地址，就直接秒封当前ip。

特点注意事项

搜索引擎蜘蛛的放开，搜索引擎蜘蛛本质上也是爬虫，用上述的方法的时候都要谨慎的处理。需要做好搜索引擎蜘蛛的鉴别，千万不要把搜索蜘蛛也屏蔽了。

我们可以通过设置白名单，将允许访问的蜘蛛的ip端放入白名单不做屏蔽，千万不要通过User-Agent中蜘蛛的UA名来识别，太容易伪造。不过这种方法的问题就是如果搜索引擎增加新的蜘蛛IP段的时候会误伤。

因此对于，触发机制的User-Agent是搜索引擎蜘蛛的时候，我们需要去执行nslookup反查这个ip看它解析到哪里来鉴别是其真实性。

如果站点的规模很大，有一定知名度实力，对于造成了一个的损失。那么就直接保留日志证据，请对方吃牢饭。

图片字体版权你注意了吗？
如果作为一个网站运营者，对于图片字体版权没有一个正确的认知，那么在你盈利之前可能就要做一个赔钱货了！
2021-05-19 883
- 图片版权
- 字体版权
百度移动适配状态说明
百度移动适配状态说明，对于适配的状态成功失败原因的分析以及解决方案。当认为实际情况与您提交的情况相符时，才会对适配数据进行生效处理，这个校验时间大约为10天。
2020-04-13 3396
- 移动适配状态
什么是反向链接，及其作用
什么是反向链接，及其作用对于SEO优化中起着什么作用呢？反向链接的种类非常的多，只要满足上述指向关系。比如常见的友情链接、网页目录、外部链接等等都可以认定是外链形式的反向链接。
2020-03-16 2316
- 什么是反向链接
外链打击，绿萝算法
请勿在滥发外链了，多年之前已经有了绿萝算法的存在，远离外链中，远离垃圾外链，提升网站内容，健康的发展外链才是长期可以持续的SEO优化手段。
2019-12-26 1557
- 外链
- 绿萝算法
关于惊雷算法的要点解读
惊雷算与1.0不同的是针对恶意链接的问题提出了整顿，下面让我们带你一起解读。对这个情况进行说明：针对恶意了知道作弊超链、恶意刷点击的作弊行为进行了算法的再次升级。
2020-05-09 1751
- 惊雷算法解读
site首页位置不在第一怎么办
很多站长在网站优化的时候会特别的关注网站site首页的排名位置，当首页不在第一位的时候就会非常的不安，觉得网站出现了问题，认为站点被降权了。但是网站site首页不在首位很多原因都会造成这种结果。
2021-03-29 1293
- site命令
- site首页
搜索引擎的工作原理
讲述搜索引擎的工作原理，以及SEO优化中如何提高收录效率的方法。提高网站内容的质量原创度，稀缺性，和搜索引擎建立良好的信任关系。
2019-08-30 1369
- 搜索引擎工作原理
- 收录原理
为什么打击采集行为，采集站还是有很高权重
搜索引擎不断的打击采集行为，但是采集站点的收录排名和权重还是非常好；如果你无法理解那么你对于搜索引擎的核心不够了解，本文带你探索搜索引擎和采集的那点事，教你如果正确面对采集行为。
2022-07-28 804
- 采集
- 权重
SEO优化中页面加载速度优化
页面加载速度会直接影响到SEO优化的效果，我们必须保证页面可以秒开，否则直接的影响则是流量的丢失导致转化差，长期会导致站点评级降低，不利于后续的SEO优化。
2023-01-16 494
- 面加载速度
- SEO优化
SEO优化检测工具有哪些
SEO优化检测工具有哪些？网站建成之后，我们往往还要进行SEO的优化工作。但是，怎么检查您的网站的SEO优化是否符合相关的技术标准呢？那么就需要配合第三方的SEO检测工具来帮助您检查。
2020-05-23 3841
- SEO工具
对seo优化人员来说，DeepSeek的爆火加速了什么？
对于SEO行业而言，DeepSeek 这类高效AI工具的爆火，对于seo优化不可避免的带来的巨大的变化，其影响远不止“效率提升”，而是推动行业进入人机博弈的新阶段。内容生成效率的提升，成本的降低，直接卡住了seo从业者的脖子。SEO优化人员需要积极拥抱变化、不断学习新知识新技能以适应行业的发展和变化。
2025-02-27 119
- seo优化
- DeepSeek
TF-IDF算法、关键词的形成条件
说到SEO优化，那么第一次反应就是关键词的排名。很多人对于关键词的认知就是我在TDK中突出的词，或者把一个词在文章中突出重复，提升这个词的密度就可以让搜索引擎认为这个词是这个页面的关键词，然后一个词是否能成为关键词，并不是简单的重复就可以实现的，更多的是参考TF-IDF算法值来确定一个词是否成为关键词。
2020-04-20 2049
- 成为关键词的条件
SEO优化的具体流程，从无到有
带你揭秘seo优化的正确流程以及成功的关键。经常会有人来问网站seo优化怎么做，有没有一个具体的流程。但是这个真的很难系统的回答，流程肯定是有的，但是能够流程化的只是基础的seo优化层面的内容，但是seo优化站点的情况不同，需要灵活的调整，流程化的东西只能让你做出一点基本效果。
2022-07-06 1218
- SEO优化流程
SEO优化如何运用好meta标签
在SEO网站优化过程中应该知道网站的三大meta标签的重要性，这三种标签设置的好坏直接影响着网站后期的优化效果。下面就来和大家说说在SEO优化中如何运用meta标签。
2020-06-29 2063
- meta标签运用
百度搜索无法提交链接怎么解决？
近期大家应该发现了百度搜索资源平台的大多数的站点api提交额度基本都将为的10条，并且无法提交sitemap，为什么会出现这种情况，又应该如何解决链接提交的问题呢？
2023-11-06 1361
- 百度搜索
- seo
- 链接提交
现在发布外链还有用吗
外链优化对于SEO来说是一个在数据不过的话题，曾经外链对于排名的效果是非常好的，如今却是收效胜微。那么现在是不是外链没有作用了吗？显然不是这样今天讲一下现在发布外链对于SEO还有用吗？
2020-08-13 1204
- 优质外链
如何正确看待SEO与SEM之间的关系
不管你是SEO还是SEM都进来看看，正确认知下对方对于自身的意义。SEO和SEM合起来就可以基本覆盖搜索引擎的所有的流量入口，两者并不是对立而是相辅相承的关系。
2022-12-07 570
- SEO
- SEM
SEO的几个死穴
对于SEO工作来讲，我们都知道它是一个由多种因素组合成的排序系统，因而，我们在让网站排名靠前的过程中，就必须考虑诸多因素，例如：做外链，写高质量内容等等。但每一个人的時间终究有限，而对于一些中小企业来讲，它并不能创立更多的SEO团队，在一些优化策略的时候也许就会选择一些激进的方式，触碰到SEO的死穴。
2020-07-30 1153
- SEO的死穴

-- 这已经是底线了,看看别的把！ --

防爬虫的几种方法

User-Agent屏蔽

IP访问频次限制

机智应对爬虫

特点注意事项

图片字体版权你注意了吗？

百度移动适配状态说明

什么是反向链接，及其作用

外链打击，绿萝算法

关于惊雷算法的要点解读

site首页位置不在第一怎么办

搜索引擎的工作原理

为什么打击采集行为，采集站还是有很高权重

SEO优化中页面加载速度优化

SEO优化检测工具有哪些

对seo优化人员来说，DeepSeek的爆火加速了什么？

TF-IDF算法、关键词的形成条件

SEO优化的具体流程，从无到有

SEO优化如何运用好meta标签

百度搜索无法提交链接怎么解决？

现在发布外链还有用吗

如何正确看待SEO与SEM之间的关系

SEO的几个死穴