首页 >  SEO >  SEO知识 >  正文

收下这份防爬虫的策略

 作者:潘某人SEO
190

常见的防爬虫策略一般有 User-Agent检测、IP限制、验证码、动态页面生成、频率限制、动态URL参数等,一些网站会采用更高级的反爬虫技术来识别和阻止爬虫的访问。但是这些技术各有各的缺点,在实际操作中并不能获得很好的效果。

一劳永逸的方法

对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

防爬的关键在哪里

大家觉得防爬的关键是什么呢?潘某人SEO认为放爬虫的关键在于如何快速的区分正常用户和爬虫,精准快速的识别封禁恶意访问,同时不让爬虫知道防爬的实现方法。常见的很多方案,比如限制访问频次、ip限制等方法,如果爬虫使用代理分散到海量ip分散式爬取就变得无可奈何了。

防爬方案

其实防爬最好的方法就是在网站中只展示部分内容,对于正常的获取信息的方法肯定是通过站内搜索实现,应该很少有人顺着页面浏览吧。只要将url做到无序并且不降所有内容列举出来就是最简单的方法,具体可以参照潘某人SEO之前的文章《网站URL设计你做对了吗?》。

但是对于网站内容板块丰富内容入口较多的网站,爬虫依然可以通过有限的入口,顺着页面的内链,不断的爬取依然可以恶意爬取到大量有价值的内容。
下面开始今天的正题,分享一份非常规的防爬虫的策略,今天分享放爬虫方案更多的在方法上而不是技术上。

区分爬虫和访客

既然网络安全上可以使用蜜罐技术,那为什么我们不能设置一点陷阱给这些恶意爬虫呢!
切入点就是爬虫和用户的区别,人类访问一个页面是要眼睛看见了控制手点击进入页面,所以可以尝试设置一些人眼看不到但是爬虫可以获取到的链接。
元素尺寸:我们可以把一个元素的尺寸设置为0,那么用户看不到此元素,更加不可能可以点击访问到此元素上的超链接,并且为了防止被识别出来,这个链接可以正常加载内容,并且url地址也和正常内容的的链接相似,并且链接地址不能是恒定,降低被识别的可能性,并且所处元素的类型和位置可以变化。
浏览器视界:如果有些爬虫不抓取零尺寸的元素链接,那么上面的方法就失灵了。这个时候不妨试试,元素尺寸正常,但是定位到浏览器视界外。
元素遮挡:或者说我们可以用其他的元素遮挡住带有陷阱链接的元素。当然方法有很多,就看你的脑洞有多大了。
这里面的重点是,链接地址要正常并且具有不可预测性,同时链接所处的位置不能恒定,并且链接访问时可以正常访问内容。潘某人SEO认为列表页面是爬虫抓取的重灾区,那么在列表里的数据里下套效果会更好,并且不能恒定在某一条数据,并且对列表处理的样式和脚本记得混淆加密下,同时对所有的元素加上一些随机的样式名,发挥你的想象,搞得越乱越好。
不仅仅要有位置的随机性,还可以设置多个陷阱,多种方式的陷阱。

如何生成链接

链接最关键的一点要和正常的内容链接相似,不要有明显的区别,同时链接的变化有不可预测性。实现方式有很多很多,但是记得考虑实践性能等因素。
分享一个简单的做法,可以生成几十上百条链接具体数量结合实际,然后每个页面访问的时候,随机选取几条返回到前端使用。
然后链接可以过一段时间重新生成,或者链接被访问一定次数就作废并重新生成一条链接。

封禁方式

对于爬虫的的封禁方式,别看前段多么多花活,后段就简单多了,只要判定下哪些链接是事先设定的诱饵链接,然后对ip进行封禁,但是要注意诱饵链接也给返回点正常的页面,否则很明显当问到这个页面就被封,那么爬虫就可以轻而易举避开,导致这个诱饵链接立志失效,并且被分析出前端陷阱所在的位置。
Ip封禁的时候,如果是集中在一个网段的,直接封网段,同时如果是国内ip的那么不嫌麻烦可以请他喝茶,但是这种比较傻的人也没啥威胁性。
如果需要更好的效果,那么还可以结合上其它的反爬技术,技术越多越杂,逮到的几率就越高。大家如果有更好的方案可以在评论区探讨下。

SEO慎用反爬

如果站点内容要做SEO优化,那么反爬技术要慎用,以免误伤搜索引擎蜘蛛。不过艺高人胆大的可以将搜索引擎蜘蛛ip段添加到白名单,不过么哪天ip段更新了,那就有点尴尬了。
或者说也可以对有爬虫倾向的ip反查解析信息来判断是否是蜘蛛,不过有些搜索引擎的ip段并不支持反查,并且这个对于应用的稳定性和性能会有较大的不确定性。

终极武器

如果最终还是成功防住,这个时候就要使用终极武器了,跳出技术之外了,不管你爬起来多溜都得灰溜溜败下阵来。
拿起法律的武器捍卫自己最后的尊严,不管是爬虫和抄袭都是侵犯著作权的行为。著作权的获得在你创作完成那一刻就自动获得。
很多站点爬取或者抄袭了别人的原创内容,会注明来源于互联网如有侵权就联系删除,这个其实就是一句废话,一点都不妨碍他侵权责任的认定。即使是为原创同样是侵权了,侵犯了著作权中的改编权。
著作权登记
所以大家要做的是做好规划,让著作权的认证更加的方便,起诉对方那么就有举证的责任。所以,如果内容的商业价值比较高的,一定先申请了著作权登记之后在进行内容的发布,因为在没有权威证据下,只能看谁最先发布就拥有著作权。如上图所示,可以前往中国版权保护中心进行作品著作权登记。
对于不想登记著作权的情况,我可以可以选择一些较大平台或者行业内知名平台进行发布,自己站点的发布时间作为证据的可信度是不足的,最简单的方法大家可以先在公众号及新媒体平台进行发布。
只要我们做到著作权的认定没有争议的前提下,那么主动权就在我们手里,对于抄袭或者爬取这些行为,可以待他们进行商用,获取的商业利益越大,你所能追偿的金额就越好,甚至你还可以等他发现壮大之后秋后算账。
当然算账前不要惊动对方,一定先做好对方侵权行为证据的公正,这样即使删了也没用,当然专业的事交给专业的律师来。快去分享给你有需要的小伙伴吧!

公众号
潘某人SEO 关注我每天学习SEO优化相关知识... 485篇原创内容
潘某SEO 公众号
申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于CC0协议或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/1064pachong
相关文章
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    1717
    • 搜索蜘蛛大全
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    1139
    • 原创保护
    • 爬虫屏蔽
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    963
    • 百度蜘蛛原理
    • 抓取频次
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    1758
    • User-Agent
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    931
    • 原创保护
    • 防止抄袭爬取
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    1159
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 关键词排名波动原因

    排名波动原因

    理论上讲,关键词的排名决定了网站的流量,定期审查关键词的排名是每个SEO人员的工作,在以往的工作我们可能会遇到这样一种情况:关键词排名频繁波动,很不稳定。​它往往搞的SEOer一头雾水,明明没有过度优化,为什么还会出现这个问题?

    1909
    • 排名波动原因
  • 通过时效性内容提高网站收录速度

    时效性内容收录

    通过时效性内容提高网站收录速度是一个不错的方法,但是你知道如何保护自己的原创内容不被别人抄袭还比你更快收录吗?一种提高内容收录及更新抓取速度的方法。

    1458
    • 时效性内容收录
  • 如何做到秒收录,保护原创

    保护原创,及时收录

    对于保护原创内容的所有,保证内容的及时收录很重要,有的时候经常会遇到自己幸幸苦苦码出来的内容被别人转载了,还比自己先收录,这边就教大家几个技巧,来有效的防止原创内容被他们抄袭被先收录.....

    1760
    • 保护原创
    • 及时收录
  • 内链算法快,快速提升关键词排名

    内链算法

    内链算法快,快速提升关键词排名?内链是搜索引擎200多项算法中对网站打分的一个重要算法,利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链,

    1412
    • 内链算法
  • 外链对SEO优化的影响

    外链SEO优化

    SEO优化中核心的一个过程就是发外链,不论是过去还是现在,外链都是一个备受争议的话题,有人说外链对SEO优化没有什么用了,而有的人又对做外链情有独钟。那么外链到底还有没有用,我们在发布外链的时候该注意什么,怎样才能获得优质的外链呢。

    1092
    • 外链SEO优化
  • https网站对排名有好处吗?

    HTTPS与SEO优化

    最近几年https开始出现在我们眼前,越来越多的网站开始从http协议升级为HTTPS协议,那么站在网站SEO优化的角度,https对于网站的排名等各项指标是否能提供帮助呢?那么我们就需要先了解https协议于传统http的区别,那么你到时候就自然明白了https到底会与会影响SEO优化。

    1036
    • HTTPS与SEO优化
  • 网站排名优化贵在长期稳定坚持

    网站排名优化思路

    如果一个网站想要稳定的流量,那么不是靠一朝一夕可以迅速做到的,因此网站排名优化的重点在于长期稳定坚持的输出高质量的内容的,一个量变到质变的过程。

    1186
    • 网站排名优化思路
  • seo的就业前景怎么样

    SEO就业前景

    seo优化就业前景如何呢?对于刚入踏入SEO优化领域的小伙伴们最关心的就是就业前景怎么,适不适合长期发展?今天给大家解析一下,SEO行业到底适合进入吗?

    737
    • SEO就业前景
  • SEO挖掘关键词的方法

    关键词挖掘

    找对关键词就是抓住了流量的入口,关键词决定了你内容,决定了可以带来什么类型的流量。那么挖掘关键词的渠道有哪些呢?

    656
    • 关键词挖掘
  • 你分享的链接泄露隐私了吗?

    跟踪链接,隐私

    今天这个话题看似和SEO没啥关系,那就耐心看到最后就有了,先回归正题大家有没有意识到自己平时分享的链接会泄漏隐私吗?大家平时是不是会分享一些歌曲、一些短视频的链接及各种社交app应用的链接给微信好友或者是分享到朋友圈,当然分享到其它地方也是如此,只要你分享了这些链接你都将面临有隐私泄漏的可能。

    425
    • 跟踪链接
    • 隐私
  • 网站备案对于SEO优化有影响吗?

    网站备案,SEO优化,权威性

    ​网站备案的注意事项,关于网站未备案对于SEO优化排名是否有影响争议不断,有部分人始终认为网站备案和SEO之间没有任何的影响。网站进行ICP备案是提升网站权威性的因素中较为重要的一个。

    473
    • 网站备案
    • SEO优化
    • 权威性
  • 新站如何快速增加收录​

    新站快速收录​

    网站收录的开始,是站点SEO优化旅程的开启。对新站的SEO优化来说,收录就是一个难题,几个月不收录或者只收录几个页面是很常见的。那么新站我们如何做到快速收录呢?

    1354
    • 新站快速收录​
-- 这已经是底线了,看看别的把! --