首页 >  SEO >  SEO知识 >  正文

收下这份防爬虫的策略

 作者:潘某人SEO
309

常见的防爬虫策略一般有 User-Agent检测、IP限制、验证码、动态页面生成、频率限制、动态URL参数等,一些网站会采用更高级的反爬虫技术来识别和阻止爬虫的访问。但是这些技术各有各的缺点,在实际操作中并不能获得很好的效果。

一劳永逸的方法

对于防爬并没有一劳永逸的方法,只要内容是可以被访问的,那么就有可能被爬取;是否能勾防住,最终就是一场攻防的战斗,看哪一方技术更胜一筹。今天潘某人SEO突然灵光乍现,突然想到一个防爬虫的方案,在这里分享给大家,当然也不是专业做这个的,有不妥之处欢迎大家指正,铺垫比较长一定看到最后,希望可以帮助到你。

防爬的关键在哪里

大家觉得防爬的关键是什么呢?潘某人SEO认为放爬虫的关键在于如何快速的区分正常用户和爬虫,精准快速的识别封禁恶意访问,同时不让爬虫知道防爬的实现方法。常见的很多方案,比如限制访问频次、ip限制等方法,如果爬虫使用代理分散到海量ip分散式爬取就变得无可奈何了。

防爬方案

其实防爬最好的方法就是在网站中只展示部分内容,对于正常的获取信息的方法肯定是通过站内搜索实现,应该很少有人顺着页面浏览吧。只要将url做到无序并且不降所有内容列举出来就是最简单的方法,具体可以参照潘某人SEO之前的文章《网站URL设计你做对了吗?》。

但是对于网站内容板块丰富内容入口较多的网站,爬虫依然可以通过有限的入口,顺着页面的内链,不断的爬取依然可以恶意爬取到大量有价值的内容。
下面开始今天的正题,分享一份非常规的防爬虫的策略,今天分享放爬虫方案更多的在方法上而不是技术上。

区分爬虫和访客

既然网络安全上可以使用蜜罐技术,那为什么我们不能设置一点陷阱给这些恶意爬虫呢!
切入点就是爬虫和用户的区别,人类访问一个页面是要眼睛看见了控制手点击进入页面,所以可以尝试设置一些人眼看不到但是爬虫可以获取到的链接。
元素尺寸:我们可以把一个元素的尺寸设置为0,那么用户看不到此元素,更加不可能可以点击访问到此元素上的超链接,并且为了防止被识别出来,这个链接可以正常加载内容,并且url地址也和正常内容的的链接相似,并且链接地址不能是恒定,降低被识别的可能性,并且所处元素的类型和位置可以变化。
浏览器视界:如果有些爬虫不抓取零尺寸的元素链接,那么上面的方法就失灵了。这个时候不妨试试,元素尺寸正常,但是定位到浏览器视界外。
元素遮挡:或者说我们可以用其他的元素遮挡住带有陷阱链接的元素。当然方法有很多,就看你的脑洞有多大了。
这里面的重点是,链接地址要正常并且具有不可预测性,同时链接所处的位置不能恒定,并且链接访问时可以正常访问内容。潘某人SEO认为列表页面是爬虫抓取的重灾区,那么在列表里的数据里下套效果会更好,并且不能恒定在某一条数据,并且对列表处理的样式和脚本记得混淆加密下,同时对所有的元素加上一些随机的样式名,发挥你的想象,搞得越乱越好。
不仅仅要有位置的随机性,还可以设置多个陷阱,多种方式的陷阱。

如何生成链接

链接最关键的一点要和正常的内容链接相似,不要有明显的区别,同时链接的变化有不可预测性。实现方式有很多很多,但是记得考虑实践性能等因素。
分享一个简单的做法,可以生成几十上百条链接具体数量结合实际,然后每个页面访问的时候,随机选取几条返回到前端使用。
然后链接可以过一段时间重新生成,或者链接被访问一定次数就作废并重新生成一条链接。

封禁方式

对于爬虫的的封禁方式,别看前段多么多花活,后段就简单多了,只要判定下哪些链接是事先设定的诱饵链接,然后对ip进行封禁,但是要注意诱饵链接也给返回点正常的页面,否则很明显当问到这个页面就被封,那么爬虫就可以轻而易举避开,导致这个诱饵链接立志失效,并且被分析出前端陷阱所在的位置。
Ip封禁的时候,如果是集中在一个网段的,直接封网段,同时如果是国内ip的那么不嫌麻烦可以请他喝茶,但是这种比较傻的人也没啥威胁性。
如果需要更好的效果,那么还可以结合上其它的反爬技术,技术越多越杂,逮到的几率就越高。大家如果有更好的方案可以在评论区探讨下。

SEO慎用反爬

如果站点内容要做SEO优化,那么反爬技术要慎用,以免误伤搜索引擎蜘蛛。不过艺高人胆大的可以将搜索引擎蜘蛛ip段添加到白名单,不过么哪天ip段更新了,那就有点尴尬了。
或者说也可以对有爬虫倾向的ip反查解析信息来判断是否是蜘蛛,不过有些搜索引擎的ip段并不支持反查,并且这个对于应用的稳定性和性能会有较大的不确定性。

终极武器

如果最终还是成功防住,这个时候就要使用终极武器了,跳出技术之外了,不管你爬起来多溜都得灰溜溜败下阵来。
拿起法律的武器捍卫自己最后的尊严,不管是爬虫和抄袭都是侵犯著作权的行为。著作权的获得在你创作完成那一刻就自动获得。
很多站点爬取或者抄袭了别人的原创内容,会注明来源于互联网如有侵权就联系删除,这个其实就是一句废话,一点都不妨碍他侵权责任的认定。即使是为原创同样是侵权了,侵犯了著作权中的改编权。
著作权登记
所以大家要做的是做好规划,让著作权的认证更加的方便,起诉对方那么就有举证的责任。所以,如果内容的商业价值比较高的,一定先申请了著作权登记之后在进行内容的发布,因为在没有权威证据下,只能看谁最先发布就拥有著作权。如上图所示,可以前往中国版权保护中心进行作品著作权登记。
对于不想登记著作权的情况,我可以可以选择一些较大平台或者行业内知名平台进行发布,自己站点的发布时间作为证据的可信度是不足的,最简单的方法大家可以先在公众号及新媒体平台进行发布。
只要我们做到著作权的认定没有争议的前提下,那么主动权就在我们手里,对于抄袭或者爬取这些行为,可以待他们进行商用,获取的商业利益越大,你所能追偿的金额就越好,甚至你还可以等他发现壮大之后秋后算账。
当然算账前不要惊动对方,一定先做好对方侵权行为证据的公正,这样即使删了也没用,当然专业的事交给专业的律师来。快去分享给你有需要的小伙伴吧!

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/1064pachong
相关文章
  • 搜索引擎蜘蛛爬虫名大全

    搜索蜘蛛大全

    对于seo们清楚掌握主流搜索引擎的爬虫名称十分的关键,掌握各大搜索引擎蜘蛛爬虫,对我们开展网站SEO优化具有挺大作用;作者搜集了各大搜索引擎的蜘蛛爬虫UA,便于你需要时查看。

    1790
    • 搜索蜘蛛大全
  • 如何防止网站被爬虫恶意抓取

    原创保护,爬虫屏蔽

    对于SEO优化来说最讨厌的就是抄袭行为,而爬虫技术则是抄袭手段的升级版,通过一个规则去全网爬取内容进行发布。将抄袭实现了自动化,各个站点面对这种行为也是无可奈何。

    1205
    • 原创保护
    • 爬虫屏蔽
  • 百度爬虫工作原理

    百度蜘蛛原理,抓取频次

    百度爬虫是如何工作的,如何才能提升网站的抓取频次呢?抓取频次的影响因素有哪些?

    1026
    • 百度蜘蛛原理
    • 抓取频次
  • 如何修改浏览器User-Agent

    User-Agent

    演示如何修改User-Agent,通过修改HTTP请求头,我们可以实现浏览不同设备下的网站的展示内容。如何通过修改浏览器User-Agent去访问网页,学会修改浏览器user-agent之后,就可以访问站点的爬虫页。

    1827
    • User-Agent
  • 原创内容如何保护,防止被抄袭爬取

    原创保护,防止抄袭爬取

    如今搜索引发展趋势是内容为王,想要获得好的排名那么优质得内容是必不可少的。面对无数的抄袭者我们如何保护自己不被抄袭、页面被复制、防止爬虫爬取。

    1015
    • 原创保护
    • 防止抄袭爬取
  • 如何鉴别真假蜘蛛,代码自动化

    蜘蛛鉴别,假爬虫屏蔽

    如何使用代码自动化的识别蜘蛛的真实性,防止被假蜘蛛抓取网站内容。分享一个通过代码自动化鉴别屏蔽加搜索引擎爬虫的思路。

    1244
    • 蜘蛛鉴别
    • 假爬虫屏蔽
  • 网站收录狂掉的原因及解决方法

    收录狂掉原因

    很多站长在做网站优化的时候会出现这种情况,原本有收录的文章突然没收录了,甚至网站出现大量的掉收录的情况,这种可能是因为网站死重复内容过多,被降权或者进入沙盒期,所以被收录的文章后面又没了,那么是什么原因造成的呢,又该如何解决呢?

    1956
    • 收录狂掉原因
  • 别再一味的关注关键词排名

    关键词排名

    关键词排名不能代表什么,如果你一味的最求关键词排名,那么必然掉坑里;seo优化的最终目的是带来转化,这需要的是有价值的流量,需要的是有搜索热度并且匹配度高的关键词。

    591
    • 关键词排名
  • 百度天网算法,用户隐私保护

    百度天网算法,用户隐私保护

    百度天网算法打击恶意盗取网民的QQ号、手机号进行营销推广的行为。打击这种严重侵犯用户隐私的行为的站点。

    1239
    • 百度天网算法
    • 用户隐私保护
  • seo标题写法及其重要性

    seo标题写法,重要性

    标题对于SEO优化起着一个什么样的作用呢,这是一个值得思考的问题。很多人认为一个好的标题对于排名有着很好的作用,但是个人不这么认为,标题的作用没有我们想象的那么重要!

    1331
    • seo标题写法
    • 重要性
  • TAG标签的好处

    TAG标签的好处

    ​TAG标签对于SEO优化有一定的作用,但是使用不当很有可能起到反向作用。对于TAG标签的优化,对于网站内容的布局能力是十分考验的,没有强大的内容和技术支撑是很难达到理想的效果的。

    1760
    • TAG标签的好处
  • TrustRank域名信任度

    TrustRank域名信任度

    TrustRank域名信任度?由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。由于搜索引擎在计算网页排名的时候,非常依赖连接,而且连接的质量越来越显得重要。在这种情况下,需要对连接的来源站点质量进行判断。更重要的是,以前依靠连接和相关性来决定排名的方式,

    1765
    • TrustRank域名信任度
  • 百度索引量变化追查投诉方法

    百度索引量

    当百度索引量发生大幅度下跌时,如何进行原因的筛选来确定是正常波动,还是异常波动,及索引量下跌原因的排查方法及解决方案。

    1001
    • 百度索引量
  • SEO优化权重的错误认知

    SEO优化,权重

    如果你觉得权重就是seo优化的衡量标准,那么一定要看完这篇文章。相信对你肯定会有帮助,首先公布结论,权重作为SEO效果的衡量标准,只能作为参考,并且参考意义的大小还要根据实际情况分析。

    708
    • SEO优化
    • 权重
  • 自学SEO难吗?最短多长时间学会?

    自学SEO,SEO优化

    对于SEO感兴趣的同学,最关注的就是SEO学起来难吗,学习周期长吗?从事SEO优化,一般是建议同事掌握多个技能,比如推广运用、SEM推广等,至少可以稳定你的工作,让你有足够的时间条件往精通SEO成长。

    635
    • 自学SEO
    • SEO优化
  • 网站一定要定期更新吗?节假日停更对于SEO会有影响吗?

    定期更新,SEO影响

    春节来临大家的站点的节假日会继续正常的更新吗?节假日停止更新对于站点会有不利的影响吗?不知道大家有没有想过这个问题呢?还是说管它怎么样,哪有比我过节重要呢?

    441
    • 定期更新
    • SEO影响
  • 商城网站如何进行SEO优化呢?

    商城SEO优化

    商城类站点流量只是一个最基本的,但是需要获得转化还有更加重要的方面综合考量,下面就列出商城站点需要注意的几个方面。

    1853
    • 商城SEO优化
  • 新站SEO关注哪些数据

    新站优化数据指标

    一个新站的优化我们应该关注哪些数据来判定站点目前处于一个什么样的情况。对于新站来说我们迫切希望的是可以快速的获取排名权重,但是我们又可以通过哪些数据来分析优化流程是否有问题,是否是一个正常的发展呢?

    2349
    • 新站优化数据指标
-- 这已经是底线了,看看别的把! --