站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。
抓取采集的特点
首先我们需要总结出采集抓取行为的特点才能更好的对症下药。恶意采集的危害极大,站点必须快去识别并封禁。采集行为的主要特别潘某人SEO认为主要的特征有:
- 同ip短时间内大量访问网站资源
- 同ip网段爬取爬取网站资源,各个ip爬取的量不大,容易被忽视
- 能够访问人眼无法看到的链接入口
- 页面停留时间短,无页面操作
鉴别异常ip
学会如何鉴别异常ip就可以组织大部分的采集抓取行为,但是这里有个重点,也是需要我们谨慎处理的,那就是区分开搜索引擎和恶意爬虫。
在技术上搜索引擎和采集爬取的恶意行为都是通过爬虫进行的,如果不做好鉴别容易对搜索引擎完成误伤导致对SEO优化产生影响。
建立ip白名单
需要建立ip白名单,在此名单的ip需要不受任何约束的可以访问站点的资源。而这类ip指的是站点需要优化的搜索引擎的爬取ip地址。
大家可以通过官方发布的爬虫ip网段进行添加,但是这种方法无法获取到搜索的ip,甚至有的搜索引擎是没有公布爬虫的ip网段。但这也是有解决方案的,可以在后端添加一个ua获取的功能,通过获取访问者客户端的request信息的user-agent,去匹配各大搜索引擎公布的搜索引擎的UA,将符合的ip添加相关记录到网站后台。
经过半个月的爬取,搜索引擎蜘蛛的所有的网段几乎都会访问过站点。但是需要考虑到很多恶意蜘蛛会仿冒搜索引擎蜘蛛的ua,因此这些ip需要人工去确认真实性,可以通过官方提供的ip反查方式去确认,确保加入白名单的ip网段是正确的。
截获异常请求方法
对于正常的用户通过浏览器网页访问只能发起get请求,搜索引擎蜘蛛也只会发起get请求。因此,只要是正常的网页有ip发起非get请求的,应该对其直接禁封。很多恶意蜘蛛或者是攻击者为了效率,会先发送head请求来确认页面的可访问性。
经过以上的处理,基本可以鉴别出真假蜘蛛ip,一旦建立了完整的白名单之后,就可以正式开始布局,当然搜索引擎的网段有一定程度会有变化,所以要定期维护好ip白名单。
蜜罐布置
上面讲到了爬虫和人的访问行为特点上有区别的,我们可以给页面上添加一点蜜罐也就是陷阱,去等爬虫掉入我们布置的陷阱残酷身份。
方法很简单,只要在高频关键页面比如页面的foot位置,或者选择一个可以被大多数页面都加载到的位置添加一个像素大小为0的div并且放置一个入口链接,并且位置不容易点击的。对于正常用户,不可能看到,也就不可能点击访问到,也就是说访问此页面的必然是爬虫,一旦识别并且不是白名单直接秒封ip,为了后期维护的方便最高添加上后台记录,方便筛查。
人工采集的屏蔽
这种的危害不是很大,不一定要去做屏蔽,如果要屏蔽也有很简单的做法,常见的方法有屏蔽页面的复制功能,但只能屏蔽掉小白。一但打开调试窗口,或者禁用js就无法起到效果。
不如大方点允许去复制,但是在页面添加复制触发一个统计事件,向后端发送客户端复制内容的字数,以及在当前ip下在多个个页面进行的复制了操作,适当的允许复制有利于提升用户体验。当复制行为触发预设值直接屏蔽ip。
今天分享就到这里了,后面有更好的方法在做分享。