首页 >  SEO >  SEO知识 >  正文

内容防抓取原创保护的方法

 作者:潘某人SEO
620

​站点的内容经常被恶意采集爬取,辛辛苦苦码的原创内容被人轻而易举的强取豪夺,被采集可以说是另站长们最痛疼的事情之一了,今天潘某人SEO就与大家分享若干方法,期望可以对大家有帮助。

抓取采集的特点

首先我们需要总结出采集抓取行为的特点才能更好的对症下药。恶意采集的危害极大,站点必须快去识别并封禁。采集行为的主要特别潘某人SEO认为主要的特征有:

  • 同ip短时间内大量访问网站资源
  • 同ip网段爬取爬取网站资源,各个ip爬取的量不大,容易被忽视
  • 能够访问人眼无法看到的链接入口
  • 页面停留时间短,无页面操作

鉴别异常ip

学会如何鉴别异常ip就可以组织大部分的采集抓取行为,但是这里有个重点,也是需要我们谨慎处理的,那就是区分开搜索引擎和恶意爬虫。
在技术上搜索引擎和采集爬取的恶意行为都是通过爬虫进行的,如果不做好鉴别容易对搜索引擎完成误伤导致对SEO优化产生影响。

建立ip白名单

需要建立ip白名单,在此名单的ip需要不受任何约束的可以访问站点的资源。而这类ip指的是站点需要优化的搜索引擎的爬取ip地址。
大家可以通过官方发布的爬虫ip网段进行添加,但是这种方法无法获取到搜索的ip,甚至有的搜索引擎是没有公布爬虫的ip网段。但这也是有解决方案的,可以在后端添加一个ua获取的功能,通过获取访问者客户端的request信息的user-agent,去匹配各大搜索引擎公布的搜索引擎的UA,将符合的ip添加相关记录到网站后台。
内容防抓取原创保护的方法
经过半个月的爬取,搜索引擎蜘蛛的所有的网段几乎都会访问过站点。但是需要考虑到很多恶意蜘蛛会仿冒搜索引擎蜘蛛的ua,因此这些ip需要人工去确认真实性,可以通过官方提供的ip反查方式去确认,确保加入白名单的ip网段是正确的。

截获异常请求方法

对于正常的用户通过浏览器网页访问只能发起get请求,搜索引擎蜘蛛也只会发起get请求。因此,只要是正常的网页有ip发起非get请求的,应该对其直接禁封。很多恶意蜘蛛或者是攻击者为了效率,会先发送head请求来确认页面的可访问性。
经过以上的处理,基本可以鉴别出真假蜘蛛ip,一旦建立了完整的白名单之后,就可以正式开始布局,当然搜索引擎的网段有一定程度会有变化,所以要定期维护好ip白名单。

蜜罐布置

上面讲到了爬虫和人的访问行为特点上有区别的,我们可以给页面上添加一点蜜罐也就是陷阱,去等爬虫掉入我们布置的陷阱残酷身份。
方法很简单,只要在高频关键页面比如页面的foot位置,或者选择一个可以被大多数页面都加载到的位置添加一个像素大小为0的div并且放置一个入口链接,并且位置不容易点击的。对于正常用户,不可能看到,也就不可能点击访问到,也就是说访问此页面的必然是爬虫,一旦识别并且不是白名单直接秒封ip,为了后期维护的方便最高添加上后台记录,方便筛查。

人工采集的屏蔽

这种的危害不是很大,不一定要去做屏蔽,如果要屏蔽也有很简单的做法,常见的方法有屏蔽页面的复制功能,但只能屏蔽掉小白。一但打开调试窗口,或者禁用js就无法起到效果。
不如大方点允许去复制,但是在页面添加复制触发一个统计事件,向后端发送客户端复制内容的字数,以及在当前ip下在多个个页面进行的复制了操作,适当的允许复制有利于提升用户体验。当复制行为触发预设值直接屏蔽ip。

今天分享就到这里了,后面有更好的方法在做分享。

申明:本站内容仅代表个人观点,仅供学习参考;未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本站文章可能使用到互联网上的资料,若对您造成困扰,请联系 kk19@foxmail.com除理 本文地址:https://www.chateach.com/seo/seozhishi/986baohu
相关文章
  • “TF-IDF”算法与网站SEO关系

    TF-IDF算法

    “TF-IDF”算法与网站SEO关系?这个算法决定着什么样的词可以成为网站的关键词,同时决定着页面在搜索引擎的排名竞争力。TF-IDF​是一种核算方法,用以评价一字词关于一个文件集或一个语料库中的其间一份文件的重要程度。

    2533
    • TF-IDF算法
  • 商城网站如何进行SEO优化呢?

    商城SEO优化

    商城类站点流量只是一个最基本的,但是需要获得转化还有更加重要的方面综合考量,下面就列出商城站点需要注意的几个方面。

    1970
    • 商城SEO优化
  • 网站地图sitemap制作与提交详细教程

    网站地图,sitemap

    sitemap如何处理,如何提交,移动动端和pc端是否需要都提交sitemap还是提交一次就可以了呢?那么仔细看完这篇文章,你将不再有这个疑虑。大多数搜索引擎都支持文本格式和xml格式的形式的地图,站点可以根据站点的需求随便选择一种。但是不推荐大家使用文本格式的sitemap方式提交,而是推荐使用xml格式的网站地图。

    1372
    • 网站地图
    • sitemap
  • 如何判断seo外包是否靠谱

    seo外包

    关键词有需求就有市场,尤其是seo优化市场可以说是鱼龙混杂,很多站点会去选择一些seo外包服务公司来助力公司的seo优化,今天就分享一点避坑指南,如何正确的选择seo外包。

    728
    • seo外包
  • 网站旧页面不收录怎么办

    旧文章不收录

    网站旧文章页面不收录问题是每个站点都会遇到问题,每个站点都会有这种情况有的页面从发布至今一直都不收录,还有一部分页面收录之后很快又掉了,对于这些为收录的页面,我们有什么方法可以让他们重新进行收录呢?

    1002
    • 旧文章不收录
  • 关于惊雷算法的要点解读

    惊雷算法解读

    惊雷算与1.0不同的是针对恶意链接的问题提出了整顿,下面让我们带你一起解读。对这个情况进行说明:针对恶意了知道作弊超链、恶意刷点击的作弊行为进行了算法的再次升级。

    1751
    • 惊雷算法解读
  • site首页位置不在第一怎么办

    site命令,site首页

    很多站长在网站优化的时候会特别的关注网站site首页的排名位置,当首页不在第一位的时候就会非常的不安,觉得网站出现了问题,认为站点被降权了。但是网站site首页不在首位很多原因都会造成这种结果。

    1293
    • site命令
    • site首页
  • 网站被镜像,如何向百度反馈?

    网站被镜像

    最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站IP都无法彻底杜绝被镜像现象。被镜像该如何维权,学堂君整理以下投诉攻略:

    751
    • 网站被镜像
  • 移动落地页中如何设置咨询功能?

    咨询框怎么设置

    移动落地页中如何设置咨询功能?才是更加符合SEO规范呢?咨询类功能在当前页只能出现一次,且位置不允许出现在顶部;在用户未主动点击的情况下,咨询的对话窗口不可自动弹出;咨询按钮可在底部或侧面悬浮,但面积不宜过大干扰用户浏览。”

    1247
    • 咨询框怎么设置
  • 令人崩溃的网页表单输入体验

    输入体验

    站长们必看的一篇文章,网站表单的输入体验真的非常的重要!今天遇到一个让我非常恼火的问题,相信大家一定也遇到过,当你再网页的表单中填写了很多内容,突然不小心关闭了页面或者点到了链接页面跳转导致编写的内容全部丢失,如何优化表单输入体验。

    354
    • 输入体验
  • 移动端SEO优化应该怎么做呢?

    移动SEO优化

    移动端SEO优化应该怎么做呢?移动时代已经到来,并没有给人们太多思考时间,而越来越多的用户通过手机进行社交、查看新闻、移动办公及浏览网页等,随着移动营销被推上风口浪尖,众多企业开始转向移动SEO,纷纷试水移动搜索引擎优化。

    1743
    • 移动SEO优化
  • 优化新站一般多久出排名

    新站多久有排名

    做seo的应该都知道,网站优化是一个漫长的过程,seo见效的时间相对来说比较慢,当然我们也想seo的速度能够大大的提升,但是太快的话,被k站的几率也是大大的增加,那么一个正常的网站一般出排名应该是多久呢?下面我们来看看新站出排名的时间。

    1216
    • 新站多久有排名
  • MIP Cache 服务下线通知

    MIP Cache关闭

    MIP Cache 服务下线通知,MIP Cache 服务至目前为止已上线了三年多,为 Web 生态输出了优质资源和更为快速的网页浏览体验。2020年6月1日 - 2020年6月30日:关闭站长平台 MIP 入口,逐步清退下线 MIP Cache 服务。

    1784
    • MIP Cache关闭
  • 百度新闻检索准入规则更新

    新闻源准入规则

    2021-04-16百度更新了“新闻资讯”的准入规则,“为满足用户对高时效性新闻资讯的需求,百度新闻检索数据分发策略在2017年由人工运营+策略识别的新闻源升级为纯机器识别的分发策略,符合准入标准的百家号内容和网站内容,无需申请都有机会通过百度时效性产品展现给用户。”

    1052
    • 新闻源准入规则
  • 链接权重分析HITS算法的不足之处

    HITS算法的不足之处,链接权重分析

    搜索引擎链接权重分析,主要参考。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法的不足之处,引用越多高质量页面的网页,其链接权威度越高。

    2121
    • HITS算法的不足之处
    • 链接权重分析
  • 如何打击抄袭洗稿行为

    原创内容,抄袭打击

    很多站点喜欢复制粘帖到处抄袭,对于原创站点我们如何让他们付出代价呢?今天就分享一下对于打击抄袭的一个方案,让抄袭洗稿者付出代价。

    1103
    • 原创内容
    • 抄袭打击
  • 如何用代码批量查询收录

    批量收录查询代码

    如何用代码批量查询百度360搜狗收录,对于SEO优化来说收录是大家比较关注的,一般使用的查询方法是拿页面的URL或者标题去对应的搜索引擎手动查询收录,但是存在这局限性,今天就来分享一下如何通过代码实现网站收录查询。

    1499
    • 批量收录查询代码
  • 真假蜘蛛ip识别

    真假蜘蛛识别

    我们如何分辨真假蜘蛛的ip,对于SEO优化来说学会如何看网站日志,如何的去分辨有问题的假蜘蛛是非常有必要的。可以大大的提高网站的安全性,已经防止网站内容被大量的抄袭转载。

    1140
    • 真假蜘蛛识别
-- 这已经是底线了,看看别的把! --