首页 >  SEO >  SEO知识 >  正文

如何防止假蜘蛛抓取内容

 作者:潘某人SEO
1634

什么是假蜘蛛

搜索引擎爬虫我们称之为蜘蛛,假蜘蛛即伪装成搜索引擎的爬虫。目的就是掩人耳目的去爬取采集网站的内容。

普通的爬虫很容易被站点发现屏蔽,对于搜索引擎蜘蛛站点都是没什么警惕心,希望多来抓取可以有效增加收录量和速度。

如何鉴别假蜘蛛

网站日志会记录所有访问ip的请求头即user-agent,通过修改蜘蛛的请求头为搜索引擎公布的蜘蛛的UA名。

因此,我们光看日志是无法直接辨别真假蜘蛛的。大多数搜索引擎都是ip反查,比如我们通过windows电脑cmd中使用nslookp反查蜘蛛的ip能够获取到对应搜索引擎解析的为真蜘蛛,在这种方法下假蜘蛛无法遁形。

但是问题是如果不能事实鉴别假蜘蛛,内容被采集走了在屏蔽也失去了意义。

如何识别鉴别假蜘蛛

要最大程度的保护内容不被假蜘蛛爬取,我们就需要在后端程序中处理。对于假蜘蛛在第一次访问的时候进行ip的封禁。

真假蜘蛛自动鉴别

我们就拿php为例,可以使用gethostbyaddr函数,可以实现nslookup同样的功能,返回的参数也是相同的。对于真蜘蛛就是返回对应ip解析到的域名,然后匹配下是否是我们允许的蜘蛛域。

$IP = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($IP);

添加蜘蛛白名单

有些蜘蛛无法支持反查,我们可以把这类蜘蛛的ip段添加白名单,同时我们对于网站反查到的蜘蛛ip经过人工确定之后,也同样加入白名单。可以防止程序出错时误屏蔽蜘蛛,以及加快程序的响应速度。

原创保护防采集

对于其他的爬虫我们还是需要去检测同一个ip是否有大段时间大量访问的行为,对于异常ip我们可以使用验证码等方式验证,这也是基于我们拥有了通过ip鉴别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务。

采集只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/664
相关文章
  • 子目录与二级域名,哪个更利于SEO!

    二级目录排名,子目录,二级域名

    当你网站内容需要扩展的时候你会选择二级域名还是子目录的方式呢?采用哪种方法对于SEO优化的效果更好呢?

    958
    • 二级目录排名
    • 子目录
    • 二级域名
  • 分享我的SEO学习方法心得

    SEO学习

    分析一些学习感悟,对于SEO初学者应该如何正确的学习!SEO其实是非常考验综合能力的,文案能力、运营思路、IT能力。

    622
    • SEO学习
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    2277
    • PC站和移动站如何做适配
  • 外链打击,绿萝算法

    外链,绿萝算法

    请勿在滥发外链了,多年之前已经有了绿萝算法的存在,远离外链中,远离垃圾外链,提升网站内容,健康的发展外链才是长期可以持续的SEO优化手段。

    1459
    • 外链
    • 绿萝算法
  • 百度索引量变化追查投诉方法

    百度索引量

    当百度索引量发生大幅度下跌时,如何进行原因的筛选来确定是正常波动,还是异常波动,及索引量下跌原因的排查方法及解决方案。

    1001
    • 百度索引量
  • 跳出率对网站排名的影响

    排名影响因素,网站跳出率

    网站跳出率对于网站的排名有一定的影响因素,当然并不是所有的跳出行为会对排名优化有负面影响,简单的描述了跳出率与排名因素的相关关系!

    1535
    • 排名影响因素
    • 网站跳出率
  • 百度惊雷算法3.0解读

    惊雷算法,百度算法

    百度惊雷算法3.0解读,对违规行为较严重的领域(如:汽车、下载、招聘、B2B、网站SEO等)进行了针对性的打击。

    1533
    • 惊雷算法
    • 百度算法
  • 如何判断网站的优化效果

    seo优化效果

    如何判断网站的优化效果,尤其是新站的效果有什么科学有效的方法去判定网站所处的一个阶段。如果通过数据看出搜索引擎对于站点的评级。

    838
    • seo优化效果
  • 索引量工具数据异常的处理方式

    索引暴跌

    百度搜索引量暴跌的原因有哪些,出现这种问题我们应该如何的处理。对于搜索引量很多站点存在这一定的误区,只有正确的理解看待索引数据,那么才能使得数据更加的稳定发展。

    815
    • 索引暴跌
  • DNS对于SEO至关重要

    DNS服务器,seo

    如果你错误的选择dns服务器,那么对于站点的SEO优化是致命的,轻则影响SEO效果,严重的甚至站点会被搜索引擎所屏蔽。因此重视dns服务器,正确的选择对于seo优化是必要的也是重要的。

    553
    • DNS服务器
    • seo
  • SEO必须的知道–百度算法大汇总

    百度算法,算法解析

    百度算法大全,解析主要的百度算法跟新,算法主要可以分为5大类,分别是网站内容质量、用户需求满足、搜索恶意竞争、网站安全问题、落地页体检问题。

    1981
    • 百度算法
    • 算法解析
  • 烽火算法持续升级,控制回退按钮失效问题

    烽火算法持续,退按钮失效

    烽火算法解析,2021年8月百度搜索引擎对于烽火算法进行了升级,此次升级主要是打击移动端退回按钮失效问题。上一个版本的烽火算法2.0更新于2017年2月,严惩“窃取用户数据”和“恶意劫持”的行为:未经用户允许恶意窃取用户手机号码等隐私数据的行为和恶意劫持百度流量的行为。

    1082
    • 烽火算法持续
    • 退按钮失效
  • 带Nofollow标签的外链有用吗

    Nofollow标签,外链

    站长的任何操作都是无法干预搜索引擎最终的决定。即使外链上加了nofollow标签,蜘蛛依然会去抓取这个链接。

    1267
    • Nofollow标签
    • 外链
  • 进入前100名的关键词如何提升排名

    关键词排名提升

    进入前100名的关键词如何提升排名如何提升?持续更新,切勿大动干戈,50-100名就是就是搜索引擎对页面最后的考察期,一旦进了50名那就不一样了。按照以往的经验来说,网站排名在这个区间会持续短则一个星

    1279
    • 关键词排名提升
  • 百度下拉框的原理及删除方法

    百度下拉框,下拉词删除

    你知道什么是百度下拉框吗?百度下拉框是百度下拉词的承载容器。就是当我们搜索一个关键词的时候,搜索框推荐的相关搜索词。所以下拉框我们也可以理解为是下拉词。

    1506
    • 百度下拉框
    • 下拉词删除
  • Site域名查询的不显示备案信息

    网站备案,site命令,收录量

    Site命令站长们应该非常的熟悉,只要在对应的搜索引擎输入”site:域名”就可以查询到站点的收录数量。同时顶部的小卡片中会显示站点的备案号和备案主体,但是有的时候会遇到有些站点就只有资格收录数量,没有任何的备案信息。

    1153
    • 网站备案
    • site命令
    • 收录量
  • SEO优化岗位如何考核

    SEO如何考核

    SEO优化岗位如何考核?SEO优化对于网站推广的重要度越来越高,一方面是因为SEM推广的竞争度越来越高,并且关键词的价格也在不断的增长。越来越多的公司都开始设立了SEO优化推广这个岗位。

    1918
    • SEO如何考核
  • 如何做网站SEO诊断?

    SEO诊断,网站优化

    从网站的展现、点击率、关键词相关度,可以更加快速简单有效的诊断出网站的SEO优化效果。网站诊断可以从很多方面出发,可以从页面的规范程度,站点的内容,网站的代码等等各个方面都是决定网站最终优化效果的因素。今天不讲那么多细节性的,就从网站展现排名来诊断网站的优化效果。

    749
    • SEO诊断
    • 网站优化
-- 这已经是底线了,看看别的把! --