首页 >  SEO >  SEO知识 >  正文

如何鉴别真假蜘蛛,代码自动化

 作者:潘某人SEO
1244

相信所有站长都很痛恨假蜘蛛,我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性,跟真蜘蛛一模一样,根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性,那么只有一个途径就是放过蜘蛛的IP反查其解析的域名,具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”,看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的,但是这个ip与域名之间的解析,要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说,通过这个方式的可能性为零,所以我们判定蜘蛛的真实性,只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么,大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析,伪装成搜索引擎蜘蛛可以获取站点的信任,降低被发现的可能性。如果你经常观察网站日志是很好发现的,搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容,也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出,但是我们不可能去时时刻刻监控网站日志;对于一些抓取内容的而已蜘蛛我们发现的时候,内容已经被爬了去了再去屏蔽意义也不是很大了,那么有什么办法自动化处理这些假蜘蛛呢?

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法,那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别,对于存在问题的ip立刻进行一个屏蔽处理,就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别,访问者的请求头也就是user-agent。如果请求头是蜘蛛名,那么我们就要判断其真实性,基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性,我们把gethostbyaddr()函数的返回值,去匹配下各个蜘蛛域名;就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通,对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限,同时你也可以直接返回一封警告信给它,估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单,下次直接放通不再做鉴别。

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seozhishi/657
相关文章
  • 原创内容收录排名一定好吗?

    原创内容收录

    可以说现在已经已经进入了内容为王的时代,站点想要流量就必须生产优质内容,逐渐的大家都在进行原创或者为原创,但是很多站点并没有多大的效果,甚至有的站点收录都非常困难。

    840
    • 原创内容收录
  • seo优化前端必须做的那些事

    seo优化,前端

    网站的访问速度会直接影响seo优化的效果,以及站点的转化率;所以网站前端必须对页面资源请求数量,以及资源的大小进行优化,对于一些图片自资源适当的延迟加载,来保证站点的访问速度。

    792
    • seo优化
    • 前端
  • 链接权重分析HITS算法的不足之处

    HITS算法的不足之处,链接权重分析

    搜索引擎链接权重分析,主要参考。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法的不足之处,引用越多高质量页面的网页,其链接权威度越高。

    1999
    • HITS算法的不足之处
    • 链接权重分析
  • 作为一名SEOER,你是否懂得一门编程语言

    seo优化与编程

    作为一名SEOER,你是否懂得一门编程语言,那么哪门编程语言更加合适呢?

    634
    • seo优化与编程
  • 网站优化哪个数据指标最重要?

    网站优化,seo数据

    资深SEO优化师可以说出一大堆影响SEO优化效果的因素。影响排名的因素不胜枚举,就比如百度搜索引擎的白皮书中就列举出来了很多影响排名的因素,那么在众多因素中,哪个因素最核心呢?

    744
    • 网站优化
    • seo数据
  • 搜索引擎高级搜索指令大全

    高级搜索指令大全

    搜索引擎高级搜索指令大全。普通的搜索肯定需要会,但是有一些特殊的搜索是SEO必修课程。下面就来介绍一下搜索引擎的特殊搜索——高级搜索指令。

    1434
    • 高级搜索指令大全
  • SEO网站优化如何进行内容建设

    SEO网站内容建设

    网站优化建设内容,不在于原创还是伪原创,抓住用户的需求,提供最优价值的内容才是根本。保持稀缺性,是网站排名优化的核心手段!

    1408
    • SEO网站内容建设
  • 什么是链接农场,及其对于网站的危害

    链接农场,外链

    链接农场对于网站优化的威胁超级大,不但自己不该做,有的时候防不甚防一不小心掉进链接农场,很多时候很多站点做着做着不知不觉就变成链接农场了

    2091
    • 链接农场
    • 外链
  • SEO优化未来发展方向

    SEO优化发展

    SEO优化未来发展方向?如何才能立于不败之地?对于做SEO优化来说,尤其是对于刚入行的优化者来说,会担忧这个行业的发展。入SEO这个行业有没有前途。必然SEO优化是一项充满着挑战变数的工作....

    1716
    • SEO优化发展
  • 手机网站的优化注意事项

    手机网站,移动端优化

    随着智能手机的崛起,移动互联网的占比越来越高,对于部门行业领域移动端已经吊打PC端,比如电商类的站点,大部门的成交都是在移动端完成的。因此,现在开始必须注重移动手机站点的优化。

    938
    • 手机网站
    • 移动端优化
  • TF-IDF技术在搜索引擎中的作用

    TF-IDF,搜索引擎

    TF-IDF技术在搜索引擎中的作用,事关如何更好的选择关键词,如何获得更好的排名的关键。掌握了解TF-IDF技术对于搜索引擎的作用可以让你更在SEO优化中更好如何筛选和优化关键词。

    322
    • TF-IDF
    • 搜索引擎
  • SEO链接推送提交限额如何应对

    SEO提交限额

    百度搜索平台预计从12月14日起陆续清理历史老旧sitemap文件,也就是说接下来大多数的站点,链接的提交只有每天10条的总额度了。

    623
    • SEO提交限额
  • 跳出率对网站排名的影响

    排名影响因素,网站跳出率

    网站跳出率对于网站的排名有一定的影响因素,当然并不是所有的跳出行为会对排名优化有负面影响,简单的描述了跳出率与排名因素的相关关系!

    1535
    • 排名影响因素
    • 网站跳出率
  • 内链算法快,快速提升关键词排名

    内链算法

    内链算法快,快速提升关键词排名?内链是搜索引擎200多项算法中对网站打分的一个重要算法,利用内链算法快速提升权重获得排名。但是做内链的思维和方向你们知道怎么做是有利内链算法加分的。内链不能随便乱链,

    1497
    • 内链算法
  • 如何安全增加关键词密度

    关键词密度

    那么在当今的算法下不能堆砌关键词,那么如何提升关键词的排名呢?不管算法怎么更新,关键词密度还是永远不变的本质,我们需要的是采用正确的方法提升关键词密度。

    1050
    • 关键词密度
  • 域名后缀对seo的影响

    域名后缀SEO影响

    域名后缀以及域名的长短会对网站seo产生影响吗?早期来说域名的后缀对于SEO优化不会有任何的影响,但是随着这个行业的发展慢慢的出现了群站,如今是否存在影响也是成为了一个不确定的因素。

    2082
    • 域名后缀SEO影响
  • 做seo优化排名赚钱吗?

    seo优化赚钱吗

    做seo优化排名赚钱吗?seo优化现在还好做吗?搜索引擎是个大市场,如果想在市场里买东西,就要打广告,所以seo优化不会过时,并且会是一个赚钱的行业。不论是以后做什么行业,我都觉得seo都是不可或缺的技术,因为任何行业都需要做广告推广,而seo则是经济实惠的选择。

    1935
    • seo优化赚钱吗
  • 相同网站的模板对优化有影响

    模板对优化影响

    采用相同的模板建站会对SEO优化有负面影响吗?相同的程序带来的风险放大才是我们需要真正需要担心的。

    760
    • 模板对优化影响
-- 这已经是底线了,看看别的把! --