首页 >  SEO >  SEO心得 >  正文

真假蜘蛛ip识别

 作者:潘某人SEO
1037

作为一个合格的SEO不仅仅是一个内容优化的高手,技术层面也是需要一两把刷子的。就比如如何分别真假搜索引擎蜘蛛就是一个比较重要也是比较实用的技能。相信大家都会去管不住网站的抓取频次,但是大多数人还是只是从站长后台去看给到的一个抓取频次。但是其实这个数据不是很稳定,而且这个工具经常出问题,对于抓取频次比较的网站,可能都看不到这一个模块的数据,并且对于搜索引擎抓取了哪些页面这是这个工具无法看到的。

因此,对于日常的SEO优化来说学会如何的通过网站日志去查看日志,对于网站日志的分析还是比较复杂,之后再去具体的探讨。今天主要是讲真假蜘蛛ip的识别方法,不管是搜索引擎的蜘蛛,还是假蜘蛛,其实都是网络爬虫。原理上是一样的,只是用途不一样,我们把冒充搜索引的蜘蛛称为假蜘蛛。


为什么有假蜘蛛

这类假蜘蛛的目的,主要就是为了爬取网站的内容,然后为己所用。简单的说就是抄袭转载网页内容,只是把传统的手动方式改成了程序的自动处理。对于这类假蜘蛛它会把自己爬虫的user-agent伪装成和百度一样的,为了就是不被站长们发现屏蔽,达到长期的潜伏着爬取内容。

对于SEO来说内容的稀缺性很重要,如果自己的原创内容被多处抄袭转载,更甚至抄袭者比你先收录,那么对于自己的站点优化是非常的不利的。


如何识别真假蜘蛛

其实发现真假蜘蛛很简单,首先我们需要了解各大搜索引擎蜘蛛名称,比如百度蜘蛛为“baiduspider”。我们就在当天的网站日志中搜索这个关键字,找出有多少条结果。然后对比站长工具中的抓取频次,如果两者的数据差异很大,这个时候我们就需要进一步的去排查了,抓取次数相差很大绝对是由假蜘蛛。

然后我们就要去锁定哪些ip是有异常的,一般来说搜索引擎的蜘蛛不会集中在一个时间段去抓取内容,因此为了更好的及时发展新内容,抓取的时间段是会比较分散的。如果某一个ip会集中的大量抓取页面,那么我们就要重点排查这个IP了。

这种方法操作起来还是比较复杂的,对于日志比较大的网站就不会合适了。更加科学的方法是,写一个程序列出以各个搜索引擎user-agent名称请求的ip,同时需要取到每个ip的访问次数,这样一方面我们可以结合搜索引擎公布的ip段,以及我们能自己排查确认的搜索引擎ip,一排除就可以非常容易的找出有问题的IP。

最后一步就是屏蔽有问题的ip,毕竟于搜索引擎抓取有关,这类ip的封禁我们需要更加的严谨,对于ip需要做一个检验,这个也是非常简单的,使用电脑的cmd中的nslookup命令就可以实现,真假蜘蛛ip的鉴别。

网站日志怎么看

日志大家一定记得按日分割,这边随便拿一个百度蜘蛛的ip做一个演示


真假蜘蛛ip分辨nslookup

习惯用powershell了,用cmd也是一样的没区别的,可以看出如果ip是真的属于搜索引的ip,通过nslookup命令是可以反查到ip对应解析到的域名,这个是绝对可靠的,只要解析的域名是对应搜索引擎的,那就没有问题,如果是假蜘蛛,那么要么是出现解析的域名不对,或这个就是直接超时。

今天讲到的这个需要完全的自动化实现还是存在一定的技术难度的,高度依赖于对日志文件进行操作ip的分离,有兴趣的小伙伴可以公众号,后续会出教程。

申明:以上内容仅代表个人观点,仅供学习参考 本站图片来源于站点原创或CC0协议图库站点或已获得VRF授权的图库站点 版权申明:本文为博主原创,未经授权任何个人或组织单位不得复制、转载、摘编以及其它形式的应用! 本文地址:https://www.chateach.com/seo/seoxinde/582
相关文章
  • 网站Site出图率是什么?对排名有什么影响?

    Site出图率

    网站Site出图率是什么?对排名有什么影响?对于SEO优化来说网站的site出图率越高越好,这个更主要的处于在吸引用户点击作用上的考量,有图片的内容更容易获取用户的目光,提高了获得点击的几率,对于关键词的排名可以起到一个很好的促进作用。

    1106
    • Site出图率
  • SEO优化的常规策略

    SEO优化策略

    凡事都先要有计划,对于SEO优化首先要确立站点的优化策略和方针,劲往一处使才可以更快获得更好的效果。今天我们就来说一下如何正确的选择优化策略,避免走弯路,好的开始是成功的一半,走错方向越努力离成功就越远。

    571
    • SEO优化策略
  • 网站排名靠前的方法

    排名靠前的方法

    网站排名靠前的方法?如何让网站内容排到首页是所有SEOER们日思夜想的问题,其实当关键词的排名到了前50,或者说想进入前二页并不是简单的靠页面优化就可以达到的排名,无论你页面关键词布局多么合理,只要不是权重绝对高,基本上是很难进入前二页的。

    769
    • 排名靠前的方法
  • 怎么提高网站收录速度

    提高收录速度

    怎么提高网站收录速度?网站收录对于网站优化来说是非常重要的,我们当然喜欢是网站的收录速度越快越好,这样对于我们内容的保护起到很重要的作用,因为如果网站收录速度很慢,这样很容易自己的原创内容被人抄袭,别人还先收录了成为了原创而你的成了抄袭这个是很悲催的一件事。

    1464
    • 提高收录速度
  • nofollow标签对于网站优化的作用

    nofollow标签,内链优化,外链优化

    nofollow标签对于网站优化的作用,针对nofollow标签在外链优化以及内链优化中的作用,以及注意事项简单的分析了其作用,对于网站优化还是十分重要的!

    1334
    • nofollow标签
    • 内链优化
    • 外链优化
  • seo优化自学难吗?

    seo自学

    seo优化自学难吗?不少人想进入SEO这个行业,由于个人原因无法去参加培训,想自学SEO,​对于自学SEO优化,这个问题,如果实在没有办法,在网上有很多实战教程,但是还是建议多看相关的书籍比网上学习更好。

    1041
    • seo自学
  • 简单易用的SEO关键词工具大全

    关键词挖掘工具

    简单易用的SEO关键词挖掘工具有哪些?搜索引擎优化的重要性不言自明,但选择正确的搜索引擎优化工具是一件困难的事,那么哪种搜索引擎优化工具比较适合你

    998
    • 关键词挖掘工具
  • SEO如何布局您的PC站和移动站

    PC站和移动站如何做适配

    SEO如何布局您的PC站和移动站,目前较流量的PC站与移动站配置方式有三种,百度站在搜索引擎角度将这三种分别称为跳转适配、代码适配和自适应,以下为这三种配置方式的名词解释及异同对比。

    2277
    • PC站和移动站如何做适配
  • 百度蓝算算法打击什么

    新闻源,蓝天算法

    百度蓝天算法是一个比较久远的算法了,是在16年的时候上线的,主要是用于打击新闻源站点售卖目录的行为,还互联网一片蓝天。

    2134
    • 新闻源
    • 蓝天算法
  • 百度spider对新链接重要程度判断

    百度spider

    影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分析,通过内容分析决定该网页是否需要建索引库,通过链接分析发现更多网页,再对更多网页进行抓取——分析——是否建库&发现新链接的流程。

    216
    • 百度spider
  • 死链的正确处理方式,自动化提交,超详细全面教程!

    死链提交,搜索引擎,蜘蛛

    死链提交是SEO优化中常见的一环,但是你处理死链的方式真的正确吗?分享一份详尽的死链处理方案教程。及如何实现全自动死链提交。

    122
    • 死链提交
    • 搜索引擎
    • 蜘蛛
  • 关键词密度,在SEO中的作用!

    关键词密度

    关键词密度对于关键词的排名有着重要影响,那么关键词密度多少合适呢?相信大家经常听到网上的说法,控制关键词密度2-8%之间。这种说法其实是不对的,对于不同行业适合的关键密度肯定是不一样的。

    1005
    • 关键词密度
  • 百度指数是如何计算的

    百度指数的计算

    百度指数是如何计算的?百度指数是我们网络推广中经常用到的一种工具,你使用过吗?百度指数是用来综合反映该关键词在过去1天用户对它的关注和媒体对他的关注的一个参考值。

    2324
    • 百度指数的计算
  • 网站SEO优化监控哪些指标

    SEO优化效果,SEO指标

    数据是进行网站建设的重要参考依据,任何网站的建立都不是凭空幻想出来的。标题的撰写、导航的确立以及内容的编辑都是依靠数据而进行,数据对于我们seo后期的工作更具指导作用。那么网站的哪些数据是优化人员需要关注的呢?

    727
    • SEO优化效果
    • SEO指标
  • 百度细雨算法打击什么

    百度算法,细雨算法

    细雨算法主要是正对B2B网站,地址栏内容虚假内容进行打击,对于B2B网站应该如何应对。怎么样的内容才是符合百度细雨算法规范的!

    2035
    • 百度算法
    • 细雨算法
  • 巧用Robots避免蜘蛛黑洞

    Robots,蜘蛛黑洞

    搜索引擎的蜘蛛黑洞指的是搜索引擎蜘蛛在抓取站点内容的时候出现了大量雷同内容的url,导致搜索引擎蜘蛛一直被困在无限的循环中,如黑洞一般。直接的结果就会导致消耗大量的抓取资源。

    626
    • Robots
    • 蜘蛛黑洞
  • CDN防止网站被黑攻击

    CDN,网站被黑

    CDN的可以有效的隐藏网站的真实的IP地址,用户访问到的是离自己最近的CDN服务器;不仅仅加快了全球各地用户的访问速度体验,同时因为IP的隐藏,加大了攻击者访问到真实地址的难度,另一方学会如何设置好服务器的安全组,也可以有效防止网站被黑。

    786
    • CDN
    • 网站被黑
  • 百度关键词指数是什么意思

    百度指数,关键词指数

    百度关键词指数是什么意思,通俗来说,百度指数是一个数据分享平台,通过这个海量数据平台,直观的以指数展现,从而能够反应这个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里。

    3320
    • 百度指数
    • 关键词指数
-- 这已经是底线了,看看别的把! --