首页 > SEO > SEO知识 > 正文

如何鉴别真假蜘蛛，代码自动化

发布于：2021-04-25 21:29:43

作者：潘某人SEO

相信所有站长都很痛恨假蜘蛛，我们这里说的蜘蛛是指搜索引擎爬虫蜘蛛。在我们观察网站日志的时候我们会发现有一些蜘蛛很有迷惑性，跟真蜘蛛一模一样，根本无法直接通过肉眼区分出来。

鉴别真假蜘蛛的方法

想要准确无误的判定蜘蛛的真实性，那么只有一个途径就是放过蜘蛛的IP反查其解析的域名，具体的方法参照真假蜘蛛ip识别。简单的讲就是我们可以通过电脑的cmd等工具使用“nslookup + ip”，看返回的结果是不是对于搜索引擎的域名。

因为访问的user-agent是可以修改的，但是这个ip与域名之间的解析，要么是域名所有者或者是劫持域名解析。对于搜索引擎的来说，通过这个方式的可能性为零，所以我们判定蜘蛛的真实性，只能使用这个方法。

假蜘蛛的目的

那么这些假蜘蛛的目的是什么，大多数就是为了采集你网站的内容、或者是对于网站进行攻击分析，伪装成搜索引擎蜘蛛可以获取站点的信任，降低被发现的可能性。如果你经常观察网站日志是很好发现的，搜索搜索引擎不会去抓取内容资源之外的链接。同时搜索引擎不会集中时间段去大量抓取内容，也不会去有顺序的挨个去抓取页面内容。

如何鉴别真假蜘蛛

虽然通过日志可以辨别出，但是我们不可能去时时刻刻监控网站日志；对于一些抓取内容的而已蜘蛛我们发现的时候，内容已经被爬了去了再去屏蔽意义也不是很大了，那么有什么办法自动化处理这些假蜘蛛呢？

代码自动化鉴别假蜘蛛

分享一个我觉得不错的方法，那就是在网站后端请求的时候对于访问客户端的身份做一个鉴别，对于存在问题的ip立刻进行一个屏蔽处理，就可以尽可能的保护我们的原创内容不被别人抄袭了去。

第一步就是鉴别，访问者的请求头也就是user-agent。如果请求头是蜘蛛名，那么我们就要判断其真实性，基本的原理就是反查ip。比如在php中我们无法使用nslookup命令去进行反查。但是我们可以使用gethostbyaddr()函数可以实现nslookup同样的功能。

第二步就是确认蜘蛛真实性，我们把gethostbyaddr()函数的返回值，去匹配下各个蜘蛛域名；就可以确认真的ip是不是真的搜索引擎爬虫。

第三步屏蔽处理与放通，对于存在问题的蜘蛛我们可以直接屏蔽当前IP访问网站的权限，同时你也可以直接返回一封警告信给它，估计会被你震惊到的。对于是真实蜘蛛的IP我们添加为白名单，下次直接放通不再做鉴别。

网站地图sitemap制作与提交详细教程
sitemap如何处理，如何提交，移动动端和pc端是否需要都提交sitemap还是提交一次就可以了呢？那么仔细看完这篇文章，你将不再有这个疑虑。大多数搜索引擎都支持文本格式和xml格式的形式的地图，站点可以根据站点的需求随便选择一种。但是不推荐大家使用文本格式的sitemap方式提交，而是推荐使用xml格式的网站地图。
2022-06-21 1371
- 网站地图
- sitemap
如何屏蔽某些页面的抓取，但是让页面中链接正常抓取
如何屏蔽某些页面的抓取，但是让页面中链接正常抓取，对于这种情况，使用meta标签来进行屏蔽页面的抓取，可以变得更加的有效。相比常用的robots文件屏蔽，或者nofollow标签屏蔽的实用性更加的广。
2020-02-23 3103
- meta标签屏蔽页面抓取
百度绿萝算法打击哪些行为
百度绿萝算法解读，绿萝算法是一种为了打击通过买卖链接干扰搜索引擎算法获得排名的行为而设计的，主要为了保证搜索排名的公平性，保护真正有价值内容获得更高的流量，保障了搜索引擎生态的健康发展。
2020-12-22 1508
- 绿萝算法
排名优化中所说的指数和搜索量有什么关系
百度搜索指数代表着什么，网站的权重数值是通过关键词的搜索指数得到预估流量来的，但是知道百度指数的计算方式，我们就可以知道所得到的权重并不准确只能当作是参考
2019-12-26 1366
- 搜索指数
- 百度指数
权重域名对SEO的影响大吗?
一直有一种说法建站要用权重高的域名，可以对站点的SEO优化起到很好的促进作用，那么事实是真的如此吗？今天就来探究下。
2021-07-28 907
- 权重域名
- 老域名建站
如何防止网站内容被采集保护原创
分享一个值得一看的保护内容被恶意抓取采集的方案，如何更高效率的从源头解决网站内容被采集，保护站点原创收录排名。
2022-06-07 1734
- 防爬取
- 原创保护
- 防采集
网站内容更新频率对SEO的影响
想必大家都听过，每天要定时定量的更新内容，来促进蜘蛛的抓取从而获取到更高SEO效果，相信很多站点都一直坚持着内容的更新。这么做虽然没有大问题，但是很多时候却是在徒劳的浪费人力。
2023-01-31 756
- SEO的影响
- 内容更新
百度几种链接推送方式对比
网站内容如果想要实现快速收录，那么及时的提交新内容链接是直接有效的方法。对于百度搜索来说链接提交方式是比较丰富的，大致分类主动提交、自动提交、手动提交和sitemap提交，那么你知道这四种提交方式有什么区别呢？哪张方式可以更快使内容收录呢?
2020-12-21 1565
- 百度链接推送
自学SEO难吗？最短多长时间学会?
对于SEO感兴趣的同学，最关注的就是SEO学起来难吗，学习周期长吗？从事SEO优化，一般是建议同事掌握多个技能，比如推广运用、SEM推广等，至少可以稳定你的工作，让你有足够的时间条件往精通SEO成长。
2021-09-09 740
- 自学SEO
- SEO优化
内容权威性对网站排名的影响
你知道吗网站内容的权威性一定程度上决定了网站的质量以及排名。你知道什么是权威性呢，我们应该如何去优化网站才可以提网站在领域内的权威性呢?
2020-11-24 924
- 权威性与排名
百度移动适配怎么做
当我们的网站同时存在pc站点和移动站点的时候，两者都被收录的时候，有的时候搜索引擎不能很好的判断哪个网址是PC端的哪个是移动的端的，就需要进行移动端适配规则提交
2020-02-04 2610
- 百度移动适配怎么做
PageRank排名算法
PageRank排名算法，是一种由根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一。在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。
2020-04-27 2245
- PageRank算法
SEO如何正确的判断网站关键词流量
大家流量统计会用什么根据呢，百度统计？相信很多站点的流量统计都是按照百度统计来计算，但是对于SEO优化来说是远远不够的。个人认为百度统计并不是非常适用于SEO优化效果的判定，对于百度SEO优化效果推荐大家使用百度搜索资源平台的中流量与关键词工具，比起百度统计更加适用。
2021-06-23 944
- 关键词流量
- SEO优化
seo优化行业的现状
seo优化行业的现状解析。随着付费推广的竞争越来越激烈，广告成本也是指数级的上升，这也一定的程度会让大家重视成本相对更低的SEO优化。但是SEO优化行业却充满着不和谐的因素！
2020-08-17 1063
- seo优化的现状
网站制作上线的基本流程
网站制作上线的基本流程，从网站定位、网站程序选择、网站域名主机选择、网站SEO优化、内容填充几个方面来分析如何进行SEO化的网站搭建。
2021-08-02 888
- 网站制作
- SEO优化
网站快速排名怎么做？
网站快速排名怎么做？怎样才能网站有好的排名?网站快速排名有以下几种方法可以完成。网站优化排名不是一天两天的事情，是一个月两个月往上走的事情！SO，如果你三天打渔两天晒网，就不要浪费钱了。
2020-06-24 850
- 网站快速排名
通过时效性内容提高网站收录速度
通过时效性内容提高网站收录速度是一个不错的方法，但是你知道如何保护自己的原创内容不被别人抄袭还比你更快收录吗？一种提高内容收录及更新抓取速度的方法。
2020-12-15 1606
- 时效性内容收录
【重要】搜索资源平台清退风险资源
如果站点从事百度SEO优化，那么这条消息必看，避免对日常的优化工作产生影响，未及时处理将直接影响百度搜索资源平台的账户。
2023-09-06 704
- 搜索资源平台
- seo

-- 这已经是底线了,看看别的把！ --

鉴别真假蜘蛛的方法

假蜘蛛的目的

代码自动化鉴别假蜘蛛

网站地图sitemap制作与提交详细教程

如何屏蔽某些页面的抓取，但是让页面中链接正常抓取

百度绿萝算法打击哪些行为

排名优化中所说的指数和搜索量有什么关系

权重域名对SEO的影响大吗?

如何防止网站内容被采集保护原创

网站内容更新频率对SEO的影响

百度几种链接推送方式对比

自学SEO难吗？最短多长时间学会?

内容权威性对网站排名的影响

百度移动适配怎么做

PageRank排名算法

SEO如何正确的判断网站关键词流量

seo优化行业的现状

网站制作上线的基本流程

网站快速排名怎么做？

通过时效性内容提高网站收录速度

【重要】搜索资源平台清退风险资源