首页 > SEO > SEO心得 > 正文

真假蜘蛛ip识别

发布于：2020-10-22 12:33:58

作者：潘某人SEO

作为一个合格的SEO不仅仅是一个内容优化的高手，技术层面也是需要一两把刷子的。就比如如何分别真假搜索引擎蜘蛛就是一个比较重要也是比较实用的技能。相信大家都会去管不住网站的抓取频次，但是大多数人还是只是从站长后台去看给到的一个抓取频次。但是其实这个数据不是很稳定，而且这个工具经常出问题，对于抓取频次比较的网站，可能都看不到这一个模块的数据，并且对于搜索引擎抓取了哪些页面这是这个工具无法看到的。

因此，对于日常的SEO优化来说学会如何的通过网站日志去查看日志，对于网站日志的分析还是比较复杂，之后再去具体的探讨。今天主要是讲真假蜘蛛ip的识别方法，不管是搜索引擎的蜘蛛，还是假蜘蛛，其实都是网络爬虫。原理上是一样的，只是用途不一样，我们把冒充搜索引的蜘蛛称为假蜘蛛。

为什么有假蜘蛛

这类假蜘蛛的目的，主要就是为了爬取网站的内容，然后为己所用。简单的说就是抄袭转载网页内容，只是把传统的手动方式改成了程序的自动处理。对于这类假蜘蛛它会把自己爬虫的user-agent伪装成和百度一样的，为了就是不被站长们发现屏蔽，达到长期的潜伏着爬取内容。

对于SEO来说内容的稀缺性很重要，如果自己的原创内容被多处抄袭转载，更甚至抄袭者比你先收录，那么对于自己的站点优化是非常的不利的。

如何识别真假蜘蛛

其实发现真假蜘蛛很简单，首先我们需要了解各大搜索引擎蜘蛛名称，比如百度蜘蛛为“baiduspider”。我们就在当天的网站日志中搜索这个关键字，找出有多少条结果。然后对比站长工具中的抓取频次，如果两者的数据差异很大，这个时候我们就需要进一步的去排查了，抓取次数相差很大绝对是由假蜘蛛。

然后我们就要去锁定哪些ip是有异常的，一般来说搜索引擎的蜘蛛不会集中在一个时间段去抓取内容，因此为了更好的及时发展新内容，抓取的时间段是会比较分散的。如果某一个ip会集中的大量抓取页面，那么我们就要重点排查这个IP了。

这种方法操作起来还是比较复杂的，对于日志比较大的网站就不会合适了。更加科学的方法是，写一个程序列出以各个搜索引擎user-agent名称请求的ip，同时需要取到每个ip的访问次数，这样一方面我们可以结合搜索引擎公布的ip段，以及我们能自己排查确认的搜索引擎ip，一排除就可以非常容易的找出有问题的IP。

最后一步就是屏蔽有问题的ip，毕竟于搜索引擎抓取有关，这类ip的封禁我们需要更加的严谨，对于ip需要做一个检验，这个也是非常简单的，使用电脑的cmd中的nslookup命令就可以实现，真假蜘蛛ip的鉴别。

网站日志怎么看

日志大家一定记得按日分割，这边随便拿一个百度蜘蛛的ip做一个演示

真假蜘蛛ip分辨nslookup

习惯用powershell了，用cmd也是一样的没区别的，可以看出如果ip是真的属于搜索引的ip，通过nslookup命令是可以反查到ip对应解析到的域名，这个是绝对可靠的，只要解析的域名是对应搜索引擎的，那就没有问题，如果是假蜘蛛，那么要么是出现解析的域名不对，或这个就是直接超时。

今天讲到的这个需要完全的自动化实现还是存在一定的技术难度的，高度依赖于对日志文件进行操作ip的分离，有兴趣的小伙伴可以公众号，后续会出教程。

如何防止网站内容被采集保护原创
分享一个值得一看的保护内容被恶意抓取采集的方案，如何更高效率的从源头解决网站内容被采集，保护站点原创收录排名。
2022-06-07 1734
- 防爬取
- 原创保护
- 防采集
seo中关键词筛选
关键词的选择非常的重要，知道如何从海量的关键词筛选出有价值的关键词对于SEO优化来说是至关重要的，关键词应该如何使筛选呢，才可以更好的满足搜索需求的同时满足SEO优化。
2020-07-17 1117
- 关键词优化
ChatGPT将革新搜索引擎跨入新时代
ChatGPT的发布代表着人工智能技术开启了新篇章，不少人开始纷纷感受到了恐惧，在不久的将来被ChatGPT所淘汰，这个就让我们拭目以待吧。作为SEO从业者，最关注的还是ChatGPT会对搜索引擎的发展带来何种影响呢？
2023-02-13 795
- ChatGPT
- 搜索引擎发展
网站不收录的原因及如何处理应对
网站不收录问题不管是新站还是老站都会面临的问题，那么当网站遇到收录问题的时候应该如何应对，如何找到问题所在呢？
2023-07-03 589
- 收录
别让推广追踪url链接毁了你的SEO
推广追踪url链接也就是我们常说的跟踪链接，它可以帮助我们实现对于广告投放效果的追踪。不管是常见SEM推广，其它的推广方式都需要用到跟踪链接，但是很多站点没有正确的使用，不知不觉中对站点的SEO已经造成了不利的影响。
2023-07-27 749
- 追踪链接
- 跟踪链接
网站ICP备案对于SEO优化的影响
网站ICP备案对于SEO优化的影响。先说结论，如果你的优化重点是国内的搜索引擎，那么网站ICP备案至关重要。很多年前网站备案对于SEO优化影响度很低，但是近几年已经完全不一样。
2023-10-18 826
- ICP备案
- SEO优化
百度清风算法解读
清风算法针对违规标题及虚假下载问题，包括关键词堆砌、虚假标题和虚假下载等问题。所以简单的理解就是清风算法主要打击的就是标题党，通过虚假的标题来获取用户的点击的一种行为。
2019-12-26 2526
- 百度清风算法
h1标签对seo优化重要吗
H标签可以通过重要程度分为H1>H2>H3>H4>H5>H6.........,那么很多都会想到既然H1标签可以突出页面的重点，那么岂不是对于想要优化的关键词我们可以使用H1标签来突出它？
2020-10-05 1423
- H标签SEO优化
修改网站标题对排名有影响吗
修改网站的关键词标题等会影响网站的排名吗，网上大多数的说法是站点的关键词标题不能够轻易修改，对于网站的排名影响很大，但是真相并非如此......
2020-02-07 1807
- 修改标题
- 排名影响
如何正确看待SEO与SEM之间的关系
不管你是SEO还是SEM都进来看看，正确认知下对方对于自身的意义。SEO和SEM合起来就可以基本覆盖搜索引擎的所有的流量入口，两者并不是对立而是相辅相承的关系。
2022-12-07 570
- SEO
- SEM
网站百度快照被劫持如何快速恢复
当前查看网站收录或关键词排名的时候，发现自己的网站百度快照收录的标题和描述与实际标题不一样，这是由于你的网站百度快照被劫持了！网站百度快照被劫持如何快速恢复
2020-08-03 1164
- 快照劫持解决
seo优化建站及内容维护应该注意哪些细节
seo优化应该注意哪些细节，常见的违规行为有哪些，如何优化对搜索引擎更加的友好呢？在内容优化上又需要注意什么呢？如何才能拥有更好的排名效果呢？
2022-03-31 622
- seo优化
- seo建站
- 内容优化
内容采集对于网站优化有什么影响
内容采集、伪原创、抄袭等操作方式对于网站排名会不会有影响；凡事都有两面性，重点在于我们找到里面的平衡点，对于seo优化来说采集伪原创的方式并不是不可以使用，关键在于掌握其中的奥秘.....
2020-03-08 1211
- 采集对于排名影响
如何判断seo外包是否靠谱
关键词有需求就有市场，尤其是seo优化市场可以说是鱼龙混杂，很多站点会去选择一些seo外包服务公司来助力公司的seo优化，今天就分享一点避坑指南，如何正确的选择seo外包。
2022-08-05 728
- seo外包
现在发布外链还有用吗
外链优化对于SEO来说是一个在数据不过的话题，曾经外链对于排名的效果是非常好的，如今却是收效胜微。那么现在是不是外链没有作用了吗？显然不是这样今天讲一下现在发布外链对于SEO还有用吗？
2020-08-13 1203
- 优质外链
百度天网算法，用户隐私保护
百度天网算法打击恶意盗取网民的QQ号、手机号进行营销推广的行为。打击这种严重侵犯用户隐私的行为的站点。
2021-05-18 1349
- 百度天网算法
- 用户隐私保护
答应我以后别这么设计网址路径，迟早会后悔！
今天有人跟我痛诉网站几千的内容，全部被爬走了，一个不剩的那种，如何才能避免这种悲剧的发生呢？很多人的站点都会有这个问题，并且我见过的很多企业站点都有这个通病。
2024-12-30 147
- 网址路径
seo图片优化技巧
在做SEO优化的过程中，很多人都注重内容的优化，而图片在内容优化中起到了关键性的作用，做好图片的优化，不仅可以在展现的时候能展现，同时也能吸引用户的点击，带来更多的流量，不过由于搜索引擎暂时无法识别图片的内容，因此我们需要做好哪些操作来让搜索引擎更好的了解图片的内容并展现呢?
2020-06-17 1503
- 图片优化技巧

-- 这已经是底线了,看看别的把！ --

为什么有假蜘蛛

如何识别真假蜘蛛

如何防止网站内容被采集保护原创

seo中关键词筛选

ChatGPT将革新搜索引擎跨入新时代

网站不收录的原因及如何处理应对

别让推广追踪url链接毁了你的SEO

网站ICP备案对于SEO优化的影响

百度清风算法解读

h1标签对seo优化重要吗

修改网站标题对排名有影响吗

如何正确看待SEO与SEM之间的关系

网站百度快照被劫持如何快速恢复

seo优化建站及内容维护应该注意哪些细节

内容采集对于网站优化有什么影响

如何判断seo外包是否靠谱

现在发布外链还有用吗

百度天网算法，用户隐私保护

答应我以后别这么设计网址路径，迟早会后悔！

seo图片优化技巧