突然间灵光乍现,有个有趣的问题就是我们该不该在网站robots.txt文件中加入网站地图的地址。有种说法就是搜索引擎抓取一个网站首先会抓取robots文件,这样把sitemap地址写在robots文件里,这样搜索引擎可以地址直接的对网站地图进行抓取,可以加快链接收录的速度,那么真相到底是有没有用呢?又要进行一次打击了,不仅没有用还会有弊端哦。
什么是robots
robots是一个名为robots.txt的文件位于网站的根目录。是一个与爬虫之间的协议,告知搜索引擎哪些页面目录是允许被抓取的,哪些目录是不被允许抓取的。对于SEO来说可以把有限抓取数量集中在重要的页面,同时保护隐私内容不被抓取。具体的robots文件怎么编写前面已经讲过了。
为什么不申明sitemap地图
为什么不在robots文件里申明网站地图的地址,因为没有任何作用。虽然说搜索引擎首先会抓取robots的内容,但是我们要知道robots文件只是告诉搜索引擎哪些目录可以抓取,可以抓取的内容页不代表搜索引擎会在第一时间去抓取的,更何况链接地址不是属于robots格式的标准允许的内容,很大的可能会被爬虫直接的抛弃,即使是会去抓取,那么也是只是给予蜘蛛一个可以抓取的权限,并不能决定取抓取。下面就拿出一些证据来证明。
大家可以从第一张图得出一个结论蜘蛛是每天都会来抓取,但是从图二看出来通过sitemap抓取的链接是有周期性,并且是选择的抓取一定数量。搜索从数据证明了在robots文件里写明网站地图地址是没有作用的,但是有的人会觉得即使没用放在里面也不碍事,也许会有点用。但是sitemap地址过于公开并不是什么好事情。
sitemap公开的危害
网站地址是一个网站所有资源的合集,通过sitemap我们可以快速知道网站的结构以及所有页面的网址。现在这个网络环境非常喜欢的抄袭,从服务器日志可以看到,每天会有很多恶意的爬虫来爬取内容。
当你在robots文件里申明网站地图的地址,或者在网站页面上留了网站地图的链接,这些行为正好是方面了别人来取出你整站的内容。如果你把sitemap隐藏好,那么想要把整个网站抓取完全还要保持高效率不重复,是很难做到的,即使是搜索引擎都没法这个完整和搞笑的抓取。
因此,建议大家把网站地图的目录放的复杂点,名字生僻点。我们也没有必要担心,搜索引擎抓取不到,像主流点搜索引擎的站长后台都是可以直接提交sitemap地址,这样一来对外可以有保密效果,同时不影响搜索引擎的抓取。