sitemap是大家提交url的主要途径之一,但是sitemap最大的一个问题就是抓取速度比较慢,对于新提交的sitemap文件,根据百度搜索资源平台的文档描述是,会在1个小时内处理。但是我们很多时候sitemap希望实现的功能是让搜索引擎去定期抓取各个sitemap文件,实现定期更细sitemap中的链接,无须重新提交链接,实现对全站内容的定期抓取。
但是sitemap的问题是只有把提交过链接删除重新提交,抓取速度会快一点;如果等待搜索引擎的定期抓取,这个时间就比较漫长,快则几天,慢则几个星期,显然这不是我们期待的效果,那么有什么方法让搜索引擎加快对sitemap的定期抓取。
sitemap抓取频次因素
对于搜索引擎每天面对的是海量的网站抓取任务,算法上优先是抓取网站的新内容,对于网站的更新抓取,会根据网站的质量评级,以及网站的内容属性等因素决定。
网站评级越高,网站的价值高,那么在各方面都有搜索引擎的优待,这个很好理解;但是不同内容属性的站点,决定了网站内容更新的几率,比如新闻资讯类的站点,只要是新内容的增加速度快,但是已经收录过的内容发生修改的几率是很低的,因此搜索引擎对于已经收录过的内容抓取频次就比较低,也意味着提交过的sitemap的更新抓取周期比较长。
ETag简介
ETag(EntityTags)是URL的tag,实现对url是否发生过更新进行一个标注。简单的讲就是比如你打开了一个页面,同时浏览器开启了缓存,这个时候我们刷新这个页面;服务器首先会将页面的ETag传回网站服务器,验证浏览器客户端的缓存,如果页面没有发生过修改,此时直接返回状态码304,而不是重新对页面数据加载而是直接使用浏览器的缓存,可以有效的降低服务器的负载。
站点启用ETag的好处
对于网站sitemap开启了ETag后,如果sitemap文件没有更新的时候,搜索引擎来抓取的时候服务器只会返回304状态码,一方面可以有效的降低带宽的消耗,可以有效提升sitemap文件抓取的稳定性。另一面,对于搜索引擎通过ETag可以识别出站点sitemap文件是否发生更新,提升了抓取效率,对于这类站点会提升对于sitemap的抓取频次,对于搜索引擎只要检查ETag决定是否抓取并不会有很大的资源消耗,但是可以更加及时的抓取有价值的内容。