Sitemap(即站点地图),常见的是以XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),可以帮助搜索引擎更加全面高效的抓取网站内容,是SEO优化中保证内容收录的重要的手段之一。
Sitemap的配置是非常简单的,但是如果想要获得最大SEO效果,那么Sitemap的制作还是存在很多技巧的,今天为大家总结一份全面详细的sitemap网站地图的保姆级教程,内容又长又实用记得先搜藏。
sitemap的重要性
sitemap对于收录是有着非常重要并且不可替代的作用,比如百度搜索引擎目前的提交方式有:手动提交、API提交、sitemap提交。手动提交和API提交是共用额度的,一般是每日10万条提交额度,但是这两者是不被允许提交相同的链接。
很多站点对于不收录的内容会进行反复提交,有这种行为的要尽快避免,如果站点长期这么操作会降低站点的提交额度,甚至会影响正常的抓取。很多时候提交之后,搜索引擎已经抓取了,但是只是没有建立索引而已。
对于链接的二次抓取应该通过sitemap提交实现,如内容的更新链接的抓取;同时对于一些站点每日内容生成量巨大无法及时手动提交、或者超出额度的时候,那么sitemap提交是最有效的解决途径。
Sitemap支持的格式
Sitemap支持txt和xml文件两种格式,txt格式最为简单,但是无法带任何参数,功能性较差;推荐大家使用xml文件格式sitemap,今天的重点也放在xml格式的网站地图。
- txt文件格式
https://www.chateach.com
https://www.chateach.com/seo
https://www.chateach.com/it
https://www.chateach.com/news
2
3
4
txt文件格式sitemap网站地图的例子就非常简单,如上述所示,将需要被搜索引擎抓取的url(不能出现网址之外的任何信息),每行一个网址保存在txt文件即可,文本文件必需使用 UTF-8 编码或GBK编码。每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节),因为转码问题建议url最好不要包含中文。
- xml文件格式
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8编码-->
<urlset>
<!--必填标签-->
<url>
<loc>https://www.chateach.com</loc>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
xml文件格式的sitemap如上所示,将需要的被搜索引擎抓取的链接以<url></url>标签遍历到<urlset></urlset>之间即可。下面对立面的标签进行下解释说明:
- <loc></loc>标签:必填标签,这是具体某一个链接的定义入口,需要抓取的url链接,带上请求头http、https,URL链接地址,长度不得超过256字节。
- <lastmod></lastmod>标签:可以略的标签,用来指定该链接的最后更新时间,此日期应采用 W3C Datetime 格式,使用 YYYY-MM-DD,例子:“2023-1-1”,如果该链接发布之后基本不更新的可以直接省略这个标签。
- <changefreq></changefreq>标签:可以略的标签,用于指定页面可能发生更改的频率,允许的值有always、hourly、daily、weekly、monthly、yearly、never,值“always”应当用于描述每次访问时都会改变的文档,而“never”是永远不发生改变,如果网站内容存在时效性会定期更新的建议加上这个标签,并且按照更新频次填写对应值。但搜索引擎不一定会按照定义的更新时间来抓取,但可以为搜索引擎提供一定参考。
- <priority></priority>标签:可以略的标签,用于指定网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0,一个网页的默认优先级为 0.5。此处的权值不影响排名,仅对搜索引擎提供当前链接在站点中的重要度。
<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<loc>https://www.chateach.com</loc>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.chateach.com/seo</loc>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.chateach.com/it</loc>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>0.9</priority>
</url>
<url>
<loc>https://www.chateach.com/news</loc>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
以上是xml格式sitemap的例子,url排序可以更新内容更新时间倒序排列,对于搜索引擎更加友好,可以更高效地抓取最新的内容。
与txt格式同样xml格式每个文本文件最多可包含 50,000 个网址,且文件大小不得超过 10 MB,因为转码问题建议url最好不要包含中文。如果超出这个数量就需要进行分割成多个文件。并且可以尽量数量少一点,避免对服务器造成压力,同时可以增加搜索引擎抓取sitemap文件时解析的成功率。
Sitemap 进阶版
上述sitemap文件格式可以通用常见的搜索引擎的sitemap,如百度、360、搜狗、谷歌、必应等。但是对于百度搜索引擎的sitemap还有更加高级玩法。根据站点的适配方式不同sitemap的格式也有不同,更加精细的配置sitemap,可以帮助百度搜索引擎更好的抓取各端的内容。
上述sitemap文件格式可以通用常见的搜索引擎的sitemap,如百度、360、搜狗、谷歌、必应等。但是对于百度搜索引擎的sitemap还有更加高级玩法。根据站点的适配方式不同sitemap的格式也有不同,更加精细的配置sitemap,可以帮助百度搜索引擎更好的抓取各端的内容。
适配类型
百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了标签,它有四种取值:
- 上述sitemap通用型,也即为PC页
- <mobile:mobile/ > :移动网页
- <mobile:mobile type=“pc,mobile”/>:自适应网页
- <mobile:mobile type=“htmladapt”/>:代码适配
<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>https://www.chateach.com</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.chateach.com/seo</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.chateach.com/it</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>0.9</priority>
</url>
<url>
<loc>https://www.chateach.com/news</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2023-1-1</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
存在移动适配的站点,百度的sitemap可以参照上述例子,与通用网站地图的区别在于<urlset >不同以及每条链接多了<mobile:mobile type=“”>标签,根据站点的适配方式来选择对应的mobile标签。百度搜索引擎的几个适配方式的具体解析可以参照《百度搜索移动适配》。
sitemap文件访问
首先必须确保sitemap文件可以通过url直接访问,不能有任何的跳转或者权限上的限制, 否则会导致搜索引擎无法成功抓取。并且sitemap文件的访问必须保证加载速度及稳定性。
所以如果站点的sitemap数据量比较庞大,建议把sitemap文件给静态化,提升速度同时降低对数据库造成压力,但是当有新内容生成的时候就需要及时的更新;但是如果数量级不大可以通过动态的方式实现。
sitemap的访问地址必须复杂,层级可以适当的复杂先,并且地址命名不能有规律,同时sitemap访问地址对外必须严格保密,除了提交的时候用到,任何地方不得出现。目的是为了防止sitemap地址被他人发现之后对站点的内容进行采集,站点列表页面无序化之后,sitemap的就成了最有效抓取全站内容的途径。
sitemap的提交
登录百度搜索资源平台,并且是已经完成当前站点域名的绑定的账号,按上图操作,将sitemap文件地址在此处提交,对于大多数账号每天限制提交10条,累计不超过200条,这个额度会根据站点质量动态调整。
需要注意的是若链接存在跳转关系,请直接提交跳转后链接。如网站换域名,需提交新域名资源;进行HTTPS改造页面,请提交HTTPS资源。
sitemap提交之后,一般在1小时内会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。快的话当日就会进行抓取,最慢的情况在1周左右,并且sitemap抓取之后,搜索引擎会定期进行重新抓取来实现对sitemap网站地图的新内容进行抓取,频次一般是周级,因此站点有新内容生成的时候一定要及时更新sitemap文件。
并且新提交的sitemap文件比定期抓取的时间会更快,也可以把新内容放在一个全新的sitemap文件进行提交。抓取之后删除,把新增的内容归档到对应的sitemap文件中。以上是百度搜索引擎sitemap的提交方式,其余的搜索引擎也是同样的提交方法,但是其他搜索引擎使用通用型的sitemap文件即可。