Sitemap(即站点地图)就是您网站上各网页的列表,就如地图一般可以找到所有的页面,功能就如地图一般。搜索引擎蜘蛛可以通过网站地图Sitemap发现并抓取网站上的所有网页。搜索引擎蜘蛛会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好地对网站进行抓取。
Sitemap支持哪些格式
大多数搜索引擎都支持文本格式和xml格式的形式的地图,站点可以根据站点的需求随便选择一种。但是不推荐大家使用文本格式的sitemap方式提交,而是推荐使用xml格式的网站地图。
xml网站地图可以实现更强大的功能,可以标记页面的性质、抓取频次、在站点的权重以及页面的更新频率,可以帮助搜索引擎蜘蛛更好抓取站点内容。
txt文本格式
需要将需要的提交的网址链接保存在一个txt文档,然后可以在更个搜索引擎站长后台提交可以访问到这个文件的网址就可以了。相对于xml来说难度要低很多,没有复杂处理过程就是一个网站的罗列,文本文件需要遵循以下规则:
- 文本文件每行都必须有一个网址。网址中不能有换行。
- 不应包含网址列表以外的任何信息。
- 您必须书写完整的网址,包括 http。
- 每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
- 文本文件需使用 UTF-8 编码或GBK编码。
xml格式
如果你深入了解xml格式网站地图,那么还是稍微一点点复杂,比如百度搜索引擎会有多少适配方式的支持,此时提交sitemap的格式,由于网站的适配方式不同也需要采用不同的方案。
比如最直接的问题就是,移动端和pc端是否需要都提交sitemap还是提交一次就可以了呢?那么仔细看完这篇文章,你将不再有这个疑虑。
1.通用sitemap格式
第一种xml sitemap格式是大家常用的一种写法,也是一种标准的写法,只要是支持sitemap提交的搜索引擎上都可以通用。可以用于移动端或者pc端页面的提交,基本上没有限制。
<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<!--必填标签,这是具体某一个链接的定义入口,每一条数据都要用<url>和</url>包含在里面,这是必须的 -->
<loc>https://www.chateach.com</loc>
<!--loc必填,URL链接地址,长度不得超过256字节-->
<lastmod>2022-06-19</lastmod>
<!--lastmod可以不提交该标签,用来指定该链接的最后更新时间-->
<changefreq>daily</changefreq>
<!--changefreq可以不提交该标签,用这个标签告诉此链接可能会出现的更新频率 -->
<priority>0.8</priority>
<!--priority可以不提交该标签,用来指定此链接相对于其他链接的优先权比值,此值定于0.0-1.0之间-->
</url>
<url>
<loc>https://www.chateach.com</loc>
<lastmod>2022-06-22/lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
changefreq:代表文件的更新频率,是可选标签。可以有以下值:
- always:表示一直变动,指每次访问页面内容都不同
- hourly:每小时
- daily:每天
- weekly:每周
- monthly:每月
- yearly:每年
- never:从不改变
重复<url></url>此部分结构,将需要提交的链接全部整合到此文档即可,提交方式也是相同的,在各个搜索引擎站长后台提交这个xml文档地址即可。但是需要注意的是上面这些非必填的标签可以省列,但是写上是更好的,可以给搜索引擎站点的抓取意见,搜索引擎会作为参考因素而不是作为命令执行。
创建Sitemap时有哪些注意事项? - 一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
- 一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。
- 站长后台只能提交认证的域名的链接,也就是xml文档中不能包含其他域名的链接。
2.移动端sitemap提交
移动端是否需要单独提交sitemap取决于站点移动端的适配方式,独立移动站的站点,单独提交移动端端的sitemap可以使用上述的通用型的xml格式sitemap文档,也可以使用下面介绍的方法;假如站点移动适配是通过响应式或者是代码适配实现的,由于此类适配方式移动和pc站点的网址是相同的,所以移动和pc可以合并提交一次就可以,但是只能使用以下的特殊格式才可以,并且以下格式只适用于百度搜索引擎。
第一种:独立移动站
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>https://m.chateach.com</loc>
<mobile:mobile type="mobile"/>
<lastmod>2022-6-22</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
第二种:响应式,自适应网页
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>https://www.chateach.com</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2022-6-22</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
第三种:代码适配
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>https://www.chateach.com</loc>
<mobile:mobile type="htmladapt"/>
<lastmod>2022-6-22</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
2
3
4
5
6
7
8
9
10
11
sitemap注意事项
首先需要注意的是sitemap文档应该放在网站更目录下,并且不能有访问权限限制,同时值得注意的一点,sitemap的路径需要复杂点,目的就是保护sitemap文档被他人访问或恶意爬虫的抓取。
因此sitemap访问路径是需要保密的不建议在网页任何位置出现,只用于在搜索引擎站点平台工具进行提交。