使用XML Sitemap工具、建议和技巧

网站XML Sitemap (站点地图)可以帮助谷歌爬虫顺利抓取网站,促进收录。如果有开发人员的支持,创建XML Sitemap地图是一件很容易的事情。但是如果没有,对于不是特别擅长代码技术的SEO人员而言,一个自动生成xml sitemap 的工具可以帮你解决这个难题。

 

Screaming Frog就有一个XML Sitemap的制作功能,你可以用它抓取网站内容,并制作站点地图上传到网站根目录。接下来几天里,你可以跟踪网站地图给网站流量带来的显著影响。站点地图其实很重要,但它有时会被低估。

 

什么是XML Sitemap以及为什么需要Sitemap

 

 

XML Sitemap是网站的数字地图,可以帮助谷歌发现您网站上的重要页面,了解页面更新频率。

 

谷歌在其帮助中心页面上进行了声明:

站点地图能够向爬虫提供您觉得重要的文件位置,提供有关这些文件的重要信息:例如,网站页面的最后更新时间、更新频率以及页面的多语言版本。

根据Gary Illyes的说方法,站点地图是继超链接和此前索引的URL后,谷歌爬虫第二重要的索引来源。这个文件非常重要,不应被低估。

站点地图是与谷歌爬虫最为相关的第二个发现@methode #SOB2019

— Enrique Hidalgo (@EnriqueStinson) 2019年6月15日

每个网站都应该有一个站点地图。站点地图对以下类型网站最为重要:

  • 大型网站

  • 新网站

  • 包含大量孤立页面的网站

  • 大量使用图片和视频的网站

 

robots.txt文件能够帮助您去除部分已经在搜索引擎中获得排名的页面,XML Sitemap则与robots.txt文件恰巧相反。XML Sitemap帮助搜索引擎找到新页面——即使主站点没有链接能够进入这些页面。

 

谷歌在2005年开始使用XML Sitemap,不久后MSN和雅虎等搜索引擎也加入使用。如今,XML Sitemap文件的作用对于搜索引擎来说已经不止发现新URL这一项。

 

请不要将HTML Sitemap与我们本文中提到的XML Sitemap混淆,XML Sitemap对于用户来说是不可见的,只面向谷歌和希望查看竞争对手重点页面的SEO营销人员(笑)。

 

本文中的Sitemap文件使用XML格式,谷歌可以快速解析,找到新的URL。XML(eXtensible Markup Language,可拓展标记语言)是一种轻量级、可在多设备间传输,用于储存数据的格式。

 

一个最简单的检查网站是否有站点地图的方法是查看Google或Bing站长管理工具后台的“Sitemaps”版块。大多数的搜索引擎,例如Google和Bing,会在网站的robots.txt文件中查找XML Sitemap文件“Sitemap: <sitemap_location>”入口。或者您也可以在Google、Baidu、Bing和Yandex直接ping出站点地图的位置。

Bing站长管理工具中的XML Sitemap。1:Sitemaps报告;2:添加新的sitemap文件路径;3:Bing发现的现有站点地图。

Google站长管理工具中的XML Sitemap。1:Sitemaps报告;2:添加新的sitemap文件路径;3:谷歌发现的现有站点地图。

 

 XML Sitemap文件最低要求 

 

为了让您的XML Sitemap文件能够有效运行,XML Sitemap文件应该满足以下标准:

  • 仅包含返回200状态码的首选规范URL

  • 每个Sitemap文件中的URL数量不超过5万个

  • 需要在robots.txt文件中引用Sitemap文件地址

  • 编码格式BUTF-8

  • 压缩为. gz格式

  • 大小不超过50mb,包含URL数量不超过5万个

 

要充分利用XML Sitemap文件的作用,您可以只在XML Sitemap文件中添加重要页面,并经常更新,给谷歌发送信号,告诉谷歌这些页面是重要页面。

 

大多数CMS系统都有自动更新Sitemap文件的功能,每当有新增页面或页面内容修改时,都会更新文件。对谷歌来说,Sitemap文件的更新频率和文件中的lastmod标记都能够作为网站新鲜度的信号。但这对网站排名是否有影响还要取决于页面类型和文字内容。

 

我们可以把XML Sitemap文件当作是一份给游客看的城市地图,网站就是城市,谷歌就是这座城市的游客——需要保证地图中只包含最重要的建筑物,不需要涵盖所有的地址。这就是为什么Sitemap文件中不需要包含不重要的页面;例如网站的隐私政策或关于我们页面。虽然这些页面需要被索引,他们并不需要被经常抓取,对于SEO来说也不重要。

 

 大型站点的XML Sitemap文件建议 

 

除了满足基本要求外,您还可以采取更多的措施来提升网站站点地图的表现。

 

举例来说,像新闻发布网站这种大型站点,应该使用Sitemap索引文件,可以包含(最多5万个)普通的Sitemap文件,并且文件大小不超过50mb。Sitemap索引文件是XML Sitemap文件的母文件,包括许多小的Sitemap文件。由于大型站点页面数量多,无法在单独一个XML Sitemap文件中涵盖所有重要页面,所以需要分开成多个XML Sitemap文件,并使用Sitemap索引文件来聚合这些小的Sitemap文件。

 

您可以按照页面类型或主题对网站页面进行分类;实际上,您可以为每个网站子目录页面或按照页面类型来创建独立的XML Sitemap文件,以了解网站的技术与索引问题。

 

针对具体需求可以使用对应的XML Sitemap文件。包含大量媒体文件的网站(例如Pinterest或YouTube)可以创建图片Sitemap或视频Sitemap。新闻媒体网站应该添加新闻站点地图文件

 

图片Sitemap可以增加您的网站在Google图片搜索中的可见度。不需要特别创建图片Sitemap文件,可以直接在网站常规的Sitemap文件中添加图片地址。

 

以下是在普通Sitemap文件中添加图片位置的方式(XML规范):

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">

<url>

<loc>http://example.com/sample.html</loc>

<image:image>

<image:loc>http://example.com/image.jpg</image:loc>

</image:image>

<image:image>

<image:loc>http://example.com/photo.jpg</image:loc>

</image:image>

</url>

</urlset>

视频Sitemap遵循相同的原则,您可以创建专用的Sitemap文件,也可以直接在常规的Sitemap文件中添加:

<url>

<loc>https://example.com/mypage</loc>

<video> ... information about video 1 ... </video>

</url>

但在制作Sitemap文件时需要注意添加的元数据(例如视频描述)

 

谷歌表示,“如果页面的文本被认为比Sitemap文件中的信息更有用,谷歌可能会使用视频页面上的文本信息而不是您在Sitemap中提供的文字。”这里说的是Sitemap中的视频描述文本。除描述外,您还可以向谷歌提供视频缩略图、视频时长、评分、适合家庭观看的程度等(视频XML Sitemap文件元数据列表)。对于包含大量视频资源的网站来说,建议添加这些元数据。但对于其他网站来说,可以选择性添加。

 

新闻Sitemap与上述提到的站点地图不同之处在于,新闻XML Sitemap需要独立制作,谷歌不建议,也没有提供将新闻页面直接添加至常规Sitemap当中的方法。新闻Sitemap有助于谷歌发现新的文章并对其进行排名,这在新闻行业尤其具有挑战性,因为每天产生大量的内容。尽管谷歌声明网站中添加新闻Sitemap并不会使该网站受到特别的优待,但它确实有利于网站更快地在谷歌新闻版块中获得热门新闻的排名。

 

创建新闻Sitemap需要遵循以下特殊规则:

  • 每个新闻页面发布时间不得超过2天。

  • 每次不要添加超过1000条新页面信息。

  • 每次内容更新都建议更新现有的Sitemap文件。

 

您也可以在Sitemap中添加元标记,例如hreflang标签(完整指引);

<url>

<loc>http://www.example.com/english/page.html</loc>

<xhtml:link

 rel="alternate"

 hreflang="de"

 href="http://www.example.com/deutsch/page.html"/>

<xhtml:link

 rel="alternate"

 hreflang="de-ch"

 href="http://www.example.com/schweiz-deutsch/page.html"/>

<xhtml:link

 rel="alternate"

 hreflang="en"

 href="http://www.example.com/english/page.html"/>

</url>

根据John Mueller的说法,谷歌会忽略XML Sitemap中的priority属性,但确实会特别关注lastmod标记。谷歌可能会根据页面的热度和权重来确定这些页面的优先级。Lastmod标记说明页面最近一次的更新时间,是让谷歌特别感兴趣的内容。

URL+最近修改日期是我们在页面搜索中会特别关注的信息。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.198ai.cn/gongju/89.html