搜索引擎(搜狗为例)可以通过站点地图发现通过其他传统抓取方式无法在贵网站发现的网页,一般的sitemap形式是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新时间、更新频率、权重等)。即使您的网站已经被收录,也可以通过站点地图让搜索引擎(搜狗为例)更有效率地抓取,达到最优的收录效果。
以下情况站点地图将特别有用:
网站含动态内容:
您的网站中包含在搜索引擎(搜狗为例)spider抓取过程中不易发现的网页,例如含有富AJAX或图片内容的网页。
网站为新网站且指向该网站的链接不多。(搜索引擎(搜狗为例)spider会跟随链接从一个网页到另一个网页抓取网页,因此,如果您的网站没有很好的链接,我们可能很难发现它。)
网站有大量内容页存档,这些内容页彼此之间没有很好地链接,或根本就没有链接。
搜索引擎(搜狗为例)不保证一定会抓取所有列入sitemap的网址并建立索引。但是,我们会使用站点地图中的数据了解网站的结构,这样可以让我们改进抓取工具,并在之后能更好地对网站进行抓取收录。采用sitemap协议,网民将在更大范围内访问到您网站中的内容,进而为您的网站带来潜在的流量。
搜索引擎(搜狗为例)sitemap协议:
搜索引擎(搜狗为例)sitemap协议是搜索引擎(搜狗为例)支持的网页收录标准,站长可以将网站中的网页url制作成标准的sitemap文件,用于指引搜索引擎(搜狗为例)搜索引擎快速、全面的抓取或更新网站上内容及处理错误信息。
搜索引擎(搜狗为例)遵守sitemaps.org所定义的站点地图协议0.9。因此,使用站点地图协议0.9为搜索引擎(搜狗为例)创建的站点地图和采用sitemaps.org标准为其他搜索引擎创建的站点地图兼容。
标准sitemap协议说明:
1.Sitemap采用.xml格式
2.Sitemap可以使用utf-8编码和GBK编码
3.为节省带宽可以采用gzip格式压缩Sitemap文件
4.一个Sitemap文件中最多可包含50000个url,并且应小于10MB。
XML标签说明:
<url>
<loc>http://www.link356.com/</loc>
<priority>1.00</priority>
<lastmod>2019-03-19</lastmod>
<changefreq>Always</changefreq>
</url>
文本格式sitemap说明:
您可以提供纯文本文件,其中每行包含一个网址。
文本文件格式举例:http://upwqy.com/sitemap.xml
此文本文件需要遵循以下:
文本文件每行都必须有一个网址。网址中不能有换行。
您必须指定完整的网址,包括http。
每个文本文件最多可包含50,000个网址,并且不大于10MB(10,485,760字节)。如果网站所包含的网址超过50,000个,则可将列表分割成多个文本文件,然后分别添加每个文件。
文本文件需使用UTF-8编码或GBK编码。
文本文件不应包含网址列表以外的任何信息。
sitemap索引文件说明:
对于有多个Sitemap的站点,可以以一个名为sitemap_index.xml的索引文件来指定Sitemap的位置。
您必须:
以<sitemapindex>作为开始标记,以</sitemapindex>作为结束标记。
每个sitemap包含一个条目作为XML父标记。
每个父标记包含一个子标记条目。
Sitemap Index文件可以使用utf-8编码和GBK编码。
Sitemap Index中包含的Sitemap数不能大于50000个。
sitemap协议类型:
搜索引擎(搜狗为例)sitemap协议支持提交收录网页列表以及死链列表。
收录网页列表用于指引搜索引擎(搜狗为例)搜索引擎快速、全面的抓取网站上内容。您可以使用XML格式、文本格式以及sitemap索引文件提交。
死链列表用于提交您网站上被删除或者权限发生变动以及可能为隐私相关的网页列表,指引搜索引擎(搜狗为例)搜索引擎快速屏蔽这些网页。
死链列表目前只能使用文本格式在搜索引擎(搜狗为例)站长平台提交。
转载:http://www.link356.com/seojishu/378.html
发布时间 : 2023-03-01,阅读量:1272