学习如何设置robots.txt和 robots元标记对于成功实现技术SEO至关重要。
本简短指南将帮助您正确使用它们。(“meta robots tags (Robots元标记)” 和 “robots.txt”听起来像是施瓦辛格在《终结者2》中的台词)
SEO是指向未来的,更是技术性的,希望本文能在Robots元标记和Robots.txt的设置上对您有所帮助。让我们开始吧。
1. Robots元标记VS Robots.txt
在了解什么是Robots元标记和Robots.txt之前,先看看哪一方在SEO中表现最佳。
☆ Robots.txt文件可指引抓取工具了解整个网站。
☆ Robots元标记进入了特定页面内部。
我更喜欢将Robots元标记用于SEO人员可能只是使用robots.txt文件的地方。
没有正确或错误的答案。一切都根据您的经验和喜好。
2.什么是Robots.txt
robots.txt文件会告诉抓取工具应抓取的内容。在这个文件中声明该网站中不想被爬虫访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。谷歌Google部署Googlebot(爬虫)来抓取网站并在该网站上记录信息,然后在谷歌Google的搜索结果中对网站进行排名。
您可以通过在网址后添加/robots.txt来找到任何网站的robots.txt文件。
以下是一个基本的robots.txt文件:
*星号告诉抓取工具,robots.txt文件适用于所有访问该网站的爬虫。
“Disallow”(禁止)后的斜线“/”指示搜索引擎不要抓取网站下所有的目录。
这是Moz的robots.txt文件的示例:
3.为什么Robots.txt很重要
有些人说,为什么新网站成立/网站迁移几个月后我的网站没有排名?60%的原因是robots.txt文件未正确更新。意思是,您的robots.txt文件仍然如下所示:
这将阻止所有网络爬虫访问您网站下的目录。
robots.txt很重要的另一个原因是谷歌Google的抓取配额。
谷歌Google声明:
“Googlebot(谷歌爬虫)旨在成为网络的良好公民。抓取是它的主要优先事项,同时要确保它正确评估网站的用户体验。我们将此称为“抓取速度限制”,它限制了给定站点的最大抓取速度。简而言之,这表示Googlebot(谷歌爬虫)可以用来抓取该网站的并行连接数,以及下一次抓取之前的等待时间。”
因此,如果您有一个大型网站,但您不希望Google抓取低质量的网页,则可以在robots.txt文件中“禁止”它们。这样可以节省您的抓取配额,仅抓取您希望谷歌Google为其排名的高质量页面。
robots.txt文件没有严格的规则……但是,谷歌Google 于2019年7月宣布了一项提案,开始实施某些标准。
4. Robots.txt基础知识
如何使用Robots.txt?
使用robots.txt对于SEO成功至关重要。但是,如果不了解它的工作原理,可能会导致您无法知道为什么自己的网站不参与排名。搜索引擎将根据您在robots.txt文件中告诉他们的内容,对您的网站进行爬网和编制索引。
您应该了解以下常见的robots.txt指令:
User-agent:* ——这是robots.txt文件中的第一行,用于向抓取工具说明您希望他们在您的网站上遵循的抓取规则。星号* 表示所有的搜索引擎种类。
User-agent: Googlebot——您要谷歌Google的蜘蛛爬行的内容。
Disallow: / ——所有搜寻器都不要搜寻站点下的目录。
Disallow: /staging/ ——这告诉所有搜寻器忽略您的测试站点。
Disallow: /ebooks/* .pdf——告诉抓取工具忽略所有可能导致重复内容问题的PDF格式。
User-agent: Googlebot
Disallow: /images/ ——仅告诉Googlebot(谷歌爬虫)忽略您网站上的所有图像。
* —使用 * 号匹配字符序列。
$ —用于匹配URL的末尾。
要创建robots.txt文件,可以使用Yoast。但是,在开始创建robots.txt文件之前,请记住以下一些基本知识:
▶ 正确设置robots.txt的格式。下图说明了如何正确设置robots.txt的格式。您会看到以下结构:User-agent → Disallow → Allow → Host → Sitemap。这使搜索引擎蜘蛛能够以正确的顺序访问类别和网页。
▶ 确保您要“Allow:” or “Disallow:” 的每个地址都单独一行。请勿以空格分隔。
▶ 始终使用小写字母
▶ 除*和$之外,请勿使用任何特殊字符。其他字符都无法识别。
▶ 为不同的子域创建单独的robots.txt文件。例如,“hubspot.com”和“blog.hubspot.com”都应该具有不同的robots.txt文件。
▶ 使用“#”将注释保留在robots.txt文件中。但抓取工具不会特别留意
▶ 如果robots.txt文件中不允许爬取页面,则不会传递权重。
▶ 请勿使用robots.txt保护或限制敏感数据。
5. 应该用Robots.txt隐藏些什么?
Robots.txt文件通常用于从SERP(搜索引擎结果页面)中排除特定的目录,类别或页面。您可以使用 “disallow” 指令排除。
以下是用robots.txt文件隐藏的一些常见页面:
(1)具有重复内容的页面(通常是易于打印的内容)
(2)分页页面
(3)动态产品和服务页面
(4)帐户页面
(5)管理员页面
(6)购物车
(7)聊天室
(8)谢谢页面
这对于电子商务网站非常有用。 以下是禁止感谢页面 要知道,并非所有的搜寻器都会遵循您的robots.txt文件。有些爬虫可以完全忽略您的robots.txt文件,因此请确保您没有将敏感数据保留在被阻止的页面上。
6. 常见的Robots.txt错误 以下是一些常见错误: 错误1:文件名包含大写字母 robots.txt,Robots.txt或ROBOTS.TXT。 坚持小写,特别是涉及到SEO的时候。
错误2:未在主目录中放置Robots.Txt文件 如果您想找到robots.txt文件,则必须将其放置在网站的主目录中。 错误 .....com/tshirts/robots.txt 正确 .....com/robots.txt
错误3:“User-Agent” 格式不正确 错误 Disallow: Googlebot 正确 User-agent: Googlebot Disallow: /
错误4:在一行 “Disallow” 中放置多个目录 错误 Disallow: /css/ /cgi-bin/ /images/ 正确 Disallow: /css/ Disallow: /cgi-bin/ Disallow: /images/
错误5:“User-Agent” 空白 错误 User-agent: Disallow: 正确 User-agent: * Disallow:
错误6:列出目录中的所有文件 错误 User-agent: * Disallow: /pajamas/flannel.html Disallow: /pajamas/corduroy.html Disallow: /pajamas/cashmere.html 正确 User-agent: * Disallow: /pajamas/ Disallow: /shirts/
错误7:没有“Disallow”指令 必须提供禁止说明,以便搜索引擎机器人了解您的意图。 错误 User-agent: Googlebot Host: ....com 正确 User-agent: Googlebot Disallow: Host: ....com
错误8:阻止访问您整个网站 错误 User-agent: Googlebot Disallow: / 正确 User-agent: Googlebot Disallow:
错误9:错误的HTTP标头 错误 Content-Type: text/html 正确 Content-Type: text/plain
错误10:没有站点地图 始终将站点地图放在robots.txt文件的底部。 错误
正确
错误11:使用“noindex”
谷歌Google在2019年宣布它将不再承认robots.txt文件中使用的noindex指令。因此,请改用我下面讨论的 robots元标签。
错误
正确
错误12:在Robots.Txt文件中禁止了某页面,但仍有链接到该页面 如果您在robots.txt文件中禁止了某页面,但仍有指向该页面的内部链接,那么谷歌Google仍会对其进行爬网。您需要删除那些链接才能完全停止对该页面的爬网。 如果您不确定,可以在谷歌搜索控制台Google Search Console的覆盖率报告中查看哪些页面已被索引。 您应该会看到以下内容: 并且,您可以使用谷歌Google的robots.txt测试工具。但是,如果您使用的是谷歌Google对移动设备网页的测试工具,那么它将不会遵循robots.txt文件中的规则。 7. 什么是Robots元标记? Robots元标记(也称为Robots指令)是HTML代码段,用于告诉搜索引擎抓取工具如何抓取和索引您网站上的页面。 Robots元标记需添加到网页的<head>部分。 这是一个例子:
<meta name=“robots” content=“noindex”/>
Robots元标记由两部分组成。 标签的第一部分是 name=“”。您可以在此处识别 user-agent。例如,“Googlebot”。 标签的第二部分是content =“”。在这里告诉机器人您想要他们做什么。
8. Robots元标记的类型 Robots元标记具有两种类型的标签:
◇ Robots元标记 ◇ X-robots标记
类型1:Robots元标记 SEO营销人员通常使用Robots元标记。它使user-agents (例如Googlebot)抓取特定区域。 这是一个例子:
<meta name =“googlebot” content =“noindex,nofollow”>
这个Robots元标记告诉谷歌Google的搜寻器Googlebot不要在搜索引擎中为该页面编制索引,也不要遵循任何反向链接。因此,此页面不会成为搜索引擎结果页面(SERP)的一部分。 我将在感谢页面中使用此标记。这是下载电子书后的感谢页面示例。
现在,如果您查看后端代码,您会看到noindex和nofollow。如果您对不同的搜索引擎使用不同的robots元标签,则需要为每个机器人使用单独的标签。 至关重要的是,不要将robots元标签放置在<head>部分之外。
类型2:X-robots标记 X-robots标记可以让你做同样的事情,但在HTTP响应标头内。实际上,它比robots元标签记提供了更多功能。例如,如果要阻止访问图像或视频,而不是整个页面,则应使用x-robot标记。 Robots元标记参数 在代码中有多种使用Robots元标记的方法。但是,首先,您需要了解这些指令是什么以及它们的作用。 这是Robots元标记指令的细分:
all –索引和内容没有限制。默认情况下使用此指令。它对搜索引擎的工作没有影响。 index –允许搜索引擎在其搜索结果中将该页面编入索引。这是默认值。您无需将此添加到页面。 noindex –从搜索引擎索引和搜索结果中删除页面。这意味着搜索者将找不到您的站点或单击。 follow –允许搜索引擎关注该页面上的内链和外链。 nofollow –不允许抓取内链和外链。这意味着这些链接不会传递权重。 none –与noindex和nofollow元标记相同。 noarchive –不要在搜索引擎结果页面(SERP)中显示“保存的副本”链接。 nosnippet –不要在搜索引擎结果页面(SERP)中显示此页面的扩展描述版本。 notranslate –不要在搜索引擎结果页面(SERP)中提供此页面的翻译。 noimageindex –不索引页面上的图像。 unavailable_after:[RFC-850日期/时间] –指定的日期/时间之后,请勿在搜索引擎结果页面(SERP)中显示此页面。使用RFC 850格式。 max-snippet –为描述标签中的字符数确定一个最大限额。 max-video-preview-确定视频预览的秒数。 max-image-preview –确定图像预览的最大尺寸。
不同的搜索引擎会接受不同的元标记参数。
9. 如何使用 Robots元标签 如果您使用的是WordPress,则可以使用许多插件来定制Robots元标签。以及Yoast——这是适用于WordPress的多合一SEO插件,具有许多功能。 无论您的网站是如何构建的,以下是使用Robots元标签的三个技巧: ◇ 大小写:搜索引擎可以识别属性,值和参数的大小写。我建议您坚持使用小写字母以提高代码的可读性。 ◇ 避免使用多个<meta>标签:使用多个元标记将导致代码冲突。可以在您的<meta>标记中使用多个值,例如:<meta name =“robots” content =“noindex,nofollow”>。 ◇ 不要使用有冲突的元标记,以避免索引错误:例如,如果您有多个带有meta标签的代码行,例如<meta name =“robots” content =“follow”>和<meta name =“robots” content =“nofollow”>,则爬虫仅采用“nofollow”。这是因为爬虫将限制值放在首位。
10.Robots.txt和robots元标记一起运作 需要避免robots.txt文件与robots元标记的内容不匹配。例如,robots.txt文件将页面隐藏,但是robots元标记却相反。 根据经验,谷歌Google优先考虑robots.txt文件禁止的内容。但是,您可以通过清楚地告诉搜索引擎哪些页面应该被索引,哪些不应该被索引,来消除Robots.txt和robots元标记的不符之处。
希望本指南能使您对robots.txt和meta标签的基础知识有更深入的了解。
|