查看: 326|回复: 0

设置 Robots元标记和Robots.txt 的最佳做法

[复制链接]

166

主题

174

帖子

816

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
816
发表于 2020-6-23 17:10:00 | 显示全部楼层 |阅读模式
      学习如何设置robots.txt和 robots元标记对于成功实现技术SEO至关重要。
      本简短指南将帮助您正确使用它们。(“meta robots tags (Robots元标记)” 和 “robots.txt”听起来像是施瓦辛格在《终结者2》中的台词
      SEO是指向未来的,更是技术性的,希望本文能在Robots元标记和Robots.txt的设置上对您有所帮助。让我们开始吧。

      1. Robots元标记VS Robots.txt
       在了解什么是Robots元标记和Robots.txt之前,先看看哪一方在SEO中表现最佳。
       Robots.txt文件可指引抓取工具了解整个网站。
       Robots元标记进入了特定页面内部。
       我更喜欢将Robots元标记用于SEO人员可能只是使用robots.txt文件的地方。
       没有正确或错误的答案。一切都根据您的经验和喜好。

      2.什么是Robots.txt
      robots.txt文件会告诉抓取工具应抓取的内容。在这个文件中声明该网站中不想被爬虫访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。谷歌Google部署Googlebot(爬虫)来抓取网站并在该网站上记录信息,然后在谷歌Google的搜索结果中对网站进行排名。
      您可以通过在网址后添加/robots.txt来找到任何网站的robots.txt文件。
      以下是一个基本的robots.txt文件:
      
       *星号告诉抓取工具,robots.txt文件适用于所有访问该网站的爬虫。
       “Disallow”(禁止)后的斜线“/”指示搜索引擎不要抓取网站下所有的目录。
        这是Moz的robots.txt文件的示例:
        
       3.为什么Robots.txt很重要
       有些人说,为什么新网站成立/网站迁移几个月后我的网站没有排名?60%的原因是robots.txt文件未正确更新。意思是,您的robots.txt文件仍然如下所示:
        
       这将阻止所有网络爬虫访问您网站下的目录。
       robots.txt很重要的另一个原因是谷歌Google的抓取配额。
       谷歌Google声明:

       “Googlebot(谷歌爬虫)旨在成为网络的良好公民。抓取是它的主要优先事项,同时要确保它正确评估网站的用户体验。我们将此称为“抓取速度限制”,它限制了给定站点的最大抓取速度。简而言之,这表示Googlebot(谷歌爬虫)可以用来抓取该网站的并行连接数,以及下一次抓取之前的等待时间。”

       因此,如果您有一个大型网站,但您不希望Google抓取低质量的网页,则可以在robots.txt文件中“禁止”它们。这样可以节省您的抓取配额,仅抓取您希望谷歌Google为其排名的高质量页面。
       robots.txt文件没有严格的规则……但是,谷歌Google 于2019年7月宣布了一项提案,开始实施某些标准。

       4. Robots.txt基础知识
       如何使用Robots.txt?
       使用robots.txt对于SEO成功至关重要。但是,如果不了解它的工作原理,可能会导致您无法知道为什么自己的网站不参与排名。搜索引擎将根据您在robots.txt文件中告诉他们的内容,对您的网站进行爬网和编制索引。
       您应该了解以下常见的robots.txt指令:
       User-agent:* ——这是robots.txt文件中的第一行,用于向抓取工具说明您希望他们在您的网站上遵循的抓取规则。星号* 表示所有的搜索引擎种类。
       User-agent: Googlebot——您要谷歌Google的蜘蛛爬行的内容。
       Disallow: / ——所有搜寻器都不要搜寻站点下的目录。
       Disallow: /staging/ ——这告诉所有搜寻器忽略您的测试站点。
       Disallow: /ebooks/* .pdf——告诉抓取工具忽略所有可能导致重复内容问题的PDF格式。
       User-agent: Googlebot
       Disallow: /images/ ——仅告诉Googlebot(谷歌爬虫)忽略您网站上的所有图像。
       * —使用 * 号匹配字符序列。
       $ —用于匹配URL的末尾。
       要创建robots.txt文件,可以使用Yoast。但是,在开始创建robots.txt文件之前,请记住以下一些基本知识:
       正确设置robots.txt的格式。下图说明了如何正确设置robots.txt的格式。您会看到以下结构:User-agent → Disallow → Allow → Host → Sitemap。这使搜索引擎蜘蛛能够以正确的顺序访问类别和网页。
      
       确保您要“Allow:” or “Disallow:” 的每个地址都单独一行。请勿以空格分隔。
      
        ▶ 始终使用小写字母
       ▶ 除*和$之外,请勿使用任何特殊字符。其他字符都无法识别。
       ▶ 为不同的子域创建单独的robots.txt文件。例如,“hubspot.com”和“blog.hubspot.com”都应该具有不同的robots.txt文件。
       ▶ 使用“#”将注释保留在robots.txt文件中。但抓取工具不会特别留意
       ▶ 如果robots.txt文件中不允许爬取页面,则不会传递权重。
       ▶ 请勿使用robots.txt保护或限制敏感数据。


       5. 应该用Robots.txt隐藏些什么?
       Robots.txt文件通常用于从SERP(搜索引擎结果页面)中排除特定的目录,类别或页面。您可以使用 “disallow” 指令排除。
        以下是用robots.txt文件隐藏的一些常见页面:

        (1)具有重复内容的页面(通常是易于打印的内容)
        (2)分页页面
        (3)动态产品和服务页面
        (4)帐户页面
        (5)管理员页面
        (6)购物车
        (7)聊天室
        (8)谢谢页面


这对于电子商务网站非常有用。

以下是禁止感谢页面

要知道,并非所有的搜寻器都会遵循您的robots.txt文件。有些爬虫可以完全忽略您的robots.txt文件,因此请确保您没有将敏感数据保留在被阻止的页面上。


6. 常见的Robots.txt错误

以下是一些常见错误:

错误1:文件名包含大写字母

robots.txt,Robots.txt或ROBOTS.TXT。

坚持小写,特别是涉及到SEO的时候。


错误2:未在主目录中放置Robots.Txt文件

如果您想找到robots.txt文件,则必须将其放置在网站的主目录中。

错误

.....com/tshirts/robots.txt

正确

.....com/robots.txt


错误3:“User-Agent” 格式不正确

错误

Disallow: Googlebot

正确

User-agent: Googlebot

Disallow: /


错误4:在一行 “Disallow” 中放置多个目录

错误

Disallow: /css/ /cgi-bin/ /images/

正确

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/


错误5:“User-Agent” 空白

错误

User-agent:

Disallow:

正确

User-agent: *

Disallow:


错误6:列出目录中的所有文件

错误

User-agent: *

Disallow: /pajamas/flannel.html

Disallow: /pajamas/corduroy.html

Disallow: /pajamas/cashmere.html

正确

User-agent: *

Disallow: /pajamas/

Disallow: /shirts/


错误7:没有“Disallow”指令

必须提供禁止说明,以便搜索引擎机器人了解您的意图。

错误

User-agent: Googlebot

Host: ....com

正确

User-agent: Googlebot

Disallow:

Host: ....com


错误8:阻止访问您整个网站

错误

User-agent: Googlebot

Disallow: /

正确

User-agent: Googlebot

Disallow:


错误9:错误的HTTP标头

错误

Content-Type: text/html

正确

Content-Type: text/plain


错误10:没有站点地图

始终将站点地图放在robots.txt文件的底部。

      错误
      
      正确
      
       错误11:使用“noindex”
      谷歌Google在2019年宣布它将不再承认robots.txt文件中使用的noindex指令。因此,请改用我下面讨论的 robots元标签。
      错误
      
       正确

  错误12:在Robots.Txt文件中禁止了某页面,但仍有链接到该页面
      如果您在robots.txt文件中禁止了某页面,但仍有指向该页面的内部链接,那么谷歌Google仍会对其进行爬网。您需要删除那些链接才能完全停止对该页面的爬网。
      如果您不确定,可以在谷歌搜索控制台Google Search Console的覆盖率报告中查看哪些页面已被索引。
      您应该会看到以下内容:
      
        并且,您可以使用谷歌Google的robots.txt测试工具。但是,如果您使用的是谷歌Google对移动设备网页的测试工具,那么它将不会遵循robots.txt文件中的规则。
        
       7. 什么是Robots元标记?
       Robots元标记(也称为Robots指令)是HTML代码段,用于告诉搜索引擎抓取工具如何抓取和索引您网站上的页面。
       Robots元标记需添加到网页的<head>部分。
       这是一个例子:

       <meta name=“robots” content=“noindex”/>

       Robots元标记由两部分组成。
       标签的第一部分是 name=“”。您可以在此处识别 user-agent。例如,“Googlebot”。
       标签的第二部分是content =“”。在这里告诉机器人您想要他们做什么。

       8. Robots元标记的类型
       Robots元标记具有两种类型的标签:

       ◇ Robots元标记
       ◇ X-robots标记

       类型1:Robots元标记
       SEO营销人员通常使用Robots元标记。它使user-agents (例如Googlebot)抓取特定区域。
       这是一个例子:

       <meta name =“googlebot” content =“noindex,nofollow”>

      这个Robots元标记告诉谷歌Google的搜寻器Googlebot不要在搜索引擎中为该页面编制索引,也不要遵循任何反向链接。因此,此页面不会成为搜索引擎结果页面(SERP)的一部分。
       我将在感谢页面中使用此标记。这是下载电子书后的感谢页面示例。

现在,如果您查看后端代码,您会看到noindex和nofollow。如果您对不同的搜索引擎使用不同的robots元标签,则需要为每个机器人使用单独的标签。

至关重要的是,不要将robots元标签放置在<head>部分之外。


类型2:X-robots标记

X-robots标记可以让你做同样的事情,但在HTTP响应标头内。实际上,它比robots元标签记提供了更多功能。例如,如果要阻止访问图像或视频,而不是整个页面,则应使用x-robot标记。

Robots元标记参数

在代码中有多种使用Robots元标记的方法。但是,首先,您需要了解这些指令是什么以及它们的作用。

这是Robots元标记指令的细分:


all –索引和内容没有限制。默认情况下使用此指令。它对搜索引擎的工作没有影响。

index –允许搜索引擎在其搜索结果中将该页面编入索引。这是默认值。您无需将此添加到页面。

noindex –从搜索引擎索引和搜索结果中删除页面。这意味着搜索者将找不到您的站点或单击。

follow –允许搜索引擎关注该页面上的内链和外链。

nofollow –不允许抓取内链和外链。这意味着这些链接不会传递权重。

none –与noindex和nofollow元标记相同。

noarchive –不要在搜索引擎结果页面(SERP)中显示“保存的副本”链接。

nosnippet –不要在搜索引擎结果页面(SERP)中显示此页面的扩展描述版本。

notranslate –不要在搜索引擎结果页面(SERP)中提供此页面的翻译。

noimageindex –不索引页面上的图像。

unavailable_after:[RFC-850日期/时间] –指定的日期/时间之后,请勿在搜索引擎结果页面(SERP)中显示此页面。使用RFC 850格式。

max-snippet –为描述标签中的字符数确定一个最大限额。

max-video-preview-确定视频预览的秒数。

max-image-preview –确定图像预览的最大尺寸。


不同的搜索引擎会接受不同的元标记参数。


9. 如何使用 Robots元标签

如果您使用的是WordPress,则可以使用许多插件来定制Robots元标签。以及Yoast——这是适用于WordPress的多合一SEO插件,具有许多功能。

无论您的网站是如何构建的,以下是使用Robots元标签的三个技巧:

◇ 大小写:搜索引擎可以识别属性,值和参数的大小写。我建议您坚持使用小写字母以提高代码的可读性。

◇ 避免使用多个<meta>标签:使用多个元标记将导致代码冲突。可以在您的<meta>标记中使用多个值,例如:<meta name =“robots” content =“noindex,nofollow”>。

◇ 不要使用有冲突的元标记,以避免索引错误:例如,如果您有多个带有meta标签的代码行,例如<meta name =“robots” content =“follow”>和<meta name =“robots” content =“nofollow”>,则爬虫仅采用“nofollow”。这是因为爬虫将限制值放在首位。


10.Robots.txt和robots元标记一起运作

需要避免robots.txt文件与robots元标记的内容不匹配。例如,robots.txt文件将页面隐藏,但是robots元标记却相反。

根据经验,谷歌Google优先考虑robots.txt文件禁止的内容。但是,您可以通过清楚地告诉搜索引擎哪些页面应该被索引,哪些不应该被索引,来消除Robots.txt和robots元标记的不符之处。


希望本指南能使您对robots.txt和meta标签的基础知识有更深入的了解。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

为你推荐

如何使用SPY工具找到最佳的着陆页和广告页
2020-08-19 / jackhh
有很多SPY工具可供选择,例如Adbeat,Anstrex等。本帖着重介绍Ad ...<详情>
怎样在Shopify建站和代运营?
2020-11-19 / 小萝卜0415
我是网站技术小白,打算在shopify上面开店,但是建站代运营这些 ...<详情>
不懂怎么建站的小伙伴们看这里
2020-11-20 / orlandojin
我们公司有shopify的代运营和对应的seo以及谷歌广告、外链引流方 ...<详情>
lazada和shopee哪个更适合做批发生产型?
2021-01-10 / 小咪猪猪
这二个平台是否都是以零售为主的,有以批发/代加工/oem为主的比 ...<详情>
SEO写作:掌握组合艺术的47个技巧
2020-06-23 / wmj
SEO撰写要点: 1.首先考虑关键字 2.像艺术一样进行关键字研究 ...<详情>
微信公众号 ( 9:00—18:00 ) Huntusd

扫一扫关注我们,了解更多最新动态

快速回复 返回顶部 返回列表