什么是robots.txt？如何配置robots.txt 及其SEO用法 | 详细指南

2024-8-25

在进行搜索引擎优化（SEO）时，robots.txt配置是每位站长都无法忽略的环节。位于网站根目录的robots.txt是搜索引擎爬虫最先访问的文件，它用来告诉爬虫能够访问哪些页面，主要目的是管理流向你网站的爬虫数量，避免过多的抓取请求让你的服务器过载。

大橘以谷歌官方的robots指南作为参考对象，并根据SEO实操经验加工写下这篇robots.txt笔记。所以不用担心真实性和实用性的问题，这篇笔记将会手把手教你配置robots文件，没时间研究原文档的伙伴可以放心食用！

笔记概览：

什么是robots.txt
robots.txt vs noindex
如何编写和提交 robots.txt 文件
SEO如何利用robots.txt

robots-txt-大橘seo

什么是robots.txt

robots.txt是一个放置于网站根目录下的文本文件，用于向搜索引擎爬虫提供指令，指示哪些页面可以被抓取，哪些页面应当被忽略。它是一个网站与搜索引擎爬虫沟通的基本文件，帮助网站站长控制其网站内容的索引方式。

注意：robots.txt只对承认这份协议的搜索引擎爬虫有效，例如谷歌，必应，百度，雅虎等，对于一些抓取工具的爬虫没用。

robots.txt对网站重要吗？

如果你的网站需要以下用途，那么robots文件的配置就十分必要，反之，如果你没有限制网站抓取的需要，那就可以不用配置robots文件。

1. 优先级设置

通过robots.txt，指示搜索引擎优先抓取网站中最重要的页面。

例如：

User-agent: * Disallow: /temp/ # 禁止抓取临时文件夹 Disallow: /test/ # 禁止抓取测试页面 Allow: /products/ # 允许抓取产品页面

这样配置后，搜索引擎爬虫将专注于抓取/products/下的重要产品页面。

2. 隐私保护

使用robots.txt来防止爬虫访问包含敏感信息的页面。

例如：

User-agent: * Disallow: /admin/ # 禁止抓取后台管理页面 Disallow: /user/ # 禁止抓取用户个人资料页面

这可以保护包含用户隐私信息的页面不被搜索引擎公开（注意：robots只能阻止遵守协议的搜索引擎，完全阻止抓取需要使用密码保护）。

3. 内容管理

阻止搜索引擎抓取未完成或未发布的页面。

例如：

User-agent: * Disallow: /upcoming-events/ # 禁止抓取即将举行的活动页面，直到它们准备好公开 Disallow: /drafts/ # 禁止抓取草稿文件夹

这可以确保只有完成和优化的页面才会被搜索引擎索引。

4. 避免重复内容

防止爬虫抓取多个相同或相似的页面。

例如：

User-agent: * Disallow: /node/*?view_mode=teaser # 禁止抓取内容预览页面，避免重复 Disallow: /print/ # 禁止抓取打印版页面

这有助于减少网站内部的重复内容，提高搜索引擎的索引效率。

5. 网站结构优化

指导爬虫按照网站结构和导航逻辑来抓取页面。

例如：

User-agent: * Disallow: /old-site/ # 禁止抓取旧版网站的页面 Allow: /new-site/ # 允许抓取新版网站的页面

这有助于搜索引擎更好地理解网站的新结构和导航逻辑。

6. 遵循网站政策

例如：

这有助于保护网站的法律文件不被搜索引擎索引，确保用户在访问这些页面时遵循网站的法律政策。

以上示例只作为格式参考，配置文件时需要根据你网站的实际情况去写！

robots.txt vs noindex

robots.txt 和 noindex 标签都是用于控制搜索引擎如何与网站互动的工具，但它们在目的、应用方式和效果上存在一些差异：

相同点：

目的：两者都旨在控制搜索引擎对网站内容的处理，帮助网站管理员管理其网站在搜索结果中的呈现（是否索引）。
限制：它们都是基于爬虫的自愿遵守，大多搜索引擎爬虫会执行这些指令，但不是绝对强制的。

不同点：

控制层面：
- robots.txt 位于网站级别，控制搜索引擎爬虫对整个网站或特定目录的访问权限。
- noindex 是页面级别的元标签，控制搜索引擎是否索引特定的单个页面。
应用方式：
- robots.txt 是一个存储在网站根目录的文本文件，通过设置不同的规则来限制爬虫。
- noindex 是一个HTML标签，需要直接添加到页面的 <head> 部分。
效果：
- robots.txt 阻止爬虫抓取页面，但如果页面已经被索引，它仍可能出现在搜索结果中（但不会显示元描述）。
- noindex 阻止搜索引擎索引页面，如果页面已经被索引，添加 noindex 标签后，搜索引擎通常会在下次抓取时从搜索结果中移除该页面。
使用场景：
- robots.txt 适用于需要阻止爬虫访问整个目录或大量页面的场景，如测试环境、私密数据等。
- noindex 适用于需要精细控制单个页面是否被索引的场景，如重复内容页、临时页面、或那些不符合网站质量标准的内容。
搜索引擎处理优先级：
- 搜索引擎在抓取网站时首先查看 robots.txt。
- 然后在处理单个页面时再检查 noindex 标签。

详细了解noindex 标签。

网站先被索引后让robots屏蔽谷歌展示效果

如何编写和提交 robots.txt 文件

如何编写`robots.txt`文件：

创建robots.txt文件：
- 使用文本编辑器（如记事本、Sublime等）创建一个新文本文件。
- 将文件命名为robots.txt（全小写）。
编写规则：
- User-agent：指定规则适用的爬虫，如Googlebot，“*”代表所有搜索引擎。
- Disallow：指定不允许爬虫访问的路径，以斜杠/开头。
- Allow：指定允许爬虫访问的路径，通常与Disallow结合使用。
- Sitemap：提供网站地图的URL，帮助搜索引擎发现网站内容。
保存文件：
- 使用UTF-8编码保存文件，避免使用富文本格式。
- 网站只能有 1 个 robots.txt 文件。

示例`robots.txt`文件：

User-agent: Googlebot #对谷歌爬虫的指令 Disallow: /nogooglebot/ #不允许索引/nogooglebot/目录下的内容

User-agent: * #对所有遵守协议的搜索引擎的指令
Allow: / #允许抓取索引所有网页
sitemap: https://www.example.com/sitemap.xml #站点地图地址

更多实用的 robots.txt 规则。

如何提交`robots.txt`到搜索引擎：

上传robots.txt文件：
- 将robots.txt文件上传到网站根目录。（根据建站方式不同文件上传方法也有多种，可以根据自身情况搜索攻略或提交给技术解决）
- 确保文件可通过https://www.example.com/robots.txt访问。
测试robots.txt文件：
- 在浏览器中访问https://www.example.com/robots.txt，检查文件内容是否正确显示。
- 谷歌站长工具GSC-设置—robots.txt—打开报告检查是否正确。
- 必应，百度的站长工具中也有类似测试的工具。
等待搜索引擎更新：
- 搜索引擎会自动检测robots.txt文件的更新，并按照新规则抓取网站。

谷歌站长工具测试robots.txt报告

SEO如何利用robots.txt：

建站期保护：建站时网站页面将会频繁改变，这个时期可以全面禁止搜索引擎抓取网站（Disallow: /），避免造成一些过时页面被谷歌索引。
控制索引：通过Disallow规则阻止搜索引擎索引特定页面，将一些不好删除的低质量页面阻止索引，不让它们影响网站整体质量。
提升网站表现：将搜索引擎抓取预算集中在网站的高质量内容，提高网站页面的收录比。
管理抓取频率：通过robots.txt中的Crawl-delay指令，控制爬虫访问频率，避免过多爬虫访问使服务器过载。
防止内容重复：如果网站上有多个URL指向相同或相似的内容，使用 robots.txt 可以阻止爬虫抓取非首选版本的URL。这有助于避免内容重复问题，确保所有SEO价值集中在首选URL上。

总结

robots.txt 是一个位于网站根目录的文本文件，它指导搜索引擎爬虫确定哪些页面可以抓取。通过设置 User-agent、Disallow、Allow 和 Sitemap 等指令，网站管理员能够控制爬虫的访问权限，优化网站的搜索引擎可见性，同时保护网站的隐私和安全。正确配置 robots.txt 对于提升SEO效果、管理网站资源和提高用户体验有重要作用。

大橘小贴士：

robots.txt文件应始终位于网站根目录。

规则区分大小写，且路径必须在网站根目录。

Disallow规则不阻止搜索引擎显示已索引的页面，但会阻止未来抓取。

作者：大橘子

链接：https://dajuseo.com/technology-seo/robots-txt/

文章版权归作者所有，未经允许请勿转载。

THE END

SEO必备HTTP状态码常识完整指南

HTTP 状态码是服务器根据客户端（浏览器或搜索引擎）的请求返回的三位数字响应，这是web之间的沟通语言。它们分为五类，有多种变体，可传达不同类型的信息。 ……

2024-09-05 大橘子

2.1K+ 0 2

什么是重定向 | 301重定向的SEO优化

在网站优化过程中，重定向是提升用户体验和搜索引擎排名的重要技术手段。理解并正确使用301和302重定向，对于SEOer来说至关重要。这篇笔记大橘将告诉大家： ……

2024-09-02 大橘子

3K+ 1 8

什么是robots.txt？如何配置robots.txt 及其SEO用法 | 详细指南

在进行搜索引擎优化（SEO）时，robots.txt配置是每位站长都无法忽略的环节。位于网站根目录的robots.txt是搜索引擎爬虫最先访问的文件，它用来告诉爬虫能够访……

2024-08-25 大橘子

3.1K+ 0 2

建站初期：如何建立一个SEO友好的网站架构

我是大橘，一个生物专业转行SEO的天选之子！提示大家：建站初期如有条件一定要做SEO，哪怕建站后不考虑投入SEO也要跟着教程操作一下，毕竟谁说得准以后会不会……

2024-07-22 大橘子

2K+ 0 1

什么是robots.txt？如何配置robots.txt 及其SEO用法 | 详细指南

什么是robots.txt

robots.txt对网站重要吗？

1. 优先级设置

2. 隐私保护

3. 内容管理

4. 避免重复内容

5. 网站结构优化

6. 遵循网站政策

robots.txt vs noindex

相同点：

不同点：

如何编写和提交 robots.txt 文件

如何编写robots.txt文件：

示例robots.txt文件：

如何提交robots.txt到搜索引擎：

SEO如何利用robots.txt：

总结

SEO必备HTTP状态码常识完整指南

什么是重定向 | 301重定向的SEO优化

什么是robots.txt？如何配置robots.txt 及其SEO用法 | 详细指南

建站初期：如何建立一个SEO友好的网站架构

最新文章

如何编写`robots.txt`文件：

示例`robots.txt`文件：

如何提交`robots.txt`到搜索引擎：