Robots.txt完全配置指南：网站管理员必读

作为网站管理员，正确设置 robots.txt 是网站上线后的关键步骤之一。但如果你对设置规则不太熟悉，那么 “不设置” 或者使用Robots文件生成工具反而是更稳妥的选择。本文将带你深入理解 robots.txt 的作用，并手把手教你如何为网站进行正确配置。

什么是 Robots.txt？

Robots.txt 是位于网站根目录下的一个文本文件（如：www.example.com/robots.txt），它作为网站与搜索引擎爬虫沟通的 “第一座桥梁”，其核心作用在于为爬虫提供抓取指南，明确指示哪些内容可以访问，哪些区域应当避开，多久访问一次。

你可以将其想象成一位商场的总保安。这位保安严格按照管理员制定的规则行事：他告知顾客哪些区域可以进入，同时会拦住后厨等关键重地，避免闲人闯入。更重要的是，他能够疏导巨大的人流，防止人群在某一时刻持续涌入，从而保障整个商场的秩序与承压能力。

温馨提示

Robots.txt只是一个"建议"文件，大部分正规搜索引擎爬虫会遵守，但恶意爬虫可能会无视这些规则。对于真正敏感的内容，应该使用更安全的保护措施，如密码保护或服务器端限制。

Robots.txt 基础语法

下面介绍最常用的几个指令及其语法结构，您可以根据实际需求组合使用，实现对特定爬虫的精准控制。

text 复制下载

User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Crawl-delay: [爬取延迟时间]
Sitemap: [网站地图位置]

常用指令详解

1. User-agent：指定规则适用的爬虫

序号	规则	规则解释
1	User-agent: *	规则目标：所有搜索引擎爬虫。这是通配符，表示其下方列出的规则适用于所有遵守协议的爬虫。
2	User-agent: Googlebot	规则目标：谷歌爬虫。其下方规则仅对Google的爬虫生效，可为其设置特定指令。
3	User-agent: Baiduspider	规则目标：百度爬虫。其下方规则仅对百度的爬虫生效，可为其设置特定指令。
4	User-agent: Bingbot	规则目标：必应爬虫。其下方规则仅对微软必应的爬虫生效，可为其设置特定指令。
5	User-agent: Yahoo Slurp	规则目标：雅虎爬虫。其下方规则仅对雅虎的爬虫生效，可为其设置特定指令。
6	User-agent: YandexBot	规则目标：Yandex爬虫。其下方规则仅对俄罗斯Yandex搜索引擎的爬虫生效。
7	User-agent: DuckDuckBot	规则目标：DuckDuckGo爬虫。其下方规则仅对DuckDuckGo搜索引擎的爬虫生效。
8	User-agent: Sogou web spider	规则目标：搜狗爬虫。其下方规则仅对搜狗搜索引擎的爬虫生效。
9	User-agent: 360Spider	规则目标：360爬虫。其下方规则仅对360搜索引擎的爬虫生效。
10	User-agent: Bytespider	规则目标：字节跳动爬虫。其下方规则仅对字节跳动搜索引擎的爬虫生效。

2. Disallow：禁止爬虫访问的路径

序号	规则	规则解释
1	Disallow: /admin/	禁止抓取网站后台管理目录及其所有子目录和文件
2	Disallow: /private.html	禁止抓取指定的私有文件，适用于保护敏感信息页面
3	Disallow: /*.php$	禁止抓取所有以.php结尾的URL，但允许抓取包含.php的其他路径如/path.php.html
4	Disallow: /?	禁止抓取所有包含问号的URL，主要用于阻止抓取带参数的动态页面
5	Disallow: / /*.pdf	禁止抓取全站所有的PDF文档文件
6	Disallow: /search/	禁止抓取站内搜索结果页面，避免重复内容
7	Disallow: /	完全禁止抓取整个网站，仅用于测试环境或未公开网站
8	Disallow:	空值表示允许抓取整个网站，与Allow: /效果相同

3. Allow：允许爬虫访问的路径（通常与Disallow配合使用）

序号	规则	规则解释
1	Allow: /public/	允许抓取public目录，即使在父目录被禁止的情况下也允许访问
2	Allow: /*.html$	允许抓取所有HTML文件，用于在禁止某些目录时保持内容页可访问
3	Allow: /news/	允许抓取新闻目录，确保最新的新闻内容能够被搜索引擎收录
4	Allow: /*.css$	允许抓取CSS样式文件，确保网站样式能够被正确加载和识别
5	Allow: /*.js$	允许抓取JavaScript文件，确保网站功能脚本能够正常执行
6	Allow: /	允许抓取整个网站的所有内容，与空的Disallow指令效果相同
7	Allow: /category/*.html$	允许抓取分类目录下的HTML页面，但阻止其他格式文件
8	Allow: /user/*/profile	允许抓取用户个人资料页面，保护其他用户相关路径不被抓取

4. Crawl-delay：请求间隔时间（单位：秒）

Crawl-delay: 5：每5秒请求一次，旨在限制爬虫的抓取频率，防止其高频请求对服务器造成瞬时压力，从而有效提升网站在流量高峰期的稳定性。

5. Sitemap：声明网站地图位置

Sitemap: https://example.com/sitemap.xml

常见设置方案

1. 标准全站开放设置（推荐大多数网站）

text 复制下载

User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

# 也可是使用下面的指令，意思相同
User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml

2. 禁止敏感区域访问

text 复制下载

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

3. 针对不同搜索引擎的设置

text 复制下载

# 对所有爬虫通用规则
User-agent: *
Disallow: /admin/
Allow: /public/

# 专门针对谷歌的规则
User-agent: Googlebot
Allow: /images/
Crawl-delay: 2

# 专门针对百度的规则
User-agent: Baiduspider
Allow: /news/
Crawl-delay: 3

Sitemap: https://www.example.com/sitemap.xml

总结

正确设置 robots.txt 文件是网站 SEO 优化的基础环节，也是保护网站敏感资源、控制搜索引擎抓取范围的关键手段。作为新站长，花时间深入理解并正确配置 robots.txt，不仅有助于搜索引擎的高效收录，更能为网站的长期健康发展打下坚实基础。

记住，良好的开始是成功的一半——在正式启用前，建议务必使用专业的 Robots 检测工具进行验证，及时发现并修正潜在问题，从而避免因配置错误导致的收录异常或资源泄露，让网站的起步更加稳健、顺畅。