返回上一页 跳到搜索页

Robots.txt完全配置指南:网站管理员必读

作为网站管理员,正确设置 robots.txt 是网站上线后的关键步骤之一。但如果你对设置规则不太熟悉,那么 “不设置” 或者使用Robots文件生成工具反而是更稳妥的选择。本文将带你深入理解 robots.txt 的作用,并手把手教你如何为网站进行正确配置。

什么是 Robots.txt?

Robots.txt 是位于网站根目录下的一个文本文件(如:www.example.com/robots.txt),它作为网站与搜索引擎爬虫沟通的 “第一座桥梁”,其核心作用在于为爬虫提供抓取指南,明确指示哪些内容可以访问,哪些区域应当避开,多久访问一次。

你可以将其想象成一位商场的总保安。这位保安严格按照管理员制定的规则行事:他告知顾客哪些区域可以进入,同时会拦住后厨等关键重地,避免闲人闯入。更重要的是,他能够疏导巨大的人流,防止人群在某一时刻持续涌入,从而保障整个商场的秩序与承压能力。

温馨提示

Robots.txt只是一个"建议"文件,大部分正规搜索引擎爬虫会遵守,但恶意爬虫可能会无视这些规则。对于真正敏感的内容,应该使用更安全的保护措施,如密码保护或服务器端限制。

Robots.txt 基础语法

下面介绍最常用的几个指令及其语法结构,您可以根据实际需求组合使用,实现对特定爬虫的精准控制。

text 复制 下载
User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Crawl-delay: [爬取延迟时间]
Sitemap: [网站地图位置]

常用指令详解

1. User-agent:指定规则适用的爬虫

序号 规则 规则解释
1 User-agent: * 规则目标:所有搜索引擎爬虫。这是通配符,表示其下方列出的规则适用于所有遵守协议的爬虫。
2 User-agent: Googlebot 规则目标:谷歌爬虫。其下方规则仅对Google的爬虫生效,可为其设置特定指令。
3 User-agent: Baiduspider 规则目标:百度爬虫。其下方规则仅对百度的爬虫生效,可为其设置特定指令。
4 User-agent: Bingbot 规则目标:必应爬虫。其下方规则仅对微软必应的爬虫生效,可为其设置特定指令。
5 User-agent: Yahoo Slurp 规则目标:雅虎爬虫。其下方规则仅对雅虎的爬虫生效,可为其设置特定指令。
6 User-agent: YandexBot 规则目标:Yandex爬虫。其下方规则仅对俄罗斯Yandex搜索引擎的爬虫生效。
7 User-agent: DuckDuckBot 规则目标:DuckDuckGo爬虫。其下方规则仅对DuckDuckGo搜索引擎的爬虫生效。
8 User-agent: Sogou web spider 规则目标:搜狗爬虫。其下方规则仅对搜狗搜索引擎的爬虫生效。
9 User-agent: 360Spider 规则目标:360爬虫。其下方规则仅对360搜索引擎的爬虫生效。
10 User-agent: Bytespider 规则目标:字节跳动爬虫。其下方规则仅对字节跳动搜索引擎的爬虫生效。

2. Disallow:禁止爬虫访问的路径

序号 规则 规则解释
1 Disallow: /admin/ 禁止抓取网站后台管理目录及其所有子目录和文件
2 Disallow: /private.html 禁止抓取指定的私有文件,适用于保护敏感信息页面
3 Disallow: /*.php$ 禁止抓取所有以.php结尾的URL,但允许抓取包含.php的其他路径如/path.php.html
4 Disallow: /*?* 禁止抓取所有包含问号的URL,主要用于阻止抓取带参数的动态页面
5 Disallow: / /*.pdf 禁止抓取全站所有的PDF文档文件
6 Disallow: /search/ 禁止抓取站内搜索结果页面,避免重复内容
7 Disallow: / 完全禁止抓取整个网站,仅用于测试环境或未公开网站
8 Disallow: 空值表示允许抓取整个网站,与Allow: /效果相同

3. Allow:允许爬虫访问的路径(通常与Disallow配合使用)

序号 规则 规则解释
1 Allow: /public/ 允许抓取public目录,即使在父目录被禁止的情况下也允许访问
2 Allow: /*.html$ 允许抓取所有HTML文件,用于在禁止某些目录时保持内容页可访问
3 Allow: /news/ 允许抓取新闻目录,确保最新的新闻内容能够被搜索引擎收录
4 Allow: /*.css$ 允许抓取CSS样式文件,确保网站样式能够被正确加载和识别
5 Allow: /*.js$ 允许抓取JavaScript文件,确保网站功能脚本能够正常执行
6 Allow: / 允许抓取整个网站的所有内容,与空的Disallow指令效果相同
7 Allow: /category/*.html$ 允许抓取分类目录下的HTML页面,但阻止其他格式文件
8 Allow: /user/*/profile 允许抓取用户个人资料页面,保护其他用户相关路径不被抓取

4. Crawl-delay:请求间隔时间(单位:秒)

  • Crawl-delay: 5:每5秒请求一次,旨在限制爬虫的抓取频率,防止其高频请求对服务器造成瞬时压力,从而有效提升网站在流量高峰期的稳定性。

5. Sitemap:声明网站地图位置

  • Sitemap: https://example.com/sitemap.xml

常见设置方案

1. 标准全站开放设置(推荐大多数网站)

text 复制 下载
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml

# 也可是使用下面的指令,意思相同
User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap.xml 

2. 禁止敏感区域访问

text 复制 下载
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

3. 针对不同搜索引擎的设置

text 复制 下载
# 对所有爬虫通用规则
User-agent: *
Disallow: /admin/
Allow: /public/

# 专门针对谷歌的规则
User-agent: Googlebot
Allow: /images/
Crawl-delay: 2

# 专门针对百度的规则
User-agent: Baiduspider
Allow: /news/
Crawl-delay: 3

Sitemap: https://www.example.com/sitemap.xml

总结

正确设置 robots.txt 文件是网站 SEO 优化的基础环节,也是保护网站敏感资源、控制搜索引擎抓取范围的关键手段。作为新站长,花时间深入理解并正确配置 robots.txt,不仅有助于搜索引擎的高效收录,更能为网站的长期健康发展打下坚实基础。

记住,良好的开始是成功的一半——在正式启用前,建议务必使用专业的 Robots 检测工具进行验证,及时发现并修正潜在问题,从而避免因配置错误导致的收录异常或资源泄露,让网站的起步更加稳健、顺畅。