Web 安全实战：Robots.txt 协议原理与利用 | 极客日志

编程语言

Web 安全实战：Robots.txt 协议原理与利用

Robots.txt 协议用于告知搜索引擎爬虫可抓取范围，配置不当易泄露敏感路径。通过 CTF 案例演示如何利用 robots.txt 发现隐藏目录，解析其语法原理与安全风险。强调敏感路径不应写入该文件，防御应依赖权限控制而非路径隐匿。

人间失格发布于 2026/4/8更新于 2026/5/2516 浏览

实战演练：Training-WWW-Robots

题目描述

在这个训练挑战中，你将了解 Robots Exclusion Protocol。robots.txt 文件被网络爬虫用于检查它们是否被允许爬取和索引你的网站，或者只是网站的部分内容。有时这些文件会暴露目录结构，而不是保护内容不被爬取。

练习目标： 访问根目录下隐藏的文件获取 Flag。

解题步骤

打开题目场景 访问练习网站（攻防世界）：https://adworld.xctf.org.cn/
利用 Robots 协议 发现根目录下有一个 f10g.php 的文件，访问这个文件内容。
获取结果 访问网站根目录的 f10g.php 文件，得到正确答案。

原理详解：Web 安全信息收集 - robots.txt

一、概念纠正

在安全圈交流时，常听到「Repbots 漏洞」的说法，其实这是一个口误，正确的术语是 Robots 协议，具体体现在网站根目录下的 robots.txt 文件。

虽然它不是传统意义上的「漏洞」，但在信息收集阶段，robots.txt 往往是攻击者眼中的「藏宝图」。

案例： 渗透测试同事只花了一分钟，访问了 目标网站/robots.txt，发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径，下载到了包含数据库账号密码的备份文件。

全程未利用任何技术漏洞，仅靠一个配置文件。 这就是 robots.txt 的安全价值。

二、robots.txt 原理详解

1. 什么是 Robots 协议？

Robots Exclusion Protocol（机器人排除协议）是网站告诉搜索引擎爬虫（如 Google、百度）哪些页面可以抓取，哪些不可以的国际标准。

本质： 它是一个君子协议，没有强制约束力。

2. 文件位置

固定位于网站根目录下：

http://example.com/robots.txt

3. 基本语法

字段	说明	示例
User-agent	指定爬虫名称	`User-agent: *` (所有爬虫)
Disallow	禁止抓取的路径	`Disallow: /admin/`
Allow	允许抓取的路径	`Allow: /admin/login.php`
Sitemap	网站地图位置

相关免费在线工具

Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online
JSON美化和格式化
将JSON字符串修饰为友好的可读格式。在线工具，JSON美化和格式化在线工具，online

User-agent: *
Disallow: /admin/
Disallow: /backup/
Allow: /public/
Sitemap: http://example.com/sitemap.xml

curl http://target.com/robots.txt

关键词	潜在风险	验证方法
`/admin/`	后台管理入口	直接访问，尝试弱口令
`/backup/`	备份文件	尝试下载 .zip/.sql/.bak 文件
`/config/`	配置文件	尝试读取数据库密码
`/api/`	接口文档	测试未授权访问
`/test/`	测试页面	可能存在调试漏洞
`/old/`	旧版本系统	可能存在已知漏洞

# 将 robots.txt 中的路径提取出来，作为字典
dirsearch -u http://target.com -w robots_paths.txt

# 本地靶站扫描
dirsearch -u http://192.168.6.100:8080

做法	说明	推荐度
公开路径可写入	正常页面路径可写入 robots.txt	✅ 推荐
敏感路径不写入	后台、备份、配置路径不要写进 robots.txt	✅ 必须
使用权限控制	敏感路径通过登录/鉴权保护	✅ 必须
移除备份文件	生产环境不要留存 .sql/.zip 备份	✅ 必须
返回 403/404	敏感路径直接禁止访问，而不是 Disallow	✅ 推荐

User-agent: *
Disallow: /admin/
Disallow: /config/database.yml
Disallow: /backup/full.zip

User-agent: *
Allow: / # 敏感路径根本不提，直接在服务器层禁止访问

location /admin/ { deny all; return 403; }

1. 信息收集 (Whois, DNS, robots.txt, 端口扫描)
↓
2. 漏洞扫描 (SQL 注入，XSS, 命令注入)
↓
3. 漏洞利用 (获取权限，数据提取)
↓
4. 后渗透 (维持权限，横向移动)
↓
5. 报告与修复

Web 安全实战：Robots.txt 协议原理与利用

实战演练：Training-WWW-Robots

题目描述

解题步骤

原理详解：Web 安全信息收集 - robots.txt

一、概念纠正

二、robots.txt 原理详解

1. 什么是 Robots 协议？

2. 文件位置

3. 基本语法

更多推荐文章

相关免费在线工具

4. 常见误区

三、安全视角：如何利用 robots.txt

1. 直接访问查看

2. 敏感路径识别

3. 结合目录扫描工具

四、实战案例：三个真实场景

1. 案例一：后台路径泄露

2. 案例二：数据库备份文件下载

3. 案例三：API 接口未授权访问

五、防御方案：如何正确配置

1. 核心原则：安全不靠隐匿

2. 正确配置建议

3. 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

更多推荐文章

相关免费在线工具

Web 安全实战：Robots.txt 协议原理与利用

实战演练：Training-WWW-Robots

题目描述

解题步骤

原理详解：Web 安全信息收集 - robots.txt

一、概念纠正

二、robots.txt 原理详解

1. 什么是 Robots 协议？

2. 文件位置

3. 基本语法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 常见误区

三、安全视角：如何利用 robots.txt

1. 直接访问查看

2. 敏感路径识别

3. 结合目录扫描工具

四、实战案例：三个真实场景

1. 案例一：后台路径泄露

2. 案例二：数据库备份文件下载

3. 案例三：API 接口未授权访问

五、防御方案：如何正确配置

1. 核心原则：安全不靠隐匿

2. 正确配置建议

3. 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具