从 CTF 挑战看 robots.txt 的实战价值
在 Web 安全攻防演练中,robots.txt 往往是最容易被忽视却最具信息泄露风险的入口。我们来看一个典型的训练场景:
访问题目环境后,直接查看根目录下的 robots.txt 文件。你会发现里面可能隐藏着一些看似无害实则关键的指引。

在这个案例中,通过协议分析发现根目录下存在 f10g.php 文件。直接访问该路径,即可获取目标 flag。



这个简单的过程揭示了一个核心问题:配置文件本身可能成为攻击者的藏宝图。
深入理解 Robots 协议
什么是 Robots 协议?
Robots Exclusion Protocol(机器人排除协议)是网站告诉搜索引擎爬虫哪些页面可以抓取、哪些不可以的国际标准。它本质是一个君子协议,没有强制约束力。
文件固定位于网站根目录下:
http://example.com/robots.txt
基本语法结构
| 字段 | 说明 | 示例 |
| User-agent | 指定爬虫名称 | User-agent: * (所有爬虫) |
| Disallow | 禁止抓取的路径 | Disallow: /admin/ |
| Allow | 允许抓取的路径 | Allow: /admin/login.php |
| Sitemap | 网站地图位置 | Sitemap: http://example.com/sitemap.xml |
一个典型的配置示例如下:





