实战演练:Training-WWW-Robots
题目描述
在这个训练挑战中,你将了解 Robots Exclusion Protocol。robots.txt 文件被网络爬虫用于检查它们是否被允许爬取和索引你的网站,或者只是网站的部分内容。有时这些文件会暴露目录结构,而不是保护内容不被爬取。
练习目标: 访问根目录下隐藏的文件获取 Flag。
解题步骤
-
打开题目场景 访问练习网站(攻防世界):https://adworld.xctf.org.cn/
-
利用 Robots 协议 发现根目录下有一个
f10g.php的文件,访问这个文件内容。 -
获取结果 访问网站根目录的
f10g.php文件,得到正确答案。
原理详解:Web 安全信息收集 - robots.txt
一、概念纠正
在安全圈交流时,常听到「Repbots 漏洞」的说法,其实这是一个口误,正确的术语是 Robots 协议,具体体现在网站根目录下的 robots.txt 文件。
虽然它不是传统意义上的「漏洞」,但在信息收集阶段,robots.txt 往往是攻击者眼中的「藏宝图」。
案例: 渗透测试同事只花了一分钟,访问了 目标网站/robots.txt,发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径,下载到了包含数据库账号密码的备份文件。
全程未利用任何技术漏洞,仅靠一个配置文件。 这就是 robots.txt 的安全价值。
二、robots.txt 原理详解
1. 什么是 Robots 协议?
Robots Exclusion Protocol(机器人排除协议)是网站告诉搜索引擎爬虫(如 Google、百度)哪些页面可以抓取,哪些不可以的国际标准。
本质: 它是一个君子协议,没有强制约束力。
2. 文件位置
固定位于网站根目录下:
http://example.com/robots.txt
3. 基本语法
| 字段 | 说明 | 示例 |
|---|---|---|
| User-agent | 指定爬虫名称 | User-agent: * (所有爬虫) |
| Disallow | 禁止抓取的路径 | Disallow: /admin/ |
| Allow | 允许抓取的路径 | Allow: /admin/login.php |
| Sitemap | 网站地图位置 |


