Web 安全实战:Robots.txt 协议原理与利用防御指南
练习题目:Training-WWW-Robots
在攻防世界的 Training-WWW-Robots 挑战中,你需要了解 Robots Exclusion Standard。robots.txt 文件通常被网络爬虫用于检查是否允许爬取网站内容,但有时它反而会暴露目录结构。
解题思路
首先,进入题目场景。这是一个关于信息收集的训练挑战,核心在于理解 robots.txt 的作用。

接着,利用 Robots 协议进行探测。访问根目录下的 robots.txt 文件,通常会发现一些被禁止抓取的路径。

最后,尝试访问这些敏感路径。在这个案例中,我们发现了一个 f10g.php 的文件,直接访问即可得到正确答案。


知识点讲解:Web 安全信息收集
注意: 本文仅用于授权测试和安全学习,未经授权扫描目标属于违法行为。
一、关于「Robots」协议的纠正
在安全圈交流时,常听到新手说「Repbots 漏洞」。其实这是口误,正确术语是 Robots 协议,体现在网站根目录下的 robots.txt 文件。
虽然它不是传统意义上的漏洞,但在信息收集阶段,robots.txt 往往是攻击者眼中的「藏宝图」。
几年前负责某系统安全评估时,渗透同事只花了一分钟访问了 目标网站/robots.txt,发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径,下载到了包含数据库账号密码的备份文件。
全程未利用任何技术漏洞,仅靠一个配置文件。 这就是 robots.txt 的安全价值。
二、robots.txt 原理详解
2.1 什么是 Robots 协议?
Robots Exclusion Protocol(机器人排除协议)是网站告诉搜索引擎爬虫(如 Google、百度)哪些页面可以抓取,哪些不可以的国际标准。
它是一个君子协议,。





