Web 安全实战：Robots.txt 协议原理与利用防御指南

练习题目：Training-WWW-Robots

在攻防世界的 Training-WWW-Robots 挑战中，你需要了解 Robots Exclusion Standard。robots.txt 文件通常被网络爬虫用于检查是否允许爬取网站内容，但有时它反而会暴露目录结构。

解题思路

首先，进入题目场景。这是一个关于信息收集的训练挑战，核心在于理解 robots.txt 的作用。

文章配图

接着，利用 Robots 协议进行探测。访问根目录下的 robots.txt 文件，通常会发现一些被禁止抓取的路径。

文章配图

最后，尝试访问这些敏感路径。在这个案例中，我们发现了一个 f10g.php 的文件，直接访问即可得到正确答案。

文章配图

知识点讲解：Web 安全信息收集

注意： 本文仅用于授权测试和安全学习，未经授权扫描目标属于违法行为。

一、关于「Robots」协议的纠正

在安全圈交流时，常听到新手说「Repbots 漏洞」。其实这是口误，正确术语是 Robots 协议，体现在网站根目录下的 robots.txt 文件。

虽然它不是传统意义上的漏洞，但在信息收集阶段，robots.txt 往往是攻击者眼中的「藏宝图」。

几年前负责某系统安全评估时，渗透同事只花了一分钟访问了 目标网站/robots.txt，发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径，下载到了包含数据库账号密码的备份文件。

全程未利用任何技术漏洞，仅靠一个配置文件。 这就是 robots.txt 的安全价值。

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

Robots Exclusion Protocol（机器人排除协议）是网站告诉搜索引擎爬虫（如 Google、百度）哪些页面可以抓取，哪些不可以的国际标准。

它是一个君子协议，。

字段	说明	示例
User-agent	指定爬虫名称	`User-agent: *` (所有爬虫)
Disallow	禁止抓取的路径	`Disallow: /admin/`
Allow	允许抓取的路径	`Allow: /admin/login.php`
Sitemap	网站地图位置	`Sitemap: http://example.com/sitemap.xml`

关键词	潜在风险	验证方法
`/admin/`	后台管理入口	直接访问，尝试弱口令
`/backup/`	备份文件	尝试下载 .zip/.sql/.bak 文件
`/config/`	配置文件	尝试读取数据库密码
`/api/`	接口文档	测试未授权访问
`/test/`	测试页面	可能存在调试漏洞
`/old/`	旧版本系统	可能存在已知漏洞

做法	说明	推荐度
公开路径可写入	正常页面路径可写入 robots.txt	✅ 推荐
敏感路径不写入	后台、备份、配置路径不要写进 robots.txt	✅ 必须
使用权限控制	敏感路径通过登录/鉴权保护	✅ 必须
移除备份文件	生产环境不要留存 .sql/.zip 备份	✅ 必须
返回 403/404	敏感路径直接禁止访问，而不是 Disallow	✅ 推荐

Web 安全实战：Robots.txt 协议原理与利用防御指南