Web 安全：robots.txt 协议原理、利用与防御实战 | 极客日志

HTML / CSS大前端

Web 安全：robots.txt 协议原理、利用与防御实战

练习题目：Training-WWW-Robots ![](https://qiniu.meowparty.cn/coder.2023/2026-04-06/b33ce0b06de8b85c4419a09a5dfbba22.png) 练习靶场：https://adworld.xctf.org.cn/ 解题步骤打开题目场景 ![](https://qiniu.meowparty.cn/coder.2…

追风少年发布于 2026/4/6更新于 2026/7/2243K 浏览

练习题目：Training-WWW-Robots

文章配图

练习靶场：https://adworld.xctf.org.cn/

解题步骤

打开题目场景

在这个小小的训练挑战中，你将了解 Robots Exclusion Protocol。robots.txt 文件被网络爬虫用于检查它们是否被允许爬取和索引你的网站，或者只是网站的部分内容。有时这些文件会暴露目录结构，而不是保护内容不被爬取。祝你玩得开心！

文章配图

利用 Robots 协议

发现根目录下有一个 f10g.php 的文件，访问这个文件内容

文章配图

得到正确答案

文章配图

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

⚠️ 警告： 本文仅用于授权测试和安全学习，未经授权扫描目标属于违法行为。

一、写在前面：关于「Robots」的纠正

在安全圈交流时，我听到过新手说「Robots 漏洞」。其实这是一个口误，正确的术语是 Robots 协议，具体体现在网站根目录下的 robots.txt 文件。

虽然它不是传统意义上的「漏洞」，但在信息收集阶段，robots.txt 往往是攻击者眼中的「藏宝图」。

几年前，我负责某系统的安全评估。渗透测试同事只花了一分钟，访问了 目标网站/robots.txt，发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径，下载到了包含数据库账号密码的备份文件。

全程未利用任何技术漏洞，仅靠一个配置文件。 这就是 robots.txt 的安全价值。

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

Robots Exclusion Protocol（机器人排除协议）是网站告诉搜索引擎爬虫（如 Google、百度）的国际标准。

相关免费在线工具

Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online
JSON美化和格式化
将JSON字符串修饰为友好的可读格式。在线工具，JSON美化和格式化在线工具，online

http://example.com/robots.txt
https://example.com/robots.txt

字段	说明	示例
User-agent	指定爬虫名称	`User-agent: *` (所有爬虫)
Disallow	禁止抓取的路径	`Disallow: /admin/`
Allow	允许抓取的路径	`Allow: /admin/login.php`
Sitemap	网站地图位置	`Sitemap: http://example.com/sitemap.xml`

User-agent: *
Disallow: /admin/
Disallow: /backup/
Allow: /public/
Sitemap: http://example.com/sitemap.xml

curl http://target.com/robots.txt

关键词	潜在风险	验证方法
`/admin/`	后台管理入口	直接访问，尝试弱口令
`/backup/`	备份文件	尝试下载 .zip/.sql/.bak 文件
`/config/`	配置文件	尝试读取数据库密码
`/api/`	接口文档	测试未授权访问
`/test/`	测试页面	可能存在调试漏洞
`/old/`	旧版本系统	可能存在已知漏洞

# 将 robots.txt 中的路径提取出来，作为字典
dirsearch -u http://target.com -w robots_paths.txt

# 由于本地的靶站的 robots.txt 没有路径，所以就不是用字典进行扫描
dirsearch -u http://192.168.6.100:8080

做法	说明	推荐度
公开路径可写入	正常页面路径可写入 robots.txt	✅ 推荐
敏感路径不写入	后台、备份、配置路径不要写进 robots.txt	✅ 必须
使用权限控制	敏感路径通过登录/鉴权保护	✅ 必须
移除备份文件	生产环境不要留存 .sql/.zip 备份	✅ 必须
返回 403/404	敏感路径直接禁止访问，而不是 Disallow	✅ 推荐

User-agent: *
Disallow: /admin/
Disallow: /config/database.yml
Disallow: /backup/full.zip

User-agent: *
Allow: / # 敏感路径根本不提，直接在服务器层禁止访问

location /admin/ {
    deny all;
    return 403;
}

1. 信息收集 (Whois, DNS, robots.txt, 端口扫描)
↓
2. 漏洞扫描 (SQL 注入，XSS, 命令注入)
↓
3. 漏洞利用 (获取权限，数据提取)
↓
4. 后渗透 (维持权限，横向移动)
↓
5. 报告与修复

Web 安全：robots.txt 协议原理、利用与防御实战

练习题目：Training-WWW-Robots

解题步骤

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

一、写在前面：关于「Robots」的纠正

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

更多推荐文章

相关免费在线工具

2.2 文件位置

2.3 基本语法

2.4 常见误区（关键）

三、安全视角：如何利用 robots.txt

3.1 直接访问查看

3.2 敏感路径识别

3.3 结合目录扫描工具

四、实战案例：三个真实场景

4.1 案例一：后台路径泄露

4.2 案例二：数据库备份文件下载

4.3 案例三：API 接口未授权访问

五、防御方案：如何正确配置

5.1 核心原则：安全不靠隐匿

5.2 正确配置建议

5.3 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

更多推荐文章

相关免费在线工具

Web 安全：robots.txt 协议原理、利用与防御实战

练习题目：Training-WWW-Robots

解题步骤

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

一、写在前面：关于「Robots」的纠正

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 文件位置

2.3 基本语法

2.4 常见误区（关键）

三、安全视角：如何利用 robots.txt

3.1 直接访问查看

3.2 敏感路径识别

3.3 结合目录扫描工具

四、实战案例：三个真实场景

4.1 案例一：后台路径泄露

4.2 案例二：数据库备份文件下载

4.3 案例三：API 接口未授权访问

五、防御方案：如何正确配置

5.1 核心原则：安全不靠隐匿

5.2 正确配置建议

5.3 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具