Web 安全实战：Training-WWW-Robots 题目解析与 Robots 协议原理 | 极客日志

Shell / Bash

Web 安全实战：Training-WWW-Robots 题目解析与 Robots 协议原理

Web 安全信息收集中 robots.txt 文件常被用于暴露敏感路径。通过 Training-WWW-Robots 题目演示如何发现隐藏路径，并详细讲解 Robots 协议原理、常见语法及安全风险。重点分析了 Disallow 指令的误区，指出其无法阻止直接访问。结合 Dirsearch 等工具展示利用方法，并提供后台路径泄露、备份文件下载等真实案例。最后给出正确的配置建议与防御方案，强调安全应依赖权限控制而非路径隐匿。

MqEngine发布于 2026/4/5更新于 2026/7/2668 浏览

Web 安全实战：Training-WWW-Robots 题目解析与 Robots 协议原理

练习题目：Training-WWW-Robots

文章配图

解题步骤

打开题目场景

在这个小小的训练挑战中，你将了解 Repbots_exclusion_standard。robots.txt 文件被网络爬虫用于检查它们是否被允许爬取和索引你的网站，或者只是网站的部分内容。有时这些文件会暴露目录结构，而不是保护内容不被爬取。

文章配图

利用 Robots 协议

发现根目录下有一个 f10g.php 的文件，访问这个文件内容

文章配图

得到正确答案

文章配图

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

⚠️ 警告： 本文仅用于授权测试和安全学习，未经授权扫描目标属于违法行为。

一、关于 Robots 协议的纠正

在安全圈交流时，常听到新手说「Repbots 漏洞」。其实这是一个口误，正确的术语是 Robots 协议，具体体现在网站根目录下的 robots.txt 文件。

虽然它不是传统意义上的「漏洞」，但在信息收集阶段，robots.txt 往往是攻击者眼中的「藏宝图」。

几年前，我负责某系统的安全评估。渗透测试同事只花了一分钟，访问了 目标网站/robots.txt，发现里面 Disallow 了一个 /backup_2023.zip 路径。直接访问该路径，下载到了包含数据库账号密码的备份文件。

全程未利用任何技术漏洞，仅靠一个配置文件。 这就是 robots.txt 的安全价值。

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

Robots Exclusion Protocol（机器人排除协议）是网站告诉搜索引擎爬虫（如 Google、百度）哪些页面可以抓取，哪些不可以的国际标准。

本质： 它是一个君子协议，没有强制约束力。

相关免费在线工具

Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online
JSON美化和格式化
将JSON字符串修饰为友好的可读格式。在线工具，JSON美化和格式化在线工具，online

http://example.com/robots.txt

字段	说明	示例
User-agent	指定爬虫名称	`User-agent: *` (所有爬虫)
Disallow	禁止抓取的路径	`Disallow: /admin/`
Allow	允许抓取的路径	`Allow: /admin/login.php`
Sitemap	网站地图位置	`Sitemap: http://example.com/sitemap.xml`

User-agent: *
Disallow: /admin/
Disallow: /backup/
Allow: /public/
Sitemap: http://example.com/sitemap.xml

curl http://target.com/robots.txt

关键词	潜在风险	验证方法
`/admin/`	后台管理入口	直接访问，尝试弱口令
`/backup/`	备份文件	尝试下载 .zip/.sql/.bak 文件
`/config/`	配置文件	尝试读取数据库密码
`/api/`	接口文档	测试未授权访问
`/test/`	测试页面	可能存在调试漏洞
`/old/`	旧版本系统	可能存在已知漏洞

# 将 robots.txt 中的路径提取出来，作为字典
dirsearch -u http://target.com -w robots_paths.txt

# 由于本地的靶站的 robots.txt 没有路径，所以就不是用字典进行扫描
dirsearch -u http://192.168.6.100:8080

做法	说明	推荐度
公开路径可写入	正常页面路径可写入 robots.txt	✅ 推荐
敏感路径不写入	后台、备份、配置路径不要写进 robots.txt	✅ 必须
使用权限控制	敏感路径通过登录/鉴权保护	✅ 必须
移除备份文件	生产环境不要留存 .sql/.zip 备份	✅ 必须
返回 403/404	敏感路径直接禁止访问，而不是 Disallow	✅ 推荐

User-agent: *
Disallow: /admin/
Disallow: /config/database.yml
Disallow: /backup/full.zip

User-agent: *
Allow: / # 敏感路径根本不提，直接在服务器层禁止访问

location /admin/ { deny all; return 403; }

1. 信息收集 (Whois, DNS, robots.txt, 端口扫描)
↓
2. 漏洞扫描 (SQL 注入，XSS, 命令注入)
↓
3. 漏洞利用 (获取权限，数据提取)
↓
4. 后渗透 (维持权限，横向移动)
↓
5. 报告与修复

Web 安全实战：Training-WWW-Robots 题目解析与 Robots 协议原理

练习题目：Training-WWW-Robots

解题步骤

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

一、关于 Robots 协议的纠正

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

更多推荐文章

相关免费在线工具

2.2 文件位置

2.3 基本语法

2.4 常见误区（关键）

三、安全视角：如何利用 robots.txt

3.1 直接访问查看

3.2 敏感路径识别

3.3 结合目录扫描工具

四、实战案例：三个真实场景

4.1 案例一：后台路径泄露

4.2 案例二：数据库备份文件下载

4.3 案例三：API 接口未授权访问

五、防御方案：如何正确配置

5.1 核心原则：安全不靠隐匿

5.2 正确配置建议

5.3 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

更多推荐文章

相关免费在线工具

Web 安全实战：Training-WWW-Robots 题目解析与 Robots 协议原理

练习题目：Training-WWW-Robots

解题步骤

知识点讲解：Web 安全信息收集：robots.txt 的原理、利用与防御实战

一、关于 Robots 协议的纠正

二、robots.txt 原理详解

2.1 什么是 Robots 协议？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 文件位置

2.3 基本语法

2.4 常见误区（关键）

三、安全视角：如何利用 robots.txt

3.1 直接访问查看

3.2 敏感路径识别

3.3 结合目录扫描工具

四、实战案例：三个真实场景

4.1 案例一：后台路径泄露

4.2 案例二：数据库备份文件下载

4.3 案例三：API 接口未授权访问

五、防御方案：如何正确配置

5.1 核心原则：安全不靠隐匿

5.2 正确配置建议

5.3 安全配置示例

六、自查清单

七、常见问题 Q&A

八、信息收集中的位置

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具