WebArena:面向自主智能体的真实网页环境基准
最近,在 ICLR 2024 上发表了一篇来自卡内基梅隆大学的论文——WebArena: A Realistic Web Environment for Building Autonomous Agents(arXiv: 2307.13854)。这篇论文提出并实现了一个高度逼真、可复现的网页环境,专门用于开发和评估基于自然语言指令的自主智能体(Autonomous Agents)。
解决什么问题?
随着大语言模型(如 GPT-4)的快速发展,研究者们开始探索让 AI 智能体通过自然语言指令完成日常任务,比如'帮我在网上买个东西'或'去 GitLab 上更新 README'。然而,现有的智能体评估环境存在几个严重问题:
- 过于简化、不真实:很多环境(如 MiniWoB、WebShop、Mind2Web)要么功能受限,要么使用静态缓存页面,无法反映真实网页的复杂交互、多样内容和动态变化。
- 任务复杂度低:现有任务往往只需要几步操作就能完成,缺乏人类在真实互联网上经常遇到的长序列、需要规划和探索的任务。
- 评估方式不合理:很多环境只比较预测动作序列与参考序列的文本相似度,而忽略了功能正确性(functional correctness),即最终是否真正完成了目标。
- 不可复现:依赖真实网站会导致 CAPTCHA、内容变动、配置变更等问题,难以公平比较不同系统。
这些问题导致智能体在模拟环境里表现不错,但一到真实世界就'翻车'。论文的目标就是构建一个既高度真实又完全可复现的网页环境,来推动更鲁棒的自主智能体开发。
如何解决?—— WebArena 的核心设计
WebArena 的核心是一个独立、可自托管的网页环境,使用 Docker 容器封装,所有网站都是开源实现 + 从真实网站采样数据填充,完全脱离真实互联网,避免了上述不可复现问题。
1. 包含的网站与工具(四大领域 + 辅助工具)
论文根据作者们真实浏览器历史分析,选出了互联网上最常见的四大类网站,并各实现了一个功能完整的实例:
- 电商平台:OneStopShop(类似 Amazon/eBay),支持浏览、搜索、购物车、下单等完整流程。
- 社交论坛:类似 Reddit,支持发帖、评论、子版块等。
- 协作开发平台:基于真实 GitLab 开源代码搭建,支持仓库、Issue、Merge Request 等。
- 内容管理系统(CMS):类似在线商店后台,支持商品管理、订单查看等。
此外,还加入了人类常用辅助工具(作为独立网站):
- 地图(类似 Google Maps,支持搜索 POI、路线规划)
- 计算器
- 便签本(Scratchpad,用于记笔记)
以及知识资源:
- 英文 Wikipedia
- 各网站的用户手册
这些工具和知识库的加入,鼓励智能体像人类一样'多开标签页'、查资料、做笔记、规划路线。
2. 观察空间(Observation Space)
为了尽可能贴近人类浏览体验,观察包括:
- 当前 URL 和所有打开的标签页
- 当前焦点标签页的内容,可选择三种表示方式:
- 原始 HTML DOM 树
- 截图(像素级别)
- 可访问性树(Accessibility Tree)(推荐):比 DOM 更简洁,只保留对用户有意义的元素(角色、文本、可交互性),适合文本模型输入。
支持多标签页操作,是首个明确支持多标签的网页智能体环境。
3. 动作空间(Action Space)
设计了一套仿键盘 + 鼠标的复合动作,包括:
- 元素操作:click、hover、type、press 键、scroll
- 标签页操作:new_tab、tab_focus、tab_close


