WebArena：真实网页环境下的自主智能体构建与评估

WebArena 是卡内基梅隆大学在 ICLR 2024 上发表的论文成果，提出并实现了一个高度逼真、可复现的网页环境，专门用于开发和评估基于自然语言指令的自主智能体（Autonomous Agents）。本文详细介绍该论文的核心内容。

解决什么问题？

随着大语言模型（如 GPT-4）的快速发展，研究者们开始探索让 AI 智能体通过自然语言指令完成日常任务。然而，现有的智能体评估环境存在几个严重问题：

过于简化、不真实：很多环境功能受限，使用静态缓存页面，无法反映真实网页的复杂交互。
任务复杂度低：现有任务往往只需要几步操作，缺乏长序列、需要规划和探索的任务。
评估方式不合理：很多环境只比较预测动作序列与参考序列的文本相似度，忽略了功能正确性。
不可复现：依赖真实网站会导致 CAPTCHA、内容变动等问题，难以公平比较。

这些问题导致智能体在模拟环境里表现不错，但一到真实世界就'翻车'。论文的目标就是构建一个既高度真实又完全可复现的网页环境。

如何解决？—— WebArena 的核心设计

WebArena 的核心是一个独立、可自托管的网页环境，使用 Docker 容器封装，所有网站都是开源实现 + 从真实网站采样数据填充，完全脱离真实互联网。

1. 包含的网站与工具

论文根据作者们真实浏览器历史分析，选出了互联网上最常见的四大类网站，并各实现了一个功能完整的实例：

电商平台：OneStopShop（类似 Amazon/eBay），支持浏览、搜索、购物车、下单等完整流程。
社交论坛：类似 Reddit，支持发帖、评论、子版块等。
协作开发平台：基于真实 GitLab 开源代码搭建，支持仓库、Issue、Merge Request 等。
内容管理系统（CMS）：类似在线商店后台，支持商品管理、订单查看等。

此外，还加入了人类常用辅助工具（作为独立网站）：地图、计算器、便签本以及知识资源（英文 Wikipedia、各网站的用户手册）。

2. 观察空间（Observation Space）

为了尽可能贴近人类浏览体验，观察包括当前 URL 和所有打开的标签页，以及当前焦点标签页的内容。可选择三种表示方式：原始 HTML DOM 树、截图、可访问性树（Accessibility Tree，推荐）。支持多标签页操作，是首个明确支持多标签的网页智能体环境。

3. 动作空间（Action Space）

设计了一套仿键盘 + 鼠标的复合动作，包括元素操作（click、hover、type、press 键、scroll）、标签页操作（new_tab、tab_focus、tab_close）和导航操作（go_back、go_forward、goto URL）。元素选择支持坐标或元素 ID（在可访问性树或 DOM 中自动标注的唯一编号）。

4. 基准任务集（Benchmark）

论文发布了 812 个测试任务，来自 241 个模板。任务特点为高层次自然语言指令、长序列需要规划。分为信息查找、站点导航、内容与配置操作三大类。还有一部分不可完成任务，考察智能体是否会胡编。

5. 评估方式：强调功能正确性

这是 WebArena 最亮眼的设计之一：

信息查找类：提供参考答案，使用 exact_match、must_include 或 GPT-4 做 fuzzy_match 评估语义等价。
导航与操作类：编写程序直接检查执行轨迹中的中间状态（数据库、最终页面内容、URL 等），验证是否真正达到了目标。

这种评估方式更可靠、容错，也更贴近真实需求。

实验结果：当前顶尖模型还差得很远

论文用 GPT-4、PaLM-2 等模型做了基线实验，最佳配置端到端成功率只有 14.41%，而人类在相同任务上的成功率是 78.24%。这说明当前大模型在复杂、长序列的真实网页任务上仍有巨大差距。

总结与意义

WebArena 的贡献在于提供了一个真实感极强的网页环境，完全可复现、自托管，发布了高质量、长序列、功能正确性评估的基准任务。项目已完全开源：代码、环境复现脚本、任务、视频演示都在

目录/文件	作用
`/agent`	Agent 提示 & 实现
`/browser_env`	浏览器环境 & 自动登录
`/config_files`	任务 JSON
`/environment_docker`	Docker 搭建
`/evaluation_harness`	评估工具
`/resources`	人类轨迹/执行记录
`run.py`	主运行脚本
`minimal_example.py`	快速 demo

WebArena：真实网页环境下的自主智能体构建与评估