本章介绍能自主浏览操作网页的 WebAgent 及相关评估数据集,涵盖从初级任务到复杂多模态交互的多个主流评测集,包括 MiniWoB++、MIND2WEB、WEBARENA、WebVoyager、WebLINX 和 AutoWebGLM。
MiniWoB++ 数据集
- Reinforcement Learning on Web Interfaces using Workflow-Guided Exploration
这篇论文发表于 2018 年,是 WebAgent 领域早期的经典工作。MiniWoB++ 是基于 gymnasium 的模拟 Web 环境,它在 OpenAI 的 MiniWoB 数据集上补充了更多复杂交互和可变页面行为,最终得到 100 个网页交互的评测集。
MiniWoB++ 数据集的局限性明显:
- 非实际 Web 页面而是模拟 Web 页面,缺乏真实环境的复杂性。
- 页面被极大程度简化成了单独的交互组件,复杂程度低。
- 指令是低级指令,直接描述如何和网页交互,例如'选择下拉列表中的 United Arab Emirates 并点击提交'。而高级任务指令应该是'选择 United Arab Emirates',这要求模型具备更高的语义理解能力。
MIND2WEB
- MIND2WEB: Towards a Generalist Agent for the Web
数据集
MIND2WEB 数据集在 MiniWoB++ 基础上做了显著改良:
- 使用真实网页而非模拟组件,例如美联航首页。
- 采用高级任务指令而非低级指令,例如'Search for all alternative concerts taking place in New York'。
- 网页数据全面:包含 HTML 代码、DOM 文件、HAR 日志、snapshot 截图和 TRACE。
- 多领域任务:5 大类 31 个小类,总共 137 个网站,基于种子人工构造了 2350 个指令样本,涵盖旅游、信息、娱乐、购物、通用服务类。
一个典型样本的任务指令为'Check for pickup restaurant available in Boston, NY on March 18, 5pm with just one guest',Label 是完成该指令的行为序列。每一步行为由 (Target Element, Operation) 构成,支持三种最常用的操作:CLICK、TYPE、SELECT。
Mind2WEB 采用了 4 个评估指标:
- Element Accuracy:评估操作元素(如 Button)的正确率。
- Operation F1:评估对元素的操作准召,这里是 token-level 的 F1 计算,因为有键入数据等操作。
- Step Success Rate:单步操作正确需要 Element 和 Operation 同时正确。
- Task Success Rate:任务正确需要每一步都正确。
Mind2WEB 数据集的主要局限性是只有数据采集时的网页静态页面 HTML,没有后续行为的动态交互数据。
MindAct
MindAct 框架因为是单一文本模态,因此使用 HTML 代码和 DOM 文件来作为网页的观测数据。框架比较简单,由两个部分组成:元素排序生成候选,基于候选的多项选择生成行为。
- Candidate Ranking:候选生成部分是一个二分类的打分模型。输入是任务指令 + 历史 Action+DOM 元素,输出是每个 DOM 元素的候选概率。这里 DOM 元素的文本表征除了元素本身的信息,还从 DOM 文件树里面获取了 parent 和 child 节点的信息,拼接作为每个节点的表征。论文通过随机负样本采样,训练了 DeBERTa 模型作为排序模型,测试集 Top50 召回在 85%+。
- Action Prediction:基于上面元素排序返回的 Top-K 候选 Element,会先对整个 HTML 进行裁剪,只保留候选元素前后的 HTML 文档。这样可以有效降低大模型的输入长度和复杂度,但对上面排序模型的召回要求较高。之后会基于 Top-K 候选、裁剪 HTML 和历史 Action,选择下一步的 Action 和 Value。于是基于复杂 HTML 直接生成 Action 和 Value 的复杂任务,被简化成了多项选择的 QA 任务。这里论文微调了 Flan-T5 来完成多项选择任务,也同时对比了直接使用 GPT3.5 和 GPT4。
WEBARENA 数据集
- WEBARENA: A REALISTIC WEB ENVIRONMENT FOR BUILDING AUTONOMOUS AGENTS
针对 Mind2WEB 只和静态网站状态交互的问题,WEBARENA 通过构建仿真网站,构建了真实、动态并且可复现的网络环境来和智能体进行交互。论文选择了电商、论坛、GitHub、CMS 等四类网站类型,并使用网站真实数据来构建模拟环境。
相比 Mind2WEB 的 3 种常见交互,WEBARENA 支持更多的交互操作,并且因为是动态页面因此支持多 Tab 切换的操作。


