LLM Agent 之互联网冲浪智能体：主流 WebAgent 数据集解析

LLM Agent 在互联网冲浪场景中涉及多种 WebAgent 数据集与评估方案。主要涵盖 MiniWoB++、MIND2WEB、WEBARENA、WebVoyager、WebLINX 及 AutoWebGLM。MiniWoB++ 为模拟环境，指令低级；MIND2WEB 使用真实网页静态数据，支持高级任务；WEBARENA 构建动态仿真环境；WebVoyager 结合多模态模型 GPT4-V 进行交互；WebLINX 引入多轮对话；AutoWebGLM 提出高质量微调数据集与多阶段训练策略。评估指标包括元素准确率、操作 F1、任务成功率等。AutoWebGLM 通过 SFT、RL、RFT 多阶段训练在 AutoWebBench 上表现优异。技术趋势从模拟到真实、从低级指令到自然语言、从文本到多模态演进。

月光旅人发布于 2025/2/6更新于 2026/7/2742 浏览

本章介绍能自主浏览操作网页的 WebAgent 及相关评估数据集，涵盖从初级任务到复杂多模态交互的多个主流评测集，包括 MiniWoB++、MIND2WEB、WEBARENA、WebVoyager、WebLINX 和 AutoWebGLM。

MiniWoB++ 数据集

Reinforcement Learning on Web Interfaces using Workflow-Guided Exploration

这篇论文发表于 2018 年，是 WebAgent 领域早期的经典工作。MiniWoB++ 是基于 gymnasium 的模拟 Web 环境，它在 OpenAI 的 MiniWoB 数据集上补充了更多复杂交互和可变页面行为，最终得到 100 个网页交互的评测集。

MiniWoB++ 数据集的局限性明显：

非实际 Web 页面而是模拟 Web 页面，缺乏真实环境的复杂性。
页面被极大程度简化成了单独的交互组件，复杂程度低。
指令是低级指令，直接描述如何和网页交互，例如'选择下拉列表中的 United Arab Emirates 并点击提交'。而高级任务指令应该是'选择 United Arab Emirates'，这要求模型具备更高的语义理解能力。

MIND2WEB

MIND2WEB: Towards a Generalist Agent for the Web

数据集

MIND2WEB 数据集在 MiniWoB++ 基础上做了显著改良：

使用真实网页而非模拟组件，例如美联航首页。
采用高级任务指令而非低级指令，例如'Search for all alternative concerts taking place in New York'。
网页数据全面：包含 HTML 代码、DOM 文件、HAR 日志、snapshot 截图和 TRACE。
多领域任务：5 大类 31 个小类，总共 137 个网站，基于种子人工构造了 2350 个指令样本，涵盖旅游、信息、娱乐、购物、通用服务类。

一个典型样本的任务指令为'Check for pickup restaurant available in Boston, NY on March 18, 5pm with just one guest'，Label 是完成该指令的行为序列。每一步行为由 (Target Element, Operation) 构成，支持三种最常用的操作：CLICK、TYPE、SELECT。

Mind2WEB 采用了 4 个评估指标：

Element Accuracy：评估操作元素（如 Button）的正确率。
Operation F1：评估对元素的操作准召，这里是 token-level 的 F1 计算，因为有键入数据等操作。
Step Success Rate：单步操作正确需要 Element 和 Operation 同时正确。
Task Success Rate：任务正确需要每一步都正确。

Mind2WEB 数据集的主要局限性是只有数据采集时的网页静态页面 HTML，没有后续行为的动态交互数据。

MindAct

MindAct 框架因为是单一文本模态，因此使用 HTML 代码和 DOM 文件来作为网页的观测数据。框架比较简单，由两个部分组成：元素排序生成候选，基于候选的多项选择生成行为。

Candidate Ranking：候选生成部分是一个二分类的打分模型。输入是任务指令 + 历史 Action+DOM 元素，输出是每个 DOM 元素的候选概率。这里 DOM 元素的文本表征除了元素本身的信息，还从 DOM 文件树里面获取了 parent 和 child 节点的信息，拼接作为每个节点的表征。论文通过随机负样本采样，训练了 DeBERTa 模型作为排序模型，测试集 Top50 召回在 85%+。
Action Prediction：基于上面元素排序返回的 Top-K 候选 Element，会先对整个 HTML 进行裁剪，只保留候选元素前后的 HTML 文档。这样可以有效降低大模型的输入长度和复杂度，但对上面排序模型的召回要求较高。之后会基于 Top-K 候选、裁剪 HTML 和历史 Action，选择下一步的 Action 和 Value。于是基于复杂 HTML 直接生成 Action 和 Value 的复杂任务，被简化成了多项选择的 QA 任务。这里论文微调了 Flan-T5 来完成多项选择任务，也同时对比了直接使用 GPT3.5 和 GPT4。

WEBARENA 数据集

WEBARENA: A REALISTIC WEB ENVIRONMENT FOR BUILDING AUTONOMOUS AGENTS

针对 Mind2WEB 只和静态网站状态交互的问题，WEBARENA 通过构建仿真网站，构建了真实、动态并且可复现的网络环境来和智能体进行交互。论文选择了电商、论坛、GitHub、CMS 等四类网站类型，并使用网站真实数据来构建模拟环境。

相比 Mind2WEB 的 3 种常见交互，WEBARENA 支持更多的交互操作，并且因为是动态页面因此支持多 Tab 切换的操作。

LLM Agent 之互联网冲浪智能体：主流 WebAgent 数据集解析

MiniWoB++ 数据集

MIND2WEB

数据集

MindAct

WEBARENA 数据集

更多推荐文章

相关免费在线工具

WebVoyager

数据集

Agent

WebLINX

AutoWebGLM

数据集

Web Recognition

Single-step task (Simple)

Multi-Step task (Complex)

微调

总结与展望

更多推荐文章

相关免费在线工具

LLM Agent 之互联网冲浪智能体：主流 WebAgent 数据集解析

MiniWoB++ 数据集

MIND2WEB

数据集

MindAct

WEBARENA 数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

WebVoyager

数据集

Agent

WebLINX

AutoWebGLM

数据集

Web Recognition

Single-step task (Simple)

Multi-Step task (Complex)

微调

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具