DreamZero：世界动作模型实现零样本策略泛化

NVIDIA 团队近期提出了一种名为 DreamZero 的机器人基础模型，其核心在于构建世界动作模型（World Action Models, WAMs）。该模型通过联合预测视频帧与机器人动作，让机器人能够像人类一样在内部'脑补'完成任务的画面，进而指导实际动作的执行。这种机制使得机器人在面对从未见过的任务和环境时，依然能实现高效的零样本泛化。

研究背景与痛点

现有的视觉语言动作模型（VLAs）虽然在语义理解上表现出色，但往往缺乏对物理世界动态（如几何结构、动力学特性）的深层认知。这导致它们在泛化到新动作或新环境时显得力不从心，且通常依赖大量重复的演示数据进行微调。DreamZero 旨在打破这一瓶颈，证明将机器人策略学习转化为联合视频与动作预测问题，可以利用大规模视频数据预训练获得强大的物理直觉。

核心方法：世界动作模型

DreamZero 采用预训练的视频扩散模型作为骨干网络，具体基于 14B 参数的 Wan2.1-I2V 架构。在此基础上，模型增加了状态和动作的编码器与解码器。训练阶段使用 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。这种设计让模型不仅学会'看到什么做什么'，更学会了'动作如何改变世界'。

在推理优化方面，团队提出了 DreamZero-Flash 技术。通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理，频率可达 7Hz。这使得模型在实际部署中具备了足够的响应速度。

WAM 架构示意图

关键创新与优势

相比传统方法，DreamZero 展现了显著的范式转变。它不再单纯依赖特定任务的重复演示，而是证明了可以从多样、非重复的数据中有效学习。更重要的是，它展示了惊人的跨具身迁移能力。实验表明，仅需 10-20 分钟的其他机器人或人类视频数据（无需动作标签），就能显著提升新任务的性能，相对提升幅度超过 42%。

技术细节与架构洞察

在具体的架构实现上，WAM 接收历史视频帧、当前状态及文本指令作为输入，输出未来的视频帧和对应的动作序列。一个值得注意的细节是 KV Cache 的使用。系统将历史帧送入 KV Cache 作为记忆，当模型处理新的查询（Q）时，可以检索这些记忆来辅助决策。左侧对比图展示了传统方式，而右侧则是本文采用的改进方案，利用记忆增强提升了上下文理解的连贯性。

KV Cache 记忆机制对比

实验结果与评估

研究在 AgiBot G1（双臂移动操作臂）和 Franka（单臂）机器人上进行了预训练和评估。数据集包含约 500 小时的 AgiBot 异构数据以及 DROID 数据集。评估重点放在未见过的任务（如解鞋带、熨衣服）和环境中。结果显示，DreamZero 在零样本泛化能力上比最先进 VLAs 提升了 2 倍以上。

DreamZero：世界动作模型实现零样本策略泛化