DreamZero:世界动作模型实现零样本策略泛化
NVIDIA 团队近期提出了一种名为 DreamZero 的机器人基础模型,其核心在于构建世界动作模型(World Action Models, WAMs)。该模型通过联合预测视频帧与机器人动作,让机器人能够像人类一样在内部'脑补'完成任务的画面,进而指导实际动作的执行。这种机制使得机器人在面对从未见过的任务和环境时,依然能实现高效的零样本泛化。
研究背景与痛点
现有的视觉语言动作模型(VLAs)虽然在语义理解上表现出色,但往往缺乏对物理世界动态(如几何结构、动力学特性)的深层认知。这导致它们在泛化到新动作或新环境时显得力不从心,且通常依赖大量重复的演示数据进行微调。DreamZero 旨在打破这一瓶颈,证明将机器人策略学习转化为联合视频与动作预测问题,可以利用大规模视频数据预训练获得强大的物理直觉。
核心方法:世界动作模型
DreamZero 采用预训练的视频扩散模型作为骨干网络,具体基于 14B 参数的 Wan2.1-I2V 架构。在此基础上,模型增加了状态和动作的编码器与解码器。训练阶段使用 Flow Matching 目标,联合去噪视频潜变量和动作潜变量。这种设计让模型不仅学会'看到什么做什么',更学会了'动作如何改变世界'。
在推理优化方面,团队提出了 DreamZero-Flash 技术。通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理,频率可达 7Hz。这使得模型在实际部署中具备了足够的响应速度。

关键创新与优势
相比传统方法,DreamZero 展现了显著的范式转变。它不再单纯依赖特定任务的重复演示,而是证明了可以从多样、非重复的数据中有效学习。更重要的是,它展示了惊人的跨具身迁移能力。实验表明,仅需 10-20 分钟的其他机器人或人类视频数据(无需动作标签),就能显著提升新任务的性能,相对提升幅度超过 42%。
技术细节与架构洞察
在具体的架构实现上,WAM 接收历史视频帧、当前状态及文本指令作为输入,输出未来的视频帧和对应的动作序列。一个值得注意的细节是 KV Cache 的使用。系统将历史帧送入 KV Cache 作为记忆,当模型处理新的查询(Q)时,可以检索这些记忆来辅助决策。左侧对比图展示了传统方式,而右侧则是本文采用的改进方案,利用记忆增强提升了上下文理解的连贯性。

实验结果与评估
研究在 AgiBot G1(双臂移动操作臂)和 Franka(单臂)机器人上进行了预训练和评估。数据集包含约 500 小时的 AgiBot 异构数据以及 DROID 数据集。评估重点放在未见过的任务(如解鞋带、熨衣服)和环境中。结果显示,DreamZero 在零样本泛化能力上比最先进 VLAs 提升了 2 倍以上。
相关参考
相关工作包括 GR00T N1.6、π₀.σ (pi-zero)、RT-2、OpenVLA 及 CosmoPolicy 等。本研究与 Bjorck et al., 2025 (GR00T N1.6)、Physical Intelligence, 2025 (π₀.σ) 以及 Team Wan, 2025 (Wan2.1-I2V-14B-480P) 有较高的相关性。
论文地址:DreamZero Paper


