DreamZero: 世界动作模型作为零样本策略
NVIDIA 近期发布的这篇论文提出了一种名为 DreamZero 的机器人基础模型,其核心在于构建了一个'世界动作模型'(World Action Model, WAM)。简单来说,它让机器人不再仅仅依赖语义理解来执行指令,而是像人类一样通过'脑补'完成任务的视频画面来规划具体动作。这种机制使得机器人在面对从未见过的任务和环境时,也能实现高效的零样本泛化。
为什么需要 WAM?
现有的视觉语言动作模型(VLAs)虽然擅长处理语义信息,但在物理世界的动态理解上存在明显短板。它们往往缺乏对几何关系和动力学的深层认知,导致在遇到新动作或新环境时泛化能力不足,且通常需要大量重复的演示数据才能训练成功。DreamZero 试图打破这一瓶颈,将机器人策略学习转化为联合视频与动作预测问题,利用网络规模的视频数据预训练模型,从而获得强大的物理直觉。
核心架构与原理
DreamZero 的骨干网络基于 14B 参数的视频扩散模型 Wan2.1。为了适应机器人控制,团队增加了状态和动作的编码器/解码器模块。训练过程中采用了 Flow Matching 目标,联合去噪视频潜变量和动作潜变量。这意味着模型在学习如何生成未来画面的同时,也在同步学习如何驱动机械臂完成对应动作。
推理阶段,DreamZero 引入了 Flash 技术优化。通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理,频率可达 7Hz。这种设计类似于给机器人装了一个内部模拟器:当给定指令时,模型先在内部'脑补'出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

在具体实现细节上,WAM 接收历史帧、当前状态以及文本指令作为输入,输出未来的动作和视频帧。值得注意的是,模型利用了 KV Cache 机制来处理历史帧,这有助于模型在观看当前问题时参考之前的记忆上下文,从而提升长序列任务的连贯性。

实验效果与结论
研究团队在 AgiBot G1(双臂移动操作臂)和 Franka(单臂)机器人上进行了广泛的预训练和评估。数据方面,使用了约 500 小时的 AgiBot 异构数据以及 DROID 数据集。评估场景涵盖了未见过的任务(如解鞋带、熨衣服)和未见过的环境。
结果表明,DreamZero 在零样本泛化能力上比最先进的 VLAs 提升了 2 倍以上。更令人惊喜的是其跨具身迁移能力:仅需 10-20 分钟的其他机器人或人类视频数据(无需动作标签),性能相对提升就超过 42%。这证明了从多样、非重复的数据中有效学习是可行的,打破了传统观念中对大量重复演示数据的依赖。
同类工作对比
目前该领域的主要竞品包括 GR00T N1.6、π₀.σ (pi-zero)、RT-2、OpenVLA 和 CosmoPolicy 等。DreamZero 的创新之处在于范式转变:不同于 VLAs 仅学习'看到什么做什么',WAMs 学习的是'动作如何改变世界'。这种差异使其在物理交互泛化上具有显著优势。
相关参考文献可查阅 Bjorck et al., 2025 (GR00T N1.6)、Physical Intelligence, 2025 (π₀.σ) 以及 Team Wan, 2025 (Wan2.1-I2V-14B-480P)。如需深入阅读原始论文,可访问:paper


