DreamZero: World Action Models Are Zero-shot Policies

DreamZero 提出一种名为 World Action Model (WAM) 的机器人基础模型，通过联合预测视频帧与动作，赋予机器人物理直觉与空间感知能力。该架构基于预训练视频扩散模型 Wan2.1，利用内部模拟器机制实现零样本泛化。实验表明，其在未见任务与环境中的表现超越现有视觉语言动作模型两倍，且仅需少量人类视频数据即可实现跨具身迁移，显著提升了机器人在复杂物理交互场景下的适应性与效率。

SqlMaster发布于 2026/4/8更新于 2026/7/2142 浏览

DreamZero: 世界动作模型作为零样本策略

NVIDIA 近期发布的这篇论文提出了一种名为 DreamZero 的机器人基础模型，其核心在于构建了一个'世界动作模型'（World Action Model, WAM）。简单来说，它让机器人不再仅仅依赖语义理解来执行指令，而是像人类一样通过'脑补'完成任务的视频画面来规划具体动作。这种机制使得机器人在面对从未见过的任务和环境时，也能实现高效的零样本泛化。

为什么需要 WAM？

现有的视觉语言动作模型（VLAs）虽然擅长处理语义信息，但在物理世界的动态理解上存在明显短板。它们往往缺乏对几何关系和动力学的深层认知，导致在遇到新动作或新环境时泛化能力不足，且通常需要大量重复的演示数据才能训练成功。DreamZero 试图打破这一瓶颈，将机器人策略学习转化为联合视频与动作预测问题，利用网络规模的视频数据预训练模型，从而获得强大的物理直觉。

核心架构与原理

DreamZero 的骨干网络基于 14B 参数的视频扩散模型 Wan2.1。为了适应机器人控制，团队增加了状态和动作的编码器/解码器模块。训练过程中采用了 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。这意味着模型在学习如何生成未来画面的同时，也在同步学习如何驱动机械臂完成对应动作。

推理阶段，DreamZero 引入了 Flash 技术优化。通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理，频率可达 7Hz。这种设计类似于给机器人装了一个内部模拟器：当给定指令时，模型先在内部'脑补'出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

WAM 架构对比

在具体实现细节上，WAM 接收历史帧、当前状态以及文本指令作为输入，输出未来的动作和视频帧。值得注意的是，模型利用了 KV Cache 机制来处理历史帧，这有助于模型在观看当前问题时参考之前的记忆上下文，从而提升长序列任务的连贯性。

KV Cache 机制示意

实验效果与结论

研究团队在 AgiBot G1（双臂移动操作臂）和 Franka（单臂）机器人上进行了广泛的预训练和评估。数据方面，使用了约 500 小时的 AgiBot 异构数据以及 DROID 数据集。评估场景涵盖了未见过的任务（如解鞋带、熨衣服）和未见过的环境。

结果表明，DreamZero 在零样本泛化能力上比最先进的 VLAs 提升了 2 倍以上。更令人惊喜的是其跨具身迁移能力：仅需 10-20 分钟的其他机器人或人类视频数据（无需动作标签），性能相对提升就超过 42%。这证明了从多样、非重复的数据中有效学习是可行的，打破了传统观念中对大量重复演示数据的依赖。

DreamZero: World Action Models Are Zero-shot Policies

DreamZero: 世界动作模型作为零样本策略

为什么需要 WAM？

核心架构与原理

实验效果与结论

同类工作对比

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

DreamZero: World Action Models Are Zero-shot Policies

DreamZero: 世界动作模型作为零样本策略

为什么需要 WAM？

核心架构与原理

实验效果与结论

同类工作对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具