快速概览
基础信息(英文):
题目:World Action Models are Zero-shot Policies
时间:2026.02
机构:NVIDIA
关键词:World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper
1 句话通俗总结本文干了什么事情
本文提出了一种名为 DreamZero 的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过'脑补'画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。
研究痛点:现有研究不足 / 要解决的具体问题
现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。
核心方法:关键技术、模型或研究设计(简要)
采用预训练的视频扩散模型作为骨干,构建了一个名为 World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。
核心解析
作者想要表达什么
作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统 VLAs 在物理交互泛化上的瓶颈。
相比前人创新在哪里
- 范式转变:不同于 VLAs 仅学习'看到什么做什么',WAMs 学习'动作如何改变世界'。
- 数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
- 跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。
解决方法/算法的通俗解释
DreamZero 的工作原理类似于给机器人装了一个'内部模拟器'。当给定指令时,模型首先在内部'脑补'出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。
解决方法的具体做法
- 模型架构:基于 14B 参数的视频扩散模型 Wan2.1,增加了状态和动作编码器/解码器。
- 训练方式:使用 Flow Matching 目标,联合去噪视频潜变量和动作潜变量。
- 推理优化:提出了 DreamZero-Flash 技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。
基于前人的哪些方法
基于预训练的 VLMs 和 Video Diffusion Models 的研究基础,特别是利用了 Wan2.1-I2V 作为视觉骨干,并借鉴了流匹配算法进行训练。
实验设置、数据、评估方式、结论
- 实验设置:在 AgiBot G1(双臂移动 manipulator)和 Franka(单臂)机器人上进行预训练和评估。
- 数据:使用了约 500 小时的 AgiBot 异构数据,以及 DROID 数据集。
- 评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
- 结论:DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上;仅需 10-20 分钟的其他机器人或人类视频数据,性能相对提升超 42%。
提到的同类工作
GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。
和本文相关性最高的 3 个文献
- Bjorck et al., 2025 (GR00T N1.6)
- Physical Intelligence, 2025 (π₀.σ)
- Team Wan, 2025 (Wan2.1-I2V-14B-480P)


