DreamZero: 世界动作模型作为零样本策略论文解读

基础信息

题目: World Action Models are Zero-shot Policies
发布时间: 2026.02
机构: NVIDIA
关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
原文链接: Paper

核心摘要

本文提出了一种名为 DreamZero 的机器人基础模型，通过同时预测视频和动作（World Action Model），让机器人能像人类一样通过'脑补'画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究背景

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法

采用预训练的视频扩散模型作为骨干，构建了一个名为 World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

研究目标

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统 VLAs 在物理交互泛化上的瓶颈。

创新点

范式转变：不同于 VLAs 仅学习'看到什么做什么'，WAMs 学习'动作如何改变世界'。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

原理

DreamZero 的工作原理类似于给机器人装了一个'内部模拟器'。当给定指令时，模型首先在内部'脑补'出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。（图：WAM 架构示意图）

实现细节

模型架构：基于 14B 参数的视频扩散模型 Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了 DreamZero-Flash 技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

技术基础

基于预训练的 VLMs 和 Video Diffusion Models 的研究基础，特别是利用了 Wan2.1-I2V 作为视觉骨干，并借鉴了流匹配算法进行训练。

实验与结论

实验设置：在 AgiBot G1（双臂移动 manipulator）和 Franka（单臂）机器人上进行预训练和评估。
数据：使用了约 500 小时的 AgiBot 异构数据，以及 DROID 数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上；仅需 10-20 分钟的其他机器人或人类视频数据，性能相对提升超 42%。

参考文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)

DreamZero: 世界动作模型作为零样本策略论文解读

基础信息

核心摘要

研究背景

核心方法

研究目标

创新点

原理

实现细节

技术基础

实验与结论

相关工作

参考文献

更多推荐文章

相关免费在线工具

补充说明

更多推荐文章

相关免费在线工具

DreamZero: 世界动作模型作为零样本策略论文解读

基础信息

核心摘要

研究背景

核心方法

研究目标

创新点

原理

实现细节

技术基础

实验与结论

相关工作

参考文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

补充说明

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具