DreamZero：世界动作模型作为零样本策略

综述由AI生成NVIDIA 提出的 DreamZero 机器人基础模型。针对现有视觉语言动作模型（VLAs）缺乏物理世界动态理解及泛化能力不足的问题，DreamZero 采用预训练视频扩散模型构建世界动作模型（WAM），联合预测未来视频帧与机器人动作。该方法利用视频预测作为视觉规划器指导动作生成，实现了零样本泛化。实验显示其在未见任务和环境中的表现比先进 VLAs 提升两倍以上，且仅需少量人类或机器人视频数据即可显著提升性能。

星河入梦发布于 2026/4/6更新于 2026/5/2231 浏览

基础信息

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
论文链接: Paper

核心摘要

本文提出了一种名为 DreamZero 的机器人基础模型，通过同时预测视频和动作（World Action Model），让机器人能像人类一样通过'脑补'画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法

架构设计

采用预训练的视频扩散模型作为骨干，构建了一个名为 World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

技术细节

输入输出: WAM 输入 video、action 以及 text，输出 action 和 video。
KV Cache: 将历史 frames 送入 KV cache 操作，使用 GT frames 进行对比学习。Q 为 y 轴，x 轴是 KV（记忆），模型在看问题 Q 时可参考 KV 记忆。
模型参数: 基于 14B 参数的视频扩散模型 Wan2.1，增加了状态和动作编码器/解码器。
训练方式: 使用 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。
推理优化: 提出了 DreamZero-Flash 技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

创新点

范式转变: 不同于 VLAs 仅学习'看到什么做什么'，WAMs 学习'动作如何改变世界'。
数据效率: 证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移: 展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

实验与结论

实验设置: 在 AgiBot G1（双臂移动 manipulator）和 Franka（单臂）机器人上进行预训练和评估。
数据: 使用了约 500 小时的 AgiBot 异构数据，以及 DROID 数据集。
评估方式: 在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论: DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上；仅需 10-20 分钟的其他机器人或人类视频数据，性能相对提升超 42%。

基础信息

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
论文链接: Paper

核心摘要

研究痛点

核心方法

架构设计

技术细节

输入输出: WAM 输入 video、action 以及 text，输出 action 和 video。
KV Cache: 将历史 frames 送入 KV cache 操作，使用 GT frames 进行对比学习。Q 为 y 轴，x 轴是 KV（记忆），模型在看问题 Q 时可参考 KV 记忆。
模型参数: 基于 14B 参数的视频扩散模型 Wan2.1，增加了状态和动作编码器/解码器。
训练方式: 使用 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。
推理优化: 提出了 DreamZero-Flash 技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

创新点

范式转变: 不同于 VLAs 仅学习'看到什么做什么'，WAMs 学习'动作如何改变世界'。
数据效率: 证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移: 展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

实验与结论

实验设置: 在 AgiBot G1（双臂移动 manipulator）和 Franka（单臂）机器人上进行预训练和评估。
数据: 使用了约 500 小时的 AgiBot 异构数据，以及 DROID 数据集。
评估方式: 在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论: DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上；仅需 10-20 分钟的其他机器人或人类视频数据，性能相对提升超 42%。

DreamZero：世界动作模型作为零样本策略

基础信息

核心摘要

研究痛点

核心方法

架构设计

技术细节

创新点

实验与结论

同类工作

相关文献

DreamZero：世界动作模型作为零样本策略

基础信息

核心摘要

研究痛点

核心方法

架构设计

技术细节

创新点

实验与结论

同类工作

相关文献

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

DreamZero：世界动作模型作为零样本策略

基础信息

核心摘要

研究痛点

核心方法

架构设计

技术细节

创新点

实验与结论

同类工作

相关文献

DreamZero：世界动作模型作为零样本策略

基础信息

核心摘要

研究痛点

核心方法

架构设计

技术细节

创新点

实验与结论

同类工作

相关文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具