跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

DreamZero：世界动作模型即零样本策略 | 极客日志

编程语言AI算法

DreamZero：世界动作模型即零样本策略

综述由AI生成DreamZero 是由 NVIDIA 提出的机器人基础模型，采用 World Action Model (WAM) 架构，基于 14B 参数视频扩散模型 Wan2.1，通过联合预测未来视频帧和机器人动作，使机器人具备类似人类的视觉规划能力。该方法解决了现有视觉语言动作模型（VLAs）缺乏物理世界动态理解及泛化能力差的问题。实验显示，DreamZero 在 AgiBot G1 等机器人上实现了零样本泛化，性能比 SOTA VLAs 提升 2 倍以上，且仅需少量视频数据即可显著迁移到新任务。

栈溢出发布于 2026/4/6更新于 2026/5/2329 浏览

DreamZero：世界动作模型即零样本策略

概述

基础信息

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
论文原文

核心观点

本文提出了一种名为 DreamZero 的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过'脑补'画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法与创新

研究目标

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统 VLAs 在物理交互泛化上的瓶颈。

创新点

范式转变：不同于 VLAs 仅学习'看到什么做什么'，WAMs 学习'动作如何改变世界'。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

工作原理

DreamZero 的工作原理类似于给机器人装了一个'内部模拟器'。当给定指令时，模型首先在内部'脑补'出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

DreamZero 架构图

技术细节

模型架构：基于 14B 参数的视频扩散模型 Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用 Flow Matching 目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了 DreamZero-Flash 技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

技术基础

基于预训练的 VLMs 和 Video Diffusion Models 的研究基础，特别是利用了 Wan2.1-I2V 作为视觉骨干，并借鉴了流匹配算法进行训练。

实验与结论

实验设置

在 AgiBot G1（双臂移动 manipulator）和 Franka（单臂）机器人上进行预训练和评估。

数据与评估

数据：使用了约 500 小时的 AgiBot 异构数据，以及 DROID 数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。

结论

DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上；仅需 10-20 分钟的其他机器人或人类视频数据，性能相对提升超 42%。

相关工作

同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

参考文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

个人理解

WAM，输入 video 和 action，以及 text，输出 action 和 video。有一个把历史 frames 送入 kv cache 的操作，然后用的是 GT frames。左侧图是对比，右侧是本文。Q 是 y 轴，x 轴是 KV（记忆），模型在看问题 Q 时可以参考 KV 记忆。

KV Cache 示意图

目录

概述
基础信息
核心观点
研究痛点
核心方法与创新
研究目标
创新点
工作原理
技术细节
技术基础
实验与结论
实验设置
数据与评估
结论
相关工作
同类工作
参考文献
个人理解

💰 8折买阿里云服务器限时8折了解详情

Magick API 一键接入全球大模型注册送1000万token查看
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Llama-2-7b 昇腾 NPU 测评总结：核心性能数据与硬件选型参考
llama.cpp 安装与使用指南
如何提升 Web 渗透测试能力与实战技巧
数据结构基础：顺序表原理与动态实现详解
揭秘黑客：成为网络安全工程师的必备技能清单
路径类动态规划入门：3 道经典例题全解
【AIGC】Claude Code 模型配置详解
网络安全学习计划与就业方向指南
OpenClaw 插件更新：新增 QQ 与飞书机器人一键配置支持
Tecplot 360 EX2022 安装与使用指南
基于 Java 的百度地图路线规划服务开发指南
mssql1069错误（由于登录失败而无法启动服务）解决方法
Azure AI Search 新功能：查询重写与语义重排器详解
PyTorch 循环神经网络详解与文本生成实践
Windows 环境下 Git 安装与配置指南
低代码AI架构：简化灵活智能架构落地
C++ 模板编程基础：泛型编程入门与实践
大模型之 RAG 系列：核心原理与未来发展趋势
Stable Diffusion WebUI 整合包安装与使用指南
35 岁程序员职业转型与 Android 系统源码进阶指南

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online