【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

07 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

AIGC实战——CycleGAN详解与实现

AIGC实战——CycleGAN详解与实现 * 0. 前言 * 1. CycleGAN 基本原理 * 2. CycleGAN 模型分析 * 3. 实现 CycleGAN * 小结 * 系列链接 0. 前言 CycleGAN 是一种用于图像转换的生成对抗网络(Generative Adversarial Network, GAN)，可以在不需要配对数据的情况下将一种风格的图像转换成另一种风格，而无需为每一对输入-输出图像配对训练数据。CycleGAN 的核心思想是利用两个生成器和两个判别器，它们共同学习两个域之间的映射关系。例如，将马的图像转换成斑马的图像，或者将苹果图像转换为橙子图像。在本节中，我们将学习 CycleGAN 的基本原理，并实现该模型用于将夏天的风景图像转换成冬天的风景图像，或反之将冬天的风景图像转换为夏天的风景图像。 1. CycleGAN 基本原理 CycleGAN 是一种无需配对的图像转换技术，它可以将一个图像域中的图像转换为另一个图像域中的图像，而不需要匹配这两个域中的图像。它使用两个生成器和两个判别器，其中一个生成器将一个域中的图像

Python 实战：快速上手 PyQt6+Stable Diffusion+OWLv2 图像工具

摘要这篇文章主要讲如何用 Python 3.12 做一个 “图像生成 + 自动标注” 的桌面工具，用 PyQt6 做界面，集成了 Stable Diffusion 文生图和 OWLv2 自动标注功能，步骤简单，搭配截图就能跟着操作，适合想快速落地图像相关任务的开发者。一、先搞懂核心技术与价值 1.1 用了哪些技术？ * 界面：PyQt6（拖控件做可视化界面，不用写太多 UI 代码）； * 文生图：Stable Diffusion（用 Diffusers 框架调用，支持本地模型和在线下载）； * 自动标注：OWLv2（能自定义标注类别，比如 “猫”“狗”，不用预训练）； * 辅助：Pillow 处理图片、HuggingFace

银发族的AI搭子：AIGC如何陪爸妈唠嗑、防骗又解闷？

银发族的AI搭子：AIGC如何陪爸妈唠嗑、防骗又解闷？ * 银发族的AI搭子：AIGC如何陪爸妈唠嗑、防骗又解闷？ * 先整点能跑起来的代码，别光唠概念 * 1. 语音唤醒 + 方言 ASR：让“川普”也能被听懂 * 陪聊模块：把 GPT 塞进口袋，语气得像亲闺女 * 2. 先写 Prompt，让 AI 带上“闺女滤镜” * 3. 再挂本地知识库，防止“ hallucination 吓坏爸妈” * 防诈骗：实时打断 + 亲属音色预警 * 4. 电话拦截 + 实时语音转文字，关键词触发警报 * 解闷子：老故事 + 戏曲 + 当年的广播腔 * 5. 定时任务 + 音色克隆，让“已故爷爷”讲故事（伦理提示后边聊）

N46Whisper：让日语视频字幕制作变得如此简单

N46Whisper：让日语视频字幕制作变得如此简单【免费下载链接】N46WhisperWhisper based Japanese subtitle generator 项目地址: https://gitcode.com/gh_mirrors/n4/N46Whisper 还在为日语视频制作字幕而头疼吗？N46Whisper正是你一直在寻找的智能解决方案！这款基于云端AI技术的日语语音识别工具，彻底改变了传统字幕制作的繁琐流程，让每个人都能轻松上手。为什么你需要这款工具想象一下，原本需要数小时手动打字的工作，现在只需要几分钟就能完成。这就是N46Whisper带来的效率革命： * 零门槛使用：无需安装任何软件，打开浏览器就能开始工作 * AI精准识别：采用先进的Whisper技术，日语语音识别准确率惊人 * 云端极速处理：借助Google Colab的强大计算能力，处理速度超乎想象 * 双格式支持：ass和srt两种主流格式任你选择快速入门：三步搞定日语字幕第一步：准备环境打开Google Colab，上传N46Whisper.ipynb文件，系