【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

06 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

【无人机路径规划】无人机三维路径规划中蚁群算法、A* 与 RRT* 算法对比（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭：行百里者，半于九十。 📋📋📋本文目录如下：🎁🎁🎁 💥1 概述随着无人机技术的快速发展，其在军事侦察、物流配送、环境监测等众多领域的应用日益广泛。在实际应用场景中，无人机需要在复杂的三维空间内规划出一条安全、高效的飞行路径，以避开障碍物并满足任务需求。蚁群算法、A* 算法和 RRT* 算法是目前无人机三维路径规划中常用的算法，它们各自具有独特的原理和特点，对其进行详细对比有助于根据具体应用场景选择最合适的算法。蚁群算法蚁群算法是一种模拟蚂蚁觅食行为的启发式优化算法。蚂蚁在寻找食物的过程中，会在走过的路径上释放信息素，信息素浓度越高的路径对其他蚂蚁的吸引力越大。在无人机路径规划中，将三维空间划分为多个节点，每只“虚拟蚂蚁”从起点开始，根据信息素浓度和启发式信息选择下一个节点，不断迭代更新信息素浓度，最终找到一条从起点到终点的最优路径。 A* 算法 A*

【实战教程】MATLAB GUI实现多算法雷达CFAR检测：从原理到可视化分析

1. 什么是雷达CFAR检测？雷达恒虚警检测（CFAR）是雷达信号处理中的一项核心技术，简单来说就是在复杂多变的噪声环境中，始终保持稳定的目标检测能力。想象一下你在一个嘈杂的派对上试图听清朋友的谈话，CFAR就像是你的大脑自动调节"听力阈值"的过程——当环境噪音变大时，你会不自觉地提高注意力阈值；当环境安静时，又能降低阈值捕捉细微声音。在雷达系统中，CFAR技术通过动态调整检测门限来实现这个功能。传统固定门限检测在噪声变化时要么漏检目标（门限过高），要么产生大量误报（门限过低）。而CFAR算法能够根据周围环境的噪声水平，实时计算出最合适的检测门限值。 MATLAB GUI实现的最大优势在于可视化交互。通过图形界面，我们可以直观地看到： * 原始噪声信号的波形特征 * 不同CFAR算法计算出的动态门限曲线 * 目标检测结果的标记位置 * 算法在不同信噪比下的表现差异 2. CFAR核心算法原理解析 2.1 均值类CFAR算法均值类算法是CFAR家族中最基础的成员，其核心思想可以用"邻里比较"来理解。就像通过比较周围房屋的价格来评估某处房产价值一样，这些算法通

Neo4j 图数据库安装与操作指南(以mac为例)

目录一、安装前提条件 1.1 Java环境 1.2 Homebrew（可选）二、下载并安装Neo4j 2.1 从官方网站下载 2.1.1 访问Neo4j的官方网站 2.1.2 使用Homebrew安装三、配置Neo4j 3.1 设置环境变量(可选) 3.2 打开配置文件(bash_profile) 3.2.1 打开终端 3.2.2 使用open命令和默认文本编辑器(如TextEdit) 3.2.3 使用nano编辑器 3.2.4

2023年电赛H题（信号分离装置）-FPGA＋stm32解法

目录前言题目解题思路基本框架代码思路第一部分（FPGA的FIFO以及串口发送接收） 1.FIFO 2.（FPGA串口发送） 3.FPGA串口接收 4.总结第二部分（stm32接收数据进行FFT识别波形以及频率并发送） 1.stm32串口接收 2.stm32进行FFT 3.stm32串口发送第三部分（FPGA得到波形与频率后生成波形）第四部分（FPGA锁相） 1.鉴相 2.环路滤波 3.反馈第五部分（DAC输出）第六部分（移相） 1.按键消抖 2.按键设置相位差 3.数码管显示相位第七部分（FPGA代码总结）后记前言本文章除开要求一使用的增益为一的加法器以外，其余皆由FPGA+