【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

10 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

仿生新势力：Openclaw开源仿生爪，如何革新机器人抓取？

仿生新势力：Openclaw开源仿生爪，如何革新机器人抓取？引言在仓储、农业乃至家庭服务中，机器人如何像猫一样灵巧、自适应地抓取千变万化的物体？这曾是行业难题。如今，一个名为 Openclaw 的开源仿生机械爪项目，正以其独特的被动适应性设计和亲民的成本，在机器人末端执行器领域掀起波澜。本文将深入解析Openclaw的仿生奥秘、实现原理、应用场景及未来布局，带你全面了解这款来自开源社区的“仿生新势力”。一、核心揭秘：从猫爪到机械爪的实现原理本节将拆解Openclaw如何将生物灵感转化为工程现实。 1. 仿生学设计理念 Openclaw的核心灵感源于猫科动物爪部。当猫抓取物体时，其爪趾会自然地包裹贴合物体表面，这种能力主要依赖于其肌腱和骨骼的被动结构，而非大脑的实时精密控制。Openclaw借鉴了这一思想，核心是被动适应性机制。它无需依赖复杂的传感器反馈和实时力控算法，仅凭精巧的机械结构即可根据物体形状自动调整接触点和抓取力，从而极大地简化了控制系统。配图建议：猫爪与Openclaw的对比图，或Openclaw抓取不同形状物体的动态示意图。 2. 欠驱动与

树莓派4b智能家居中枢搭建：手把手教程（从零实现）

用树莓派4B打造专属智能家居中枢：从零开始的实战指南你有没有想过，家里那些互不兼容的智能设备——小米的温湿度传感器、飞利浦Hue灯泡、TP-Link插座、Aqara门窗磁——其实可以被一个“大脑”统一指挥？不再依赖云端、无需担心隐私泄露，所有自动化逻辑本地运行，响应快如闪电。这个“大脑”，就是我们今天要亲手搭建的：基于树莓派4B的智能家居中枢。它不是什么高不可攀的技术玩具，而是一个真正能落地、可扩展、可持续演进的家庭自动化平台。本文将带你一步步从一块裸板出发，完成系统安装、核心软件部署、多协议接入，最终实现复杂的联动场景。全程无坑点跳过，只讲干货。为什么是树莓派4B？市面上做智能网关的方案不少，但为什么我们选择树莓派4B作为主力平台？答案藏在它的硬件基因里。性能不再是瓶颈以前的树莓派（比如3B+）跑Home Assistant还行，一旦加上Zigbee协调器、MQTT代理和Node-RED，内存立马吃紧。而树莓派4B 彻底改变了这一点： * 四核Cortex-A72 @ 1.5GHz ，性能接近入门级笔记本； * 内存最高支持

零基础小白如何自学无人机开发

为零基础小白量身定制的无人机开发自学路径，规划了一条从入门到精通的系统性学习路线。这份指南会帮你避开新手常走的弯路，用最高效的方式掌握无人机开发的核心技能。第一阶段：基础入门（1-2个月） - 打好根基 1. 理论学习 - 了解无人机如何工作 * 空气动力学基础：了解四旋翼无人机的基本飞行原理（ pitch/roll/yaw ） * 硬件组成：学习飞控、电调、电机、GPS、IMU等核心部件的作用 * 推荐资源： * 书籍：《四旋翼飞行器设计与控制》 * 在线课程：Coursera的“Robotics: Aerial Robotics” * B站系列视频：“无人机原理入门” 2. 软件开发基础 - 掌握必要编程技能 * Python入门：语法基础、面向对象编程 * C++基础：指针、内存管理、类与对象（后续深入飞控开发必备） * Linux基本操作：Ubuntu系统安装、终端命令、

Windows安装原生Codex CLI 让你拥有更强力的AI代码助手！【支持GPT5.4、GPT5.3-codex】

文章目录 * 前言 * 一、基础环境 * 1.操作系统 * 2.工具版本 * 二、部署 * 1.安装PowerShell 7 * 1.1以管理员身份运行 cmd * 1.2安装powershell7 * 2.安装Node.js * 2.1 安装nvm * 2.2 安装Node&npm * 3.安装Codex * 4.安装CC-Switch * 5.配置CC-Switch * 5.1获取公益api key * 5.2选择Codex 点击“添加供应商” * 5.3配置测试 * 三、Codex简单使用 * 1.Powershell7中输入codex回车 * 2.Codex