【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

仿生新势力:Openclaw开源仿生爪,如何革新机器人抓取?

仿生新势力:Openclaw开源仿生爪,如何革新机器人抓取?

仿生新势力:Openclaw开源仿生爪,如何革新机器人抓取? 引言 在仓储、农业乃至家庭服务中,机器人如何像猫一样灵巧、自适应地抓取千变万化的物体?这曾是行业难题。如今,一个名为 Openclaw 的开源仿生机械爪项目,正以其独特的被动适应性设计和亲民的成本,在机器人末端执行器领域掀起波澜。本文将深入解析Openclaw的仿生奥秘、实现原理、应用场景及未来布局,带你全面了解这款来自开源社区的“仿生新势力”。 一、 核心揭秘:从猫爪到机械爪的实现原理 本节将拆解Openclaw如何将生物灵感转化为工程现实。 1. 仿生学设计理念 Openclaw的核心灵感源于猫科动物爪部。当猫抓取物体时,其爪趾会自然地包裹贴合物体表面,这种能力主要依赖于其肌腱和骨骼的被动结构,而非大脑的实时精密控制。Openclaw借鉴了这一思想,核心是被动适应性机制。它无需依赖复杂的传感器反馈和实时力控算法,仅凭精巧的机械结构即可根据物体形状自动调整接触点和抓取力,从而极大地简化了控制系统。 配图建议:猫爪与Openclaw的对比图,或Openclaw抓取不同形状物体的动态示意图。 2. 欠驱动与

树莓派4b智能家居中枢搭建:手把手教程(从零实现)

用树莓派4B打造专属智能家居中枢:从零开始的实战指南 你有没有想过,家里那些互不兼容的智能设备——小米的温湿度传感器、飞利浦Hue灯泡、TP-Link插座、Aqara门窗磁——其实可以被一个“大脑”统一指挥?不再依赖云端、无需担心隐私泄露,所有自动化逻辑本地运行,响应快如闪电。 这个“大脑”,就是我们今天要亲手搭建的: 基于树莓派4B的智能家居中枢 。 它不是什么高不可攀的技术玩具,而是一个真正能落地、可扩展、可持续演进的家庭自动化平台。本文将带你一步步从一块裸板出发,完成系统安装、核心软件部署、多协议接入,最终实现复杂的联动场景。全程无坑点跳过,只讲干货。 为什么是树莓派4B? 市面上做智能网关的方案不少,但为什么我们选择树莓派4B作为主力平台?答案藏在它的硬件基因里。 性能不再是瓶颈 以前的树莓派(比如3B+)跑Home Assistant还行,一旦加上Zigbee协调器、MQTT代理和Node-RED,内存立马吃紧。而 树莓派4B 彻底改变了这一点: * 四核Cortex-A72 @ 1.5GHz ,性能接近入门级笔记本; * 内存最高支持

零基础小白如何自学无人机开发

为零基础小白量身定制的无人机开发自学路径,规划了一条从入门到精通的系统性学习路线。这份指南会帮你避开新手常走的弯路,用最高效的方式掌握无人机开发的核心技能。 第一阶段:基础入门(1-2个月) - 打好根基 1. 理论学习 - 了解无人机如何工作 * 空气动力学基础:了解四旋翼无人机的基本飞行原理( pitch/roll/yaw ) * 硬件组成:学习飞控、电调、电机、GPS、IMU等核心部件的作用 * 推荐资源: * 书籍:《四旋翼飞行器设计与控制》 * 在线课程:Coursera的“Robotics: Aerial Robotics” * B站系列视频:“无人机原理入门” 2. 软件开发基础 - 掌握必要编程技能 * Python入门:语法基础、面向对象编程 * C++基础:指针、内存管理、类与对象(后续深入飞控开发必备) * Linux基本操作:Ubuntu系统安装、终端命令、

Windows安装原生Codex CLI 让你拥有更强力的AI代码助手!【支持GPT5.4、GPT5.3-codex】

Windows安装原生Codex CLI 让你拥有更强力的AI代码助手!【支持GPT5.4、GPT5.3-codex】

文章目录 * 前言 * 一、基础环境 * 1.操作系统 * 2.工具版本 * 二、部署 * 1.安装PowerShell 7 * 1.1以管理员身份运行 cmd * 1.2安装powershell7 * 2.安装Node.js * 2.1 安装nvm * 2.2 安装Node&npm * 3.安装Codex * 4.安装CC-Switch * 5.配置CC-Switch * 5.1获取公益api key * 5.2选择Codex 点击“添加供应商” * 5.3配置测试 * 三、Codex简单使用 * 1.Powershell7中输入codex回车 * 2.Codex