【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

【无人机】密集城市环境中无人机空对地对地 (U2G) 路径损耗研究(Matlab代码实现)

👨‍🎓个人主页 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭:行百里者,半于九十。 💥1 概述 摘要: 推导了低空无人机与移动站空对地信道分析模型。建议用于频率为(2,1和2.5)GHz的密集城市环境。模型项基于A8G通道光线追踪仿真分析和刀口衍射理论确定。将该模型与其他A2G模型进行比较,显示出更好的标准误差和置信区间验证结果。此外,还讨论了改变频率和无人机高度对路径损耗和视线概率的影响。因此,与光线追踪仿真的共谋相比,所提出的模型提供了一种简单而良好的估计。 原文摘要: Abstract A new analytical model of air-to-ground (A2G) channel between a low altitude unmanned aerial vehicle (UAV) and a mobile station is derived.

vitis安装图文教程:零基础入门FPGA开发环境配置

手把手带你完成 Vitis 安装:从零搭建 FPGA 开发环境 你是不是也曾在搜索“vitis安装”时,被一堆术语、版本号和报错信息搞得晕头转向?明明只是想开始学 FPGA,怎么第一步就卡在了环境配置上? 别急。这篇文章不玩虚的,也不甩文档链接。我会像一个老工程师坐在你旁边一样,一步步带你把 Vitis 装好、跑通、用起来。无论你是电子专业学生、转行嵌入式的新手,还是对硬件加速感兴趣的软件开发者,只要跟着走,2小时内你就能拥有一个完整可用的 FPGA + SoC 开发环境。 为什么是 Vitis?它到底解决了什么问题? 先说清楚一件事: Vitis 不是你传统印象里的 FPGA 工具 。 以前做 FPGA,得写 Verilog/VHDL,画电路图,综合布局布线……门槛高、周期长。而今天很多项目——比如图像识别、

从零构建智能图谱:Dify-Neo4j数据嵌入全流程详解

第一章:从零构建智能图谱:Dify-Neo4j数据嵌入全流程详解 在构建现代智能应用时,知识图谱与大语言模型的结合正成为关键驱动力。Dify 作为低代码驱动的 AI 应用开发平台,配合 Neo4j 图数据库的强大关系建模能力,可实现结构化知识的高效嵌入与语义查询。 环境准备与服务启动 首先确保本地已安装 Docker 和 Python 环境,并启动 Neo4j 实例: # 启动 Neo4j 容器,暴露 Bolt 和 HTTP 端口 docker run -d \ --name neo4j-graph \ -p 7687:7687 \ -p 7474:7474 \ -e NEO4J_AUTH=neo4j/password \ neo4j:5 启动后可通过 http:

基于FPGA的积分梳状CIC滤波器Verilog设计探秘

基于FPGA的积分梳状CIC滤波器Verilog设计探秘

基于FPGA的积分梳状CIC滤波器verilog设计 1.系统概述 这里设计的五级CIC滤波器。 那么其基本结构如上图所示,在降采样的左右都有五个延迟单元。 但是在CIC滤波的时候,会导致输出的位宽大大增加,但是如果单独对中间的处理信号进行截位,这会导致处理精度不够,从而影响整个系统的性能,所以,这里我们首先将输入的信号进行扩展。 由于我们输入的中频信号通过ADC是位宽为14,在下变频之后,通过截位处理,其输出的数据仍为14位,所以,我们将CIC滤波的输入为14位,但是考虑到处理中间的益处情况以及保证处理精度的需要,我们首先将输入位宽扩展为40位,从而保证了处理精度以及溢出的情况。 这里首先说明一下为什么使用的级别是5级。 从硬件资源角度考虑,CIC滤波器的级数太高,会导致最终输出的数据位宽很大,通过简单的验证,当CIC的级数大于5的时候,输出的位宽>50。 这显然会导致硬件资源的大量占用,如果CIC级数太小,比如1,2级。 这在其处理效果上没有任何意义,基本无法达到预计的效果,通过仿真分析,一般情况下,选择4级,5级比较合理,因此,这里我们选择5级的CIC滤波器。 2.系统仿真效果预