【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

GitHub机器人故障处理:从403错误到权限重构

GitHub机器人故障处理:从403错误到权限重构 【免费下载链接】LightGBMmicrosoft/LightGBM: LightGBM 是微软开发的一款梯度提升机(Gradient Boosting Machine, GBM)框架,具有高效、分布式和并行化等特点,常用于机器学习领域的分类和回归任务,在数据科学竞赛和工业界有广泛应用。 项目地址: https://gitcode.com/GitHub_Trending/li/LightGBM 在开源项目协作中,自动化工具是提升管理效率的关键。LightGBM项目近期遭遇了"no-response"机器人功能异常,导致issue标签管理失效。本文将系统分析这一故障从发现到解决的全过程,揭示GitHub工作流权限管理的核心要点,为同类项目提供可复用的故障处理方案。 故障表现:标签管理失控的真实场景 用户反馈聚焦三大异常现象 项目维护者@guolinke首先注意到异常:在issue #4589中,用户@数据分析菜鸟已提供详细的日志信息,但"awaiting response"标签仍然存在。

企业级工作流引擎低代码开发实战指南:RuoYi-Flowable-Plus全攻略

企业级工作流引擎低代码开发实战指南:RuoYi-Flowable-Plus全攻略 【免费下载链接】RuoYi-Flowable-Plus本项目基于 RuoYi-Vue-Plus 进行二次开发扩展Flowable工作流功能,支持在线表单设计和丰富的工作流程设计能力。如果觉得这个项目不错,麻烦点个star🌟。 项目地址: https://gitcode.com/gh_mirrors/ru/RuoYi-Flowable-Plus RuoYi-Flowable-Plus是基于RuoYi-Vue-Plus二次开发的开源工作流框架,融合Flowable引擎与可视化流程设计能力,为企业级应用提供低代码工作流解决方案。本文将从项目定位、核心能力到部署实践,全方位解析这款框架的技术架构与应用场景,帮助开发者快速构建企业级工作流系统。 1. 项目定位:企业级工作流解决方案的技术选型 在数字化转型浪潮中,企业对流程自动化的需求日益迫切。RuoYi-Flowable-Plus定位为"开箱即用的企业级工作流引擎",基于成熟的Spring Boot生态与Flowable BPMN 2.0引擎,提供从流

[论文阅读] AI + 软件工程 | 告别意图丢失!基于算法的LLM代码翻译新范式来了

[论文阅读] AI + 软件工程 | 告别意图丢失!基于算法的LLM代码翻译新范式来了

告别意图丢失!基于算法的LLM代码翻译新范式来了 论文信息 原标题 Algorithm-Based Pipeline for Reliable and Intent-Preserving Code Translation with LLMs 主要作者及研究机构 Shahriar Rumi Dipto、Saikat Mondal、Chanchal K. Roy,均来自加拿大萨斯喀彻温大学(University of Saskatchewan, Canada) APA引文格式 Dipto, S. R., Mondal, S., & Roy, C. K. (2026). Algorithm-based pipeline for reliable and intent-preserving code translation with LLMs. In

用AI画笔重塑世界:stable-diffusion-webui艺术创作完全指南

用AI画笔重塑世界:stable-diffusion-webui艺术创作完全指南 【免费下载链接】stable-diffusion-webuiStable Diffusion web UI 项目地址: https://gitcode.com/GitHub_Trending/st/stable-diffusion-webui stable-diffusion-webui是一款强大的AI绘图工具,它让普通人也能通过文字描述轻松创作出生动的图像。本文将为你提供一份完整的stable-diffusion-webui艺术创作指南,帮助你快速上手这款AI绘图神器。 1. 认识stable-diffusion-webui stable-diffusion-webui是一个基于Stable Diffusion模型的Web界面工具,它提供了直观的操作界面,让用户可以通过简单的文字描述(提示词)来生成高质量的图像。无论是艺术创作、设计灵感获取,还是日常娱乐,stable-diffusion-webui都能满足你的需求。 图:stable-diffusion-webui的主界面,展示了文本生成图