【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

【花雕学编程】Arduino BLDC 之使用6.5寸轮毂电机的智能动态跟随机器人底盘

基于Arduino与6.5寸轮毂电机的智能动态跟随机器人底盘,是一种将一体化高扭矩动力单元与实时感知决策系统深度融合的移动平台方案。该方案利用轮毂电机“轮内驱动”的紧凑特性,结合Arduino(或ESP32等兼容主控)的灵活控制能力,旨在实现对人、车或特定目标的平滑、抗扰、低延迟的伴随运动。 一、 主要特点 一体化高扭矩动力架构 直驱/准直驱结构:6.5寸轮毂电机将BLDC电机、行星减速器(常见速比1:10~1:30)、轮毂及轴承高度集成。省去了皮带、链条等中间传动环节,传动效率高(>85%),结构紧凑,底盘离地间隙低,重心稳。 大扭矩低速特性:得益于内置减速,轮毂电机在低转速下可输出极大扭矩(峰值可达8~25 N·m),能轻松驱动30~80kg级底盘,具备良好的爬坡(<5°)和越障(过坎)能力,且低速运行平稳无顿挫。

WIN11必备!QTTabBar中文优化版保姆级安装教程(含常见问题解决)

WIN11效率革命:深度定制你的资源管理器,不止于多标签 如果你和我一样,每天要在Windows的资源管理器里花费大量时间,那你一定对那种反复在层层文件夹中穿梭、找不到上一个窗口的体验深恶痛绝。系统自带的文件管理工具,就像一个功能简陋的毛坯房,勉强能用,但毫无效率与舒适度可言。尤其是升级到WIN11后,虽然界面更现代,但核心的文件管理逻辑依然停留在上个时代,对于追求效率的用户来说,这无疑是一种巨大的生产力损耗。 这篇文章,就是为那些不愿忍受现状,但又不想投入过多精力去学习复杂新软件的WIN10/WIN11用户准备的。我们不讨论那些需要彻底改变操作习惯的“重型”第三方管理器,而是聚焦于一种更优雅、更无感的解决方案:增强你正在使用的资源管理器本身。今天的主角,是一个经过国内开发者精心“魔改”的经典工具——QTTabBar的中文优化版。它就像给你的文件管理器做了一次精装修,保留了熟悉的格局,却赋予了它全新的、高效的能力。接下来,我将带你从零开始,完成这次效率升级,并深入探讨如何根据你的习惯,将它调校成最趁手的工具。 1. 为什么选择增强,而非替换? 在深入安装细节之前,我们有必要先

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

一、XILINX几种IP核区别         传统系列芯片 IP核名称核心特点用户接口开发难度适用场景7 Series Integrated Block for PCI Express最基础的PCIe硬核,提供物理层和数据链路层AXI4-Stream TLP包最高,需处理TLP包需深度定制PCIe通信,对资源敏感的项目AXI Memory Mapped To PCI Express桥接IP,将PCIe接口转换为AXI接口AXI4内存映射中等,类似操作总线FPGA需主动读写主机内存,平衡效率与灵活性DMA/Bridge Subsystem for PCI Express (XDMA)集成DMA引擎,提供"一站式"解决方案AXI4 (另有AXI-Lite等辅助接口)最低,官方提供驱动高速数据批量传输(如采集卡),追求开发效率         注意:         1.硬件平台限制:不同系列的Xilinx FPGA(如7系列、UltraScale、Versal)支持的PCIe代数和通道数可能不同。在选择IP核前,请务必确认您的FPGA型号是否支持所需的PCIe配置(

使用trae进行本地ai对话机器人的构建

使用trae进行本地ai对话机器人的构建

前言 在人工智能技术快速发展的今天,构建本地AI对话机器人已成为开发者和技术爱好者的热门选择。使用 trae可以高效地实现这一目标,确保数据隐私和响应速度。本文将详细介绍如何利用 Trae 搭建本地AI对话机器人,涵盖环境配置、模型加载、对话逻辑实现以及优化技巧,帮助读者从零开始构建一个功能完整的AI助手。 本地化AI对话机器人的优势在于完全离线运行,避免网络延迟和数据泄露风险,同时支持自定义训练模型以适应特定场景需求。无论是用于个人助理、客服系统,还是智能家居控制,Trae 都能提供灵活的解决方案。 获取api相关信息 打开蓝耘进行登录,如果你是新人的话需要进行注册操作,输入你相关的信息就能进行注册成功 在平台顶部导航栏可以看到Maas平台,点击进入模型广场 来到模型广场可以看到很多的ai模型,比如就有我们的kimi k2模型 点击进去可以看到kimi k2模型的相关信息,我们将模型的id进行复制,等会儿我们是要用到的 /maas/kimi/Kimi-K2-Instruct 并且这里还具有在线体验的功能,生成回答速度快 https://archive.