跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

DreamZero: 世界动作模型即零样本策略

综述由AI生成DreamZero 提出一种名为 World Action Model (WAM) 的机器人基础模型,通过联合预测视频帧和机器人动作,使机器人具备类似人类的视觉规划能力。该方法利用预训练视频扩散模型骨干,结合状态与动作编码,解决了现有视觉语言动作模型(VLAs)缺乏物理世界动态理解及泛化能力不足的问题。实验表明,DreamZero 在零样本泛化上表现优异,相比最先进 VLAs 提升 2 倍以上,并能通过少量视频数据实现跨具身迁移,显著降低对新任务演示数据的依赖。

监控大屏发布于 2026/4/9更新于 2026/5/2325 浏览
DreamZero: 世界动作模型即零样本策略

概述

基本信息

题目:World Action Models are Zero-shot Policies 时间:2026.02 机构:NVIDIA 关键词:World Action Models (WAMs), Zero-shot Generalization, Video Diffusion Paper

通俗总结

本文提出了一种名为 DreamZero 的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过'脑补'画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法

采用预训练的视频扩散模型作为骨干,构建了一个名为 World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

核心内容

目标与创新

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统 VLAs 在物理交互泛化上的瓶颈。

相比前人创新点包括:

  • 范式转变:不同于 VLAs 仅学习'看到什么做什么',WAMs 学习'动作如何改变世界'。
  • 数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
  • 跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

工作原理

DreamZero 的工作原理类似于给机器人装了一个'内部模拟器'。当给定指令时,模型首先在内部'脑补'出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

具体实现

  • 模型架构:基于 14B 参数的视频扩散模型 Wan2.1,增加了状态和动作编码器/解码器。
  • 训练方式:使用 Flow Matching 目标,联合去噪视频潜变量和动作潜变量。
  • 推理优化:提出了 DreamZero-Flash 技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

实验与结论

  • 实验设置:在 AgiBot G1(双臂移动 manipulator)和 Franka(单臂)机器人上进行预训练和评估。
  • 数据:使用了约 500 小时的 AgiBot 异构数据,以及 DROID 数据集。
  • 评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
  • 结论:DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上;仅需 10-20 分钟的其他机器人或人类视频数据,性能相对提升超 42%。

相关文献

  • GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。
  • Bjorck et al., 2025 (GR00T N1.6)
  • Physical Intelligence, 2025 (π₀.σ)
  • Team Wan, 2025 (Wan2.1-I2V-14B-480P)

目录

  1. 概述
  2. 基本信息
  3. 通俗总结
  4. 研究痛点
  5. 核心方法
  6. 核心内容
  7. 目标与创新
  8. 工作原理
  9. 具体实现
  10. 实验与结论
  11. 相关文献
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Linux 环境下 C/C++ 编译流程与链接机制详解
  • PostgreSQL 无公网 IP 远程访问:基于 cpolar 内网穿透配置指南
  • 网络安全行业现状分析与科学学习路径指南
  • C++ 哈希表核心机制:unordered 系列容器、位图与布隆过滤器实战
  • Spring Web MVC 从入门到实战
  • C++ 哈希表底层实现:unordered_map/set、位图与布隆过滤器
  • OpenClaw 安全事件复盘:AI Agent 系统性风险分析
  • Spring Bean 作用域、生命周期与自动装配源码解析
  • OpenClaw 自动化与记忆系统实战
  • x64 与 ARM64 架构差异及下载选择指南
  • OpenClaw 自动化与定时任务实战指南
  • 下班后适合的低门槛副业推荐与避坑建议
  • 从零开始:如何使用 Python 训练 AI 模型
  • 基于 Chainlit 的 Phi-3 模型思维链可视化与 Token 统计插件开发
  • 实时口罩检测:修改 webui.py 适配自定义输入尺寸
  • 前缀和算法详解:一维与二维区间查询优化
  • AI 浪潮下数据库的融合进化:电科金仓 KES V9 2025 引领新范式
  • 金仓 SQL 防火墙的体系化安全实践
  • Python 常用数据结构:列表(List)基础用法与操作详解
  • Python 工具 uv 安装指南:解决 command not found 错误

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online