跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

DreamZero:世界动作模型作为零样本策略

综述由AI生成NVIDIA 提出的 DreamZero 机器人基础模型。针对现有视觉语言动作模型(VLAs)缺乏物理世界动态理解及泛化能力不足的问题,DreamZero 采用预训练视频扩散模型构建世界动作模型(WAM),联合预测未来视频帧与机器人动作。该方法利用视频预测作为视觉规划器指导动作生成,实现了零样本泛化。实验显示其在未见任务和环境中的表现比先进 VLAs 提升两倍以上,且仅需少量人类或机器人视频数据即可显著提升性能。

星河入梦发布于 2026/4/6更新于 2026/5/2231 浏览
DreamZero:世界动作模型作为零样本策略

基础信息

  • 题目: World Action Models are Zero-shot Policies
  • 时间: 2026.02
  • 机构: NVIDIA
  • 关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
  • 论文链接: Paper

核心摘要

本文提出了一种名为 DreamZero 的机器人基础模型,通过同时预测视频和动作(World Action Model),让机器人能像人类一样通过'脑补'画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法

架构设计

采用预训练的视频扩散模型作为骨干,构建了一个名为 World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

技术细节

  1. 输入输出: WAM 输入 video、action 以及 text,输出 action 和 video。
  2. KV Cache: 将历史 frames 送入 KV cache 操作,使用 GT frames 进行对比学习。Q 为 y 轴,x 轴是 KV(记忆),模型在看问题 Q 时可参考 KV 记忆。 DreamZero 架构示意图
  3. 模型参数: 基于 14B 参数的视频扩散模型 Wan2.1,增加了状态和动作编码器/解码器。
  4. 训练方式: 使用 Flow Matching 目标,联合去噪视频潜变量和动作潜变量。
  5. 推理优化: 提出了 DreamZero-Flash 技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

创新点

  • 范式转变: 不同于 VLAs 仅学习'看到什么做什么',WAMs 学习'动作如何改变世界'。
  • 数据效率: 证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
  • 跨具身迁移: 展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

实验与结论

  • 实验设置: 在 AgiBot G1(双臂移动 manipulator)和 Franka(单臂)机器人上进行预训练和评估。
  • 数据: 使用了约 500 小时的 AgiBot 异构数据,以及 DROID 数据集。
  • 评估方式: 在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
  • 结论: DreamZero 在零样本泛化上比最先进的 VLAs 提升了 2 倍以上;仅需 10-20 分钟的其他机器人或人类视频数据,性能相对提升超 42%。

同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

相关文献

  • Bjorck et al., 2025 (GR00T N1.6)
  • Physical Intelligence, 2025 (π₀.σ)
  • Team Wan, 2025 (Wan2.1-I2V-14B-480P)

目录

  1. 基础信息
  2. 核心摘要
  3. 研究痛点
  4. 核心方法
  5. 架构设计
  6. 技术细节
  7. 创新点
  8. 实验与结论
  9. 同类工作
  10. 相关文献
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 从 Office 到 ONLYOFFICE:开源办公套件评测与私有化部署
  • ClawdBot 镜像免配置:内置 Web UI 控制台,模型/通道/配置可视化
  • Komari 轻量级服务器监控探针部署指南
  • 基于腾讯元器智能体构建专属 AI 聊天工具
  • ES6 数组 some 与 every 方法用法
  • AI 产品经理的核心定义、能力模型与职业发展路径
  • 前端精确数字运算方案:使用 BigNumber.js 解决 JavaScript 精度问题
  • 为什么 AI 难以取代软件工程师?
  • OpenClaw 本地 AI 智能体入门与实战指南
  • LeetCode 热题 100 Python3 算法题解:哈希、双指针与滑动窗口
  • 机器人运动学:标准 DH 与改进 DH 参数对比
  • Formality 原语(primitive)概念详解
  • PHP 对接 DeepSeek API 实现指南
  • OpenClaw 对接飞书机器人配置踩坑:消息不回与 Gateway 断开排查
  • VSCode Copilot 配置 OpenAI 兼容自定义模型指南
  • VS Code 中 GitHub 扩展登录报错:尚未完成授权此扩展使用 GitHub 的操作
  • 为什么 AI 圈会有这么多带'Llama'的产品?
  • 主流无人机倾斜摄影三维建模服务商盘点
  • 基于 Open3D.Art 与拓竹打印机实现 AI 生成 3D 模型快速打印流程
  • VS Code 远程连接服务器后 GitHub Copilot 无法使用问题的解决方案

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online