英伟达开源 DreamDojo：4.4 万小时数据破解机器人训练难题

英伟达开源 DreamDojo 世界模型旨在解决机器人训练中的数据鸿沟问题。该方案基于 4.4 万小时人类视频数据集，利用连续潜在动作技术从无标签视频中提取代理动作，实现零样本泛化。通过蒸馏流水线将推理速度提升至 10.81 FPS，支持实时遥操作、策略评估及基于模型的规划。相比封闭的世界模型竞品，DreamDojo 采取全面开源策略，提供 2B 和 14B 双版本模型，配合 Cosmos-Predict2.5 底层架构，推动物理 AI 发展。尽管面临仿真到真实迁移的挑战，其开源生态有望加速通用型机器人的规模化商用进程。

孤勇者发布于 2026/3/24更新于 2026/7/2137 浏览

行业背景：数据鸿沟与物理常识的缺失

长期以来，"数据短缺 + 数据低效"是制约机器人行业发展的核心痛点。机器人掌握一项技能需要海量真实场景下的动作数据，但真实数据采集成本极高、周期长且场景覆盖有限。传统机器人数据集规模偏小、多样性不足，难以支撑通用型机器人的训练需求。

更关键的是，多数企业陷入了"重指令、轻物理"的误区。大量布局视觉 - 语言 - 动作（VLA）模型时，过度依赖文本推理驱动机器人动作，却忽略了直觉物理规律的核心价值。正如 Yann LeCun 所指出的，这类系统过于依赖大语言模型，缺乏基本的物理常识，无法应对真实世界的复杂变化，比如无法预判物体掉落轨迹或感知发力过大导致的损坏。

在此背景下，英伟达推出 DreamDojo，提供了一套颠覆性的解决方案：不依赖稀缺的真实机器人数据，而是通过学习人类日常活动视频，自主习得直觉物理规律，再通过生成式仿真为机器人打造"虚拟训练梦境"。这一思路与物理 AI 理念高度契合。

数据集规模：重构世界模型训练范式

DreamDojo 的核心竞争力首先体现在其背后的超大规模数据集——DreamDojo-HV（Human Videos）。英伟达称其为目前全球规模最大、多样性最高的世界模型预训练视频语料库。

规模优势

传统机器人数据集（如 RT-1、BridgeData V2）往往停留在数百小时级别，而 DreamDojo-HV 的数据集规模达到了惊人的 44711 小时，涵盖 6015 项独特任务、113.5 万条动作轨迹。这些数据均为"第一视角体验"，模拟人类日常活动的主观视角，包括折叠衣物、组装物品、使用工具等场景，让模型能够以人类的视角理解物理世界的交互逻辑。

多样性领先

相比当前最丰富的公开机器人学习数据集，DreamDojo-HV 包含的技能数量提升了 96 倍，场景数量提升了 2000 倍，涵盖了人类日常生活、工业操作、家庭服务等各类场景。这种高度多样性让 DreamDojo 能够习得"通用化的物理认知"，无需针对单一任务进行专项训练，就能将学到的物理规律迁移到不同形态的机器人身上，大幅提升泛化能力。

核心逻辑

DreamDojo 的训练逻辑清晰：通过学习人类日常活动的视频，让模型理解"动作与物理结果"的关联。比如折叠衣物时如何发力才能让衣物平整，组装物品时如何调整角度才能精准拼接。这种学习方式让模型能够自主习得物理规律，形成"直觉认知"，无需人工手动编写物理规则。

技术创新：连续潜在动作

用人类视频训练机器人存在一个核心难题：被动视频缺乏动作标签。一段人类拾取杯子的视频，只能看到"拾取"这个结果，却无法告诉机器人每个关节需要施加多大的扭矩。

为了破解这一难题，英伟达创新性地引入了"连续潜在动作"（continuous latent actions）技术，通过一套独特的模型架构，将"无标签视频"转化为"带动作指令的训练数据"。

核心架构

研究团队训练了一款参数规模达 7 亿的时空 Transformer 模型，其核心功能是从视频帧之间的视觉变化中，提取出"语义上有意义的代理动作"。通过分析"拾取杯子"视频中手的位置、角度、力度的视觉变化，提取出对应的关节动作、发力参数，让模型能够"看懂"视频中的动作逻辑。

这种代理动作虽然不是机器人的真实电机指令，却能精准反映"动作与物理结果"的关联，大幅拓宽了训练数据的来源，同时降低了数据标注的成本。

零样本泛化

连续潜在动作技术的最大价值在于实现了"零样本泛化"。DreamDojo 在训练过程中，即便没有见过某类物体、某类场景，也能凭借习得的物理直觉完成相应的操作。比如模型通过学习人类折叠衣物的视频，不仅能折叠训练中见过的衣物，还能零样本适配从未见过的衣物款式。这一能力彻底打破了传统机器人"训练即局限"的困境。

落地应用：实时控制与规划

世界模型的实用价值往往受限于推理速度。为了解锁下游应用场景，英伟达专门研发了一套蒸馏流水线，将 DreamDojo 的推理速度提升至10.81 FPS，实现了实时控制。

实时遥操作

用户可以连接 VR 控制器（如 PICO 头显），实时遥操作"梦境"中的虚拟机器人。操作人员佩戴 VR 设备做出的每一个动作，DreamDojo 都能实时捕捉并映射到虚拟机器人身上。这不仅可用于机器人的训练，通过人类的实时操控为模型提供高质量的动作数据；还可用于虚拟调试，在真实机器人未部署前测试动作逻辑，降低真实部署的风险和成本。

策略评估

DreamDojo 的一大核心优势在于其极高的仿真真实性。在 DreamDojo 中模拟的动作成功率，与真实世界的结果呈现出近乎完美的线性相关性，皮尔逊相关系数（Pearson r）达到了0.995。这一特性让开发者无需将机器人部署到真实场景，就能快速评估机器人的策略效果，大幅缩短研发周期。

基于模型的规划

DreamDojo 还具备"梦境规划"能力，能够并行模拟多个动作方案，预判每个方案的未来结果，再筛选出最优方案执行。测试数据显示，在水果包装任务中，借助这种规划能力，机器人的任务成功率提升了 17%，尤其适合复杂、精细的工业操作场景。

英伟达开源 DreamDojo：4.4 万小时数据破解机器人训练难题

行业背景：数据鸿沟与物理常识的缺失

数据集规模：重构世界模型训练范式