英伟达开源 DreamDojo：4.4 万小时“梦境”破解机器人数据鸿沟

英伟达开源 DreamDojo 世界模型，基于 44711 小时人类视频数据集，通过连续潜在动作技术将无标签视频转化为训练数据。该模型具备实时遥操作、策略评估及基于模型的规划能力，仿真与真实相关性达 0.995。相比 1XWM 和 Genie 3，DreamDojo 采取全面开源策略，提供 2B 和 14B 双版本，旨在通过直觉物理认知破解机器人数据鸿沟，推动物理 AI 规模化发展。

松间照月发布于 2026/4/6更新于 2026/5/2116 浏览

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

长期以来，'数据短缺 + 数据低效'是制约机器人行业发展的致命痛点——机器人想要掌握一项技能，需要海量真实场景下的动作数据进行训练，但真实数据的采集成本极高、周期极长，且场景覆盖有限；与此同时，传统机器人数据集规模偏小、多样性不足，难以支撑通用型机器人的训练需求，形成了难以逾越的'数据鸿沟'。

更关键的是，多数企业陷入了'重指令、轻物理'的误区：大量布局视觉 - 语言 - 动作（VLA）模型，过度依赖文本推理驱动机器人动作，却忽略了直觉物理规律的核心价值。对此，AMI Labs 的扬·勒丘恩（Yann LeCun）曾公开批评，这类系统过于'沉迷大语言模型'，缺乏基本的物理常识，无法应对真实世界的复杂变化——比如无法预判物体掉落的轨迹，无法感知发力过大可能导致的损坏。

在这样的行业背景下，英伟达推出 DreamDojo，给出了一套颠覆性的解决方案：不依赖稀缺的真实机器人数据，而是通过学习人类日常活动视频，自主习得直觉物理规律，再通过生成式仿真，为机器人打造'虚拟训练梦境'，让机器人在'梦境'中完成规模化训练，彻底破解数据鸿沟难题，这一思路，与勒丘恩的物理 AI 理念高度契合。

二、核心突破：4.4 万小时超大规模数据集，重构世界模型训练范式

DreamDojo 的核心竞争力，首先体现在其背后的超大规模数据集——DreamDojo-HV（Human Videos，人类视频数据集），英伟达称其为'目前全球规模最大、多样性最高的世界模型预训练视频语料库'，其规模与多样性，远超当前行业主流的机器人数据集，彻底打破了传统训练数据的局限。

1. 规模碾压：从数百小时到 4.4 万小时的跨越

传统机器人数据集（如 RT-1、BridgeData V2）的规模，往往停留在数百小时级别，难以支撑通用型世界模型的训练；而 DreamDojo-HV 的数据集规模，达到了惊人的44711 小时，涵盖 6015 项独特任务、113.5 万条动作轨迹，相当于一个人连续观看 5 年多的视频，数据覆盖广度堪称行业之最。

更值得关注的是，这些数据均为'第一视角体验'——模拟人类日常活动的主观视角，包括折叠衣物、组装物品、使用工具等各类场景，让模型能够以人类的视角，理解物理世界的交互逻辑，这与 1X Technologies 采用的'900 小时第一视角人类视频'策略异曲同工，均旨在通过人类行为，教会机器人'直觉物理'，而这种直觉，是单纯的电机指令回归无法实现的。

2. 多样性领先：覆盖场景与技能远超同行

DreamDojo-HV 的另一大优势，在于其极高的多样性——相比当前最丰富的公开机器人学习数据集，它包含的技能数量提升了 96 倍，场景数量提升了 2000 倍，涵盖了人类日常生活、工业操作、家庭服务等各类场景，从简单的拾取物品，到复杂的工具使用、精细组装，几乎覆盖了机器人可能涉及的所有基础任务。

这种高度多样性，让 DreamDojo 能够习得'通用化的物理认知'——无需针对单一任务、单一场景进行专项训练，就能将学到的物理规律，迁移到不同形态的机器人身上，比如让宇树 Unitree G1 在虚拟环境中完成物体操控，再快速迁移到真实场景，大幅提升机器人的泛化能力，缩短训练周期。

3. 核心逻辑：以人类行为为模板，习得直觉物理

DreamDojo 的训练逻辑非常清晰：通过学习人类日常活动的视频，让模型理解'动作与物理结果'的关联——比如折叠衣物时，如何发力才能让衣物平整；组装物品时，如何调整角度才能精准拼接；使用工具时，如何控制力度才能完成操作。这种学习方式，让模型能够自主习得物理规律，形成'直觉认知'，就像人类从小通过模仿和体验，掌握走路、吃饭等基本技能一样，无需人工手动编写物理规则。

三、技术创新：连续潜在动作，破解'无动作标签'视频训练难题

用人类视频训练机器人，存在一个核心难题：被动视频缺乏动作标签。一段人类拾取杯子的视频，只能看到'拾取'这个结果，却无法告诉机器人，每个关节需要施加多大的扭矩、每个动作需要调整多大的角度——就像只看到别人做饭的过程，却不知道每一步的火候和调料用量，无法复刻出同样的菜品。

为了破解这一难题，英伟达创新性地引入了'连续潜在动作'（continuous latent actions）技术，通过一套独特的模型架构，将'无标签视频'转化为'带动作指令的训练数据'，彻底打通了人类视频与机器人训练之间的鸿沟，这也是 DreamDojo 的核心技术创新点。

1. 核心架构：7 亿参数时空 Transformer，提取代理动作

英伟达的研究团队，训练了一款参数规模达 7 亿的时空 Transformer 模型，其核心功能，是从视频帧之间的视觉变化中，提取出'语义上有意义的代理动作'——相当于为无标签视频，自动生成'动作指令'。比如，通过分析'拾取杯子'视频中，手的位置、角度、力度的视觉变化，提取出对应的关节动作、发力参数，让模型能够'看懂'视频中的动作逻辑。

这种代理动作，虽然不是机器人的真实电机指令，却能精准反映'动作与物理结果'的关联，让 DreamDojo 能够将任何人类视频，都当作'带动作标签的训练数据'来使用，大幅拓宽了训练数据的来源，同时降低了数据标注的成本——无需人工为每一段视频标注动作指令，只需输入原始视频，模型就能自主解析。

2. 核心价值：零样本泛化，适配未知场景与物体

连续潜在动作技术的最大价值，在于实现了'零样本泛化'——DreamDojo 在训练过程中，即便没有见过某类物体、某类场景，也能凭借习得的物理直觉，完成相应的操作。比如，模型通过学习人类折叠衣物的视频，不仅能折叠训练中见过的衣物，还能零样本适配从未见过的衣物款式；通过学习人类使用工具的视频，能快速上手从未见过的工具，展现出极强的通用性。

这一能力，彻底打破了传统机器人'训练即局限'的困境，让机器人能够快速适配真实世界的复杂变化——毕竟真实世界中，机器人遇到的物体、场景，大多是训练中从未见过的，而这种零样本泛化能力，正是通用型机器人的核心需求。

四、落地优势：实时控制 + 梦境规划，解锁多场景应用价值

世界模型的实用价值，往往受限于推理速度——如果模型的推理速度过慢，无法实时响应，即便具备强大的仿真能力，也难以落地到实际应用中。为了解锁下游应用场景，英伟达专门研发了一套蒸馏流水线，将 DreamDojo 的推理速度提升至10.81 FPS，实现了实时控制，进而解锁了三大高价值应用场景，让'梦境训练'真正转化为实际价值。

1. 实时遥操作：VR 操控虚拟机器人，实现'人机合一'

用户可以连接 VR 控制器（如 PICO 头显），实时遥操作'梦境'中的虚拟机器人——操作人员佩戴 VR 设备做出的每一个动作，无论是拾取、组装，还是移动、调整姿态，DreamDojo 都能实时捕捉，并映射到虚拟机器人身上，实现'人机合一'的流畅操控。

这种实时遥操作，不仅可以用于机器人的训练——通过人类的实时操控，为模型提供高质量的动作数据；还可以用于虚拟调试——在真实机器人未部署前，通过虚拟遥操作，测试机器人的动作逻辑，提前发现问题，降低真实部署的风险和成本。

2. 策略评估：仿真与真实高度契合，无需物理部署

DreamDojo 的一大核心优势，在于其极高的仿真真实性——在 DreamDojo 中模拟的动作成功率，与真实世界的结果，呈现出近乎完美的线性相关性，皮尔逊相关系数（Pearson r）达到了0.995，相当于'梦境中能成功的动作，真实世界中也能成功'。

这一特性，让开发者无需将机器人部署到真实场景，就能快速评估机器人的策略效果——通过在 DreamDojo 中测试不同的动作策略，根据成功率排名，筛选出最优策略，再应用到真实机器人上，大幅缩短了机器人的研发周期，降低了研发成本，尤其适合工业场景中，高成本、高风险的机器人部署。

3. 基于模型的规划：预判未来动作，提升任务成功率

DreamDojo 还具备'梦境规划'能力——能够并行模拟多个动作方案，预判每个方案的未来结果，再筛选出最优方案执行。英伟达的测试数据显示，在水果包装任务中，借助这种规划能力，机器人的任务成功率提升了 17%，尤其适合复杂、精细的工业操作场景。

比如，在水果包装过程中，机器人需要根据水果的大小、形状，调整抓取力度和包装角度，DreamDojo 可以提前模拟多种抓取、包装方案，预判每种方案的效果，选择最稳妥、最高效的方案执行，避免因动作失误导致水果损坏，提升生产效率。

五、赛道博弈：开源差异化，角逐世界模型核心赛道

DreamDojo 的开源发布，正值世界模型赛道的激烈博弈——2026 年以来，1X Technologies 推出 1XWM、谷歌 DeepMind 发布 Genie 3，各大企业纷纷布局世界模型，争夺物理 AI 的核心话语权。而英伟达的差异化优势，不仅在于超大规模数据集和核心技术创新，更在于其'全面开源'的战略，彻底区别于同行的封闭布局。

1. 与 1XWM、Genie 3 的核心差异：开源 vs 封闭，规模 vs 场景

当前世界模型赛道的三大核心玩家，路线差异极为鲜明，形成了三足鼎立的竞争格局：

**谷歌 DeepMind Genie 3：**聚焦'生成式仿真场景'，能够根据简单指令，生成多样化的虚拟场景，为机器人提供海量训练环境，但采用封闭策略，未开源模型和数据，且更侧重场景生成，在动作控制的精准度上，与 DreamDojo 存在差距；
**1X Technologies 1XWM：**采用'900 小时第一视角人类视频'，聚焦'直觉物理'的习得，侧重将虚拟训练成果迁移到真实机器人，但数据集规模远小于 DreamDojo，且同样采用封闭布局，仅服务于自身机器人研发；
**英伟达 DreamDojo：**兼顾'超大规模数据集 + 核心技术 + 全面开源'，数据集规模和多样性碾压同行，且通过连续潜在动作技术，实现了动作控制的精准度，同时开源模型权重、代码和数据集，邀请全球开发者参与迭代，打造开放生态，适配所有形态的机器人，通用性更强。

2. 理念契合：与勒丘恩并肩，坚守物理 AI 核心

在行业理念上，DreamDojo 与扬·勒丘恩（Yann LeCun）的物理 AI 理念高度契合——均反对'过度依赖大语言模型'，主张优先发展'视觉想象 + 直觉物理'，让机器人通过理解物理世界，自主做出决策，而非单纯依靠文本指令。

DreamDojo 基于开源权重的 Cosmos-Predict2.5 潜在视频扩散模型构建而成，这款底层模型本身就具备强大的视觉生成和物理仿真能力，能够生成符合物理定律的合成数据，与勒丘恩倡导的'世界模型应具备直觉物理认知'的理念完全一致，也让 DreamDojo 成为英伟达布局下一代物理 AI 的核心基础平台。

3. 模型规格：双版本适配，海量算力支撑

为了适配不同的研发需求，英伟达同步发布了 DreamDojo 的两个版本，均采用 256 块 NVIDIA H100 GPU 进行预训练，兼顾性能与灵活性：

**2B 参数版本：**轻量化设计，适配普通研发设备，适合中小开发者、初创企业，用于基础的仿真训练和技术验证；
**14B 参数版本：**高性能版本，具备更强的物理认知和泛化能力，适配大型企业、科研机构，用于复杂场景的仿真训练和高端机器人研发。

六、行业对比与未来展望：开源生态，推动物理 AI 进入规模化时代

DreamDojo 的开源发布，不仅是英伟达物理 AI 战略的重要里程碑，更标志着世界模型赛道，从'封闭研发'进入'开源协同'的新时代。英伟达通过开放模型、代码和数据集，降低了世界模型的研发门槛，吸引全球开发者参与迭代，有望彻底破解机器人数据鸿沟，推动通用型机器人加速落地。

潜在挑战：两大考验，决定开源生态成色

挑战一：仿真与真实的终极适配。尽管 DreamDojo 的仿真成功率与真实世界的相关性达到 0.995，但在极端复杂场景（如恶劣环境、高精度工业操作）中，能否持续保持这种高度契合，实现'零误差迁移'，仍需长期验证；

挑战二：开源生态的运营与标准化。开源只是第一步，如何吸引全球开发者积极参与二次开发、场景适配，如何制定统一的技术规范，避免生态碎片化，同时保护开源成果，推动技术迭代，是英伟达面临的核心考验。

未来展望：梦境训练，重构机器人研发范式

短期来看，英伟达将聚焦两大核心任务：一是持续优化 DreamDojo 的性能，提升推理速度和仿真真实性，完善 2B 和 14B 两个版本的功能，补充更多复杂场景的数据集；二是运营开源生态，收集开发者反馈，逐步开放更多训练工具，深化与 Cosmos-Predict2.5 模型的集成，推动技术快速迭代。

中期来看，DreamDojo 将与英伟达此前开源的 SONIC 全身追踪技术深度融合，形成'梦境训练 + 实时控制'的完整闭环——DreamDojo 为机器人提供虚拟训练场景，让机器人在'梦境'中完成规模化训练；SONIC 作为运动控制大脑，将虚拟训练的成果，实时映射到真实机器人身上，大幅缩短机器人的研发与落地周期，同时适配更多形态的机器人，推动技术在工业、家庭服务等场景的试点应用。

长期来看，DreamDojo 的开源与普及，将彻底重构机器人的研发范式——未来，机器人无需依赖海量真实数据采集，只需在 DreamDojo 的'梦境'中，通过学习人类视频、模拟各类场景，就能快速掌握各项技能，具备通用化的物理认知。同时，英伟达通过构建开放的物理 AI 生态，将进一步巩固其在算力、模型领域的领先地位，推动整个人形机器人行业，从'实验室原型'向'规模化商用'加速跨越，让能够'思考、想象'的通用型机器人，真正走进我们的生活和工作。

从 4.4 万小时的人类视频，到开源的'梦境训练平台'，DreamDojo 的发布，不仅破解了机器人数据鸿沟的核心难题，也为物理 AI 的发展指明了方向。未来，随着开源生态的不断完善，以及技术的持续迭代，'梦境训练'将成为机器人研发的标配，通用型机器人的落地速度，也将迎来质的飞跃。

英伟达开源 DreamDojo：4.4 万小时“梦境”破解机器人数据鸿沟

松间照月发布于 2026/4/6更新于 2026/5/2116 浏览

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

二、核心突破：4.4 万小时超大规模数据集，重构世界模型训练范式

1. 规模碾压：从数百小时到 4.4 万小时的跨越

2. 多样性领先：覆盖场景与技能远超同行

3. 核心逻辑：以人类行为为模板，习得直觉物理

三、技术创新：连续潜在动作，破解'无动作标签'视频训练难题

1. 核心架构：7 亿参数时空 Transformer，提取代理动作

2. 核心价值：零样本泛化，适配未知场景与物体

四、落地优势：实时控制 + 梦境规划，解锁多场景应用价值

1. 实时遥操作：VR 操控虚拟机器人，实现'人机合一'

2. 策略评估：仿真与真实高度契合，无需物理部署

3. 基于模型的规划：预判未来动作，提升任务成功率

五、赛道博弈：开源差异化，角逐世界模型核心赛道

1. 与 1XWM、Genie 3 的核心差异：开源 vs 封闭，规模 vs 场景

当前世界模型赛道的三大核心玩家，路线差异极为鲜明，形成了三足鼎立的竞争格局：

**谷歌 DeepMind Genie 3：**聚焦'生成式仿真场景'，能够根据简单指令，生成多样化的虚拟场景，为机器人提供海量训练环境，但采用封闭策略，未开源模型和数据，且更侧重场景生成，在动作控制的精准度上，与 DreamDojo 存在差距；
**1X Technologies 1XWM：**采用'900 小时第一视角人类视频'，聚焦'直觉物理'的习得，侧重将虚拟训练成果迁移到真实机器人，但数据集规模远小于 DreamDojo，且同样采用封闭布局，仅服务于自身机器人研发；
**英伟达 DreamDojo：**兼顾'超大规模数据集 + 核心技术 + 全面开源'，数据集规模和多样性碾压同行，且通过连续潜在动作技术，实现了动作控制的精准度，同时开源模型权重、代码和数据集，邀请全球开发者参与迭代，打造开放生态，适配所有形态的机器人，通用性更强。

2. 理念契合：与勒丘恩并肩，坚守物理 AI 核心

3. 模型规格：双版本适配，海量算力支撑

为了适配不同的研发需求，英伟达同步发布了 DreamDojo 的两个版本，均采用 256 块 NVIDIA H100 GPU 进行预训练，兼顾性能与灵活性：

**2B 参数版本：**轻量化设计，适配普通研发设备，适合中小开发者、初创企业，用于基础的仿真训练和技术验证；
**14B 参数版本：**高性能版本，具备更强的物理认知和泛化能力，适配大型企业、科研机构，用于复杂场景的仿真训练和高端机器人研发。

英伟达开源 DreamDojo：4.4 万小时“梦境”破解机器人数据鸿沟

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

二、核心突破：4.4 万小时超大规模数据集，重构世界模型训练范式

1. 规模碾压：从数百小时到 4.4 万小时的跨越

2. 多样性领先：覆盖场景与技能远超同行

3. 核心逻辑：以人类行为为模板，习得直觉物理

三、技术创新：连续潜在动作，破解'无动作标签'视频训练难题

1. 核心架构：7 亿参数时空 Transformer，提取代理动作

2. 核心价值：零样本泛化，适配未知场景与物体

四、落地优势：实时控制 + 梦境规划，解锁多场景应用价值

1. 实时遥操作：VR 操控虚拟机器人，实现'人机合一'

2. 策略评估：仿真与真实高度契合，无需物理部署

3. 基于模型的规划：预判未来动作，提升任务成功率

五、赛道博弈：开源差异化，角逐世界模型核心赛道

1. 与 1XWM、Genie 3 的核心差异：开源 vs 封闭，规模 vs 场景

2. 理念契合：与勒丘恩并肩，坚守物理 AI 核心

3. 模型规格：双版本适配，海量算力支撑

六、行业对比与未来展望：开源生态，推动物理 AI 进入规模化时代

潜在挑战：两大考验，决定开源生态成色

未来展望：梦境训练，重构机器人研发范式

英伟达开源 DreamDojo：4.4 万小时“梦境”破解机器人数据鸿沟

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

二、核心突破：4.4 万小时超大规模数据集，重构世界模型训练范式

1. 规模碾压：从数百小时到 4.4 万小时的跨越

2. 多样性领先：覆盖场景与技能远超同行

3. 核心逻辑：以人类行为为模板，习得直觉物理

三、技术创新：连续潜在动作，破解'无动作标签'视频训练难题

1. 核心架构：7 亿参数时空 Transformer，提取代理动作

2. 核心价值：零样本泛化，适配未知场景与物体

四、落地优势：实时控制 + 梦境规划，解锁多场景应用价值

1. 实时遥操作：VR 操控虚拟机器人，实现'人机合一'

2. 策略评估：仿真与真实高度契合，无需物理部署

3. 基于模型的规划：预判未来动作，提升任务成功率

五、赛道博弈：开源差异化，角逐世界模型核心赛道

1. 与 1XWM、Genie 3 的核心差异：开源 vs 封闭，规模 vs 场景

2. 理念契合：与勒丘恩并肩，坚守物理 AI 核心

3. 模型规格：双版本适配，海量算力支撑

六、行业对比与未来展望：开源生态，推动物理 AI 进入规模化时代

潜在挑战：两大考验，决定开源生态成色

未来展望：梦境训练，重构机器人研发范式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具