英伟达开源 DreamDojo：4.4 万小时视频数据破解机器人数据鸿沟

英伟达开源 DreamDojo 世界模型，通过 4.4 万小时人类视频数据集（DreamDojo-HV）训练，解决机器人数据短缺问题。核心创新包括连续潜在动作技术，将无标签视频转化为训练数据，实现零样本泛化。支持实时遥操作、策略评估及基于模型的规划，推理速度达 10.81 FPS。相比 1XWM 和 Genie 3，DreamDojo 采用全面开源策略，提供 2B 和 14B 双版本，旨在推动物理 AI 发展，降低研发门槛，加速通用机器人落地。

HadoopMan发布于 2026/4/5更新于 2026/5/2230 浏览

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

长期以来，'数据短缺 + 数据低效'是制约机器人行业发展的致命痛点——机器人想要掌握一项技能，需要海量真实场景下的动作数据进行训练，但真实数据的采集的成本极高、周期极长，且场景覆盖有限；与此同时，传统机器人数据集规模偏小、多样性不足，难以支撑通用型机器人的训练需求，形成了难以逾越的'数据鸿沟'。

更关键的是，多数企业陷入了'重指令、轻物理'的误区：大量布局视觉 - 语言 - 动作（VLA）模型，过度依赖文本推理驱动机器人动作，却忽略了直觉物理规律的核心价值。对此，AMI Labs 的扬·勒丘恩（Yann LeCun）曾公开批评，这类系统过于'沉迷大语言模型'，缺乏基本的物理常识，无法应对真实世界的复杂变化——比如无法预判物体掉落的轨迹，无法感知发力过大可能导致的损坏。

在这样的行业背景下，英伟达推出 DreamDojo，给出了一套颠覆性的解决方案：不依赖稀缺的真实机器人数据，而是通过学习人类日常活动视频，自主习得直觉物理规律，再通过生成式仿真，为机器人打造'虚拟训练梦境'，让机器人在'梦境'中完成规模化训练，彻底破解数据鸿沟难题，这一思路，与勒丘恩的物理 AI 理念高度契合。

二、核心突破：4.4 万小时超大规模数据集，重构世界模型训练范式

DreamDojo 的核心竞争力，首先体现在其背后的超大规模数据集——DreamDojo-HV（Human Videos，人类视频数据集），英伟达称其为'目前全球规模最大、多样性最高的世界模型预训练视频语料库'，其规模与多样性，远超当前行业主流的机器人数据集，彻底打破了传统训练数据的局限。

1．规模碾压：从数百小时到 4.4 万小时的跨越

传统机器人数据集（如 RT-1、BridgeData V2）的规模，往往停留在数百小时级别，难以支撑通用型世界模型的训练；而 DreamDojo-HV 的数据集规模，达到了惊人的44711 小时，涵盖 6015 项独特任务、113.5 万条动作轨迹，相当于一个人连续观看 5 年多的视频，数据覆盖广度堪称行业之最。

更值得关注的是，这些数据均为'第一视角体验'——模拟人类日常活动的主观视角，包括折叠衣物、组装物品、使用工具等各类场景，让模型能够以人类的视角，理解物理世界的交互逻辑，这与 1X Technologies 采用的'900 小时第一视角人类视频'策略异曲同工，均旨在通过人类行为，教会机器人'直觉物理'，而这种直觉，是单纯的电机指令回归无法实现的。

2．多样性领先：覆盖场景与技能远超同行

DreamDojo-HV 的另一大优势，在于其极高的多样性——相比当前最丰富的公开机器人学习数据集，它包含的技能数量提升了 96 倍，场景数量提升了 2000 倍，涵盖了人类日常生活、工业操作、家庭服务等各类场景，从简单的拾取物品，到复杂的工具使用、精细组装，几乎覆盖了机器人可能涉及的所有基础任务。

这种高度多样性，让 DreamDojo 能够习得'通用化的物理认知'——无需针对单一任务、单一场景进行专项训练，就能将学到的物理规律，迁移到不同形态的机器人身上，比如让宇树 Unitree G1 在虚拟环境中完成物体操控，再快速迁移到真实场景，大幅提升机器人的泛化能力，缩短训练周期。

3．核心逻辑：以人类行为为模板，习得直觉物理

DreamDojo 的训练逻辑非常清晰：通过学习人类日常活动的视频，让模型理解'动作与物理结果'的关联——比如折叠衣物时，如何发力才能让衣物平整；组装物品时，如何调整角度才能精准拼接；使用工具时，如何控制力度才能完成操作。这种学习方式，让模型能够自主习得物理规律，形成'直觉认知'，就像人类从小通过模仿和体验，掌握走路、吃饭等基本技能一样，无需人工手动编写物理规则。

三、技术创新：连续潜在动作，破解'无动作标签'视频训练难题

用人类视频训练机器人，存在一个核心难题：被动视频缺乏动作标签。一段人类拾取杯子的视频，只能看到'拾取'这个结果，却无法告诉机器人，每个关节需要施加多大的扭矩、每个动作需要调整多大的角度——就像只看到别人做饭的过程，却不知道每一步的火候和调料用量，无法复刻出同样的菜品。

为了破解这一难题，英伟达创新性地引入了'连续潜在动作'（continuous latent actions）技术，通过一套独特的模型架构，将'无标签视频'转化为'带动作指令的训练数据'，彻底打通了人类视频与机器人训练之间的鸿沟，这也是 DreamDojo 的核心技术创新点。

1．核心架构：7 亿参数时空 Transformer，提取代理动作

英伟达的研究团队，训练了一款参数规模达 7 亿的时空 Transformer 模型，其核心功能，是从视频帧之间的视觉变化中，提取出'语义上有意义的代理动作'——相当于为无标签视频，自动生成'动作指令'。比如，通过分析'拾取杯子'视频中，手的位置、角度、力度的视觉变化，提取出对应的关节动作、发力参数，让模型能够'看懂'视频中的动作逻辑。

这种代理动作，虽然不是机器人的真实电机指令，却能精准反映'动作与物理结果'的关联，让 DreamDojo 能够将任何人类视频，都当作'带动作标签的训练数据'来使用，大幅拓宽了训练数据的来源，同时降低了数据标注的成本——无需人工为每一段视频标注动作指令，只需输入原始视频，模型就能自主解析。

2．核心价值：零样本泛化，适配未知场景与物体

连续潜在动作技术的最大价值，在于实现了'零样本泛化'——DreamDojo 在训练过程中，即便没有见过某类物体、某类场景，也能凭借习得的物理直觉，完成相应的操作。比如，模型通过学习人类折叠衣物的视频，不仅能折叠训练中见过的衣物，还能零样本适配从未见过的衣物款式；通过学习人类使用工具的视频，能快速上手从未见过的工具，展现出极强的通用性。

英伟达开源 DreamDojo：4.4 万小时视频数据破解机器人数据鸿沟

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

英伟达开源 DreamDojo：4.4 万小时视频数据破解机器人数据鸿沟

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具