行业背景:数据鸿沟与物理常识的缺失
长期以来,"数据短缺 + 数据低效"是制约机器人行业发展的核心痛点。机器人掌握一项技能需要海量真实场景下的动作数据,但真实数据采集成本极高、周期长且场景覆盖有限。传统机器人数据集规模偏小、多样性不足,难以支撑通用型机器人的训练需求。
更关键的是,多数企业陷入了"重指令、轻物理"的误区。大量布局视觉 - 语言 - 动作(VLA)模型时,过度依赖文本推理驱动机器人动作,却忽略了直觉物理规律的核心价值。正如 Yann LeCun 所指出的,这类系统过于依赖大语言模型,缺乏基本的物理常识,无法应对真实世界的复杂变化,比如无法预判物体掉落轨迹或感知发力过大导致的损坏。
在此背景下,英伟达推出 DreamDojo,提供了一套颠覆性的解决方案:不依赖稀缺的真实机器人数据,而是通过学习人类日常活动视频,自主习得直觉物理规律,再通过生成式仿真为机器人打造"虚拟训练梦境"。这一思路与物理 AI 理念高度契合。
数据集规模:重构世界模型训练范式
DreamDojo 的核心竞争力首先体现在其背后的超大规模数据集——DreamDojo-HV(Human Videos)。英伟达称其为目前全球规模最大、多样性最高的世界模型预训练视频语料库。
规模优势
传统机器人数据集(如 RT-1、BridgeData V2)往往停留在数百小时级别,而 DreamDojo-HV 的数据集规模达到了惊人的 44711 小时,涵盖 6015 项独特任务、113.5 万条动作轨迹。这些数据均为"第一视角体验",模拟人类日常活动的主观视角,包括折叠衣物、组装物品、使用工具等场景,让模型能够以人类的视角理解物理世界的交互逻辑。
多样性领先
相比当前最丰富的公开机器人学习数据集,DreamDojo-HV 包含的技能数量提升了 96 倍,场景数量提升了 2000 倍,涵盖了人类日常生活、工业操作、家庭服务等各类场景。这种高度多样性让 DreamDojo 能够习得"通用化的物理认知",无需针对单一任务进行专项训练,就能将学到的物理规律迁移到不同形态的机器人身上,大幅提升泛化能力。
核心逻辑
DreamDojo 的训练逻辑清晰:通过学习人类日常活动的视频,让模型理解"动作与物理结果"的关联。比如折叠衣物时如何发力才能让衣物平整,组装物品时如何调整角度才能精准拼接。这种学习方式让模型能够自主习得物理规律,形成"直觉认知",无需人工手动编写物理规则。
技术创新:连续潜在动作
用人类视频训练机器人存在一个核心难题:被动视频缺乏动作标签。一段人类拾取杯子的视频,只能看到"拾取"这个结果,却无法告诉机器人每个关节需要施加多大的扭矩。
为了破解这一难题,英伟达创新性地引入了"连续潜在动作"(continuous latent actions)技术,通过一套独特的模型架构,将"无标签视频"转化为"带动作指令的训练数据"。
核心架构
研究团队训练了一款参数规模达 7 亿的时空 Transformer 模型,其核心功能是从视频帧之间的视觉变化中,提取出"语义上有意义的代理动作"。通过分析"拾取杯子"视频中手的位置、角度、力度的视觉变化,提取出对应的关节动作、发力参数,让模型能够"看懂"视频中的动作逻辑。
这种代理动作虽然不是机器人的真实电机指令,却能精准反映"动作与物理结果"的关联,大幅拓宽了训练数据的来源,同时降低了数据标注的成本。
零样本泛化
连续潜在动作技术的最大价值在于实现了"零样本泛化"。DreamDojo 在训练过程中,即便没有见过某类物体、某类场景,也能凭借习得的物理直觉完成相应的操作。比如模型通过学习人类折叠衣物的视频,不仅能折叠训练中见过的衣物,还能零样本适配从未见过的衣物款式。这一能力彻底打破了传统机器人"训练即局限"的困境。
落地应用:实时控制与规划
世界模型的实用价值往往受限于推理速度。为了解锁下游应用场景,英伟达专门研发了一套蒸馏流水线,将 DreamDojo 的推理速度提升至10.81 FPS,实现了实时控制。
实时遥操作
用户可以连接 VR 控制器(如 PICO 头显),实时遥操作"梦境"中的虚拟机器人。操作人员佩戴 VR 设备做出的每一个动作,DreamDojo 都能实时捕捉并映射到虚拟机器人身上。这不仅可用于机器人的训练,通过人类的实时操控为模型提供高质量的动作数据;还可用于虚拟调试,在真实机器人未部署前测试动作逻辑,降低真实部署的风险和成本。
策略评估
DreamDojo 的一大核心优势在于其极高的仿真真实性。在 DreamDojo 中模拟的动作成功率,与真实世界的结果呈现出近乎完美的线性相关性,皮尔逊相关系数(Pearson r)达到了0.995。这一特性让开发者无需将机器人部署到真实场景,就能快速评估机器人的策略效果,大幅缩短研发周期。
基于模型的规划
DreamDojo 还具备"梦境规划"能力,能够并行模拟多个动作方案,预判每个方案的未来结果,再筛选出最优方案执行。测试数据显示,在水果包装任务中,借助这种规划能力,机器人的任务成功率提升了 17%,尤其适合复杂、精细的工业操作场景。


