这项由英伟达公司领导、联合香港科技大学、加州大学伯克利分校、华盛顿大学、斯坦福大学、韩国科学技术院、多伦多大学、加州大学圣地亚哥分校、德克萨斯大学奥斯汀分校等多家顶尖机构的研究于 2026 年 2 月发表,研究成果以 DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos 为题发布,完整论文见 arXiv:2602.06949v1。
当你看着一个婴儿学会拿积木、堆叠玩具时,你是否想过这个过程有多神奇?婴儿通过观察成年人的动作,就能逐渐掌握精细的手部动作。如今,英伟达的研究团队实现了类似的突破——他们让机器人通过观看人类的日常视频,学会了复杂的操作技能。
现有的机器人就像是在温室里长大的孩子,只能在特定环境下完成特定任务。一旦遇到没见过的物体或新的环境,它们就会变得手足无措。这就好比一个只会在自己家厨房做菜的人,到了朋友家就不知道怎么下手了。造成这种局限的根本原因是训练数据太少太单一——就像是只给孩子看了几本相同的图画书,却期望他们理解整个世界。
英伟达团队的解决方案就像是给机器人提供了一个包含 44 万小时内容的人生经历图书馆。他们收集了大量人类日常活动的第一人称视频,从厨房做饭到办公室整理文件,从修理电器到艺术创作,几乎涵盖了人类生活的方方面面。这些视频记录了人们如何与各种物体互动,如何解决实际问题,如何完成复杂任务。
但是观看视频学习并不简单。传统方法就像是让学生只看电影却不准做笔记一样——虽然看到了动作,但不知道为什么要这样做。研究团队巧妙地解决了这个问题:他们开发了一种动作密码系统,能够从视频画面的变化中自动推断出执行者的意图和动作。这就像是一个超级观察员,不仅能看出你在做什么,还能理解你为什么这样做。
一、从人类经验到机器智慧的桥梁
研究团队面临的第一个挑战就像是要教一个从未见过厨房的人学会烹饪。传统的机器人训练方法需要专门的设备和环境,就好比只能在专业厨师学校里学做菜。但真实世界里,人们在各种各样的厨房里做饭——有的厨房很小,有的很大;有的用电炉,有的用燃气灶;有的工具齐全,有的只有基本设备。
DreamDojo 的创新之处在于它学会了从人类的第一人称视频中提取通用的操作知识。研究团队构建了一个庞大的数据集 DreamDojo-HV,包含了 43827 小时的人类日常活动视频。这些视频不是在实验室里拍摄的标准化动作演示,而是真实的生活场景——人们在家里收拾房间,在办公室处理文件,在工坊修理物品,在商店购买商品。
收集到视频只是第一步,真正的挑战是如何让机器理解这些视频中的动作意图。人类观看别人做事时,能够自然地理解对方的目的和手段。但对机器来说,视频只是一串彩色像素的变化。研究团队开发了一种潜在动作模型,这个模型就像是一个经验丰富的观察者,能够从画面的细微变化中推断出执行者的动作意图。
这个潜在动作模型的工作原理类似于我们日常的观察和推理过程。当你看到某人的手从桌子上方移动到一个杯子附近,然后杯子发生了位移,你会自然地推断出这个人刚刚拿起了杯子。潜在动作模型做的就是这样的工作——它观察连续的画面帧,分析物体位置和形状的变化,然后推导出导致这些变化的可能动作。
更重要的是,这个系统学会了将不同身体结构(人手和机器人手臂)之间的动作进行转换。就像一个优秀的舞蹈教练能够将芭蕾舞者的动作改编给街舞者一样,系统能够理解动作的本质意图,而不只是机械地模仿表面形式。当系统看到人类用手指轻点物体表面时,它理解的不是用手指点击这个具体动作,而是轻柔接触目标物体这个操作意图,然后用机器人的方式来实现同样的效果。
二、构建机器人的世界认知系统
DreamDojo 的核心是一个世界模型,这个概念听起来很抽象,但实际上类似于我们大脑中对现实世界的认知模拟。当你计划重新布置房间时,你会在脑海中想象移动家具后的效果,预测哪种布局更好看、更实用。DreamDojo 做的就是类似的事情——它在大脑中构建了一个虚拟世界,能够预测不同动作会产生什么结果。
这个世界模型的训练过程就像是培养一个极其细心的观察者。系统需要学会理解物理世界的基本规律:当你推动一个球时,球会朝着推力的方向滚动;当你松开手中的杯子时,杯子会掉落;当你转动门把手时,门会开启。这些对人类来说理所当然的物理常识,机器需要通过大量观察学习才能掌握。
研究团队在模型架构上做了几个关键改进。首先,他们让系统学习相对动作而不是绝对位置。这就像是教人骑自行车时,重要的不是记住每个时刻车轮的确切位置,而是学会保持平衡、控制方向的技巧。通过关注动作的相对变化,系统能够更好地泛化到不同的环境和情况。
其次,他们引入了时间一致性的训练目标。传统方法就像是让学生只看单张照片来理解故事情节,而新方法确保系统理解动作的连续性和因果关系。当系统预测拿起杯子这个动作时,它不仅要预测杯子位置的变化,还要确保整个过程在物理上合理——手要先接近杯子,然后握住,最后带动杯子移动。
为了处理视频数据中动作标签缺失的问题,研究团队开发了一个巧妙的自监督学习方法。系统通过比较连续的视频帧,学会了提取帧与帧之间的动作精华。这个过程类似于一个经验丰富的侦探,通过观察现场的变化推断出发生了什么事情。即使没有人告诉系统这里发生了拿取动作,它也能从杯子位置的变化、手部姿态的调整等细节中推断出动作的本质。
三、让机器人学会举一反三
DreamDojo 最令人印象深刻的能力是它的泛化性——就像是一个聪明的学生,学会一个概念后能够在不同情况下灵活运用。当系统在人类视频中学会了抓取圆形物体的概念后,它不仅能识别苹果和橙子,还能处理之前从未见过的球形装饰品或圆形工具。
这种泛化能力的实现依赖于系统对物理原理的深层理解。研究团队设计了多个挑战性测试来验证这一点。他们让机器人在完全没有见过的环境中操作全新的物体。结果显示,DreamDojo 不仅能够成功完成任务,而且它的操作方式显示出对物体特性的准确理解——它知道易碎物品需要轻拿轻放,知道重物需要更稳固的抓取方式,知道柔软物品的形变特性。


