PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
摘要
人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。
通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),这种建模方式能够直接以机器人的物理几何结构为条件,同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型,我们构建了一个大规模数据集,涵盖开放世界环境中真实与仿真的机器人操作任务,这得益于近年来三维视觉与仿真环境的发展;该数据集共包含约 200 万条轨迹、500 小时的数据,涉及单臂 Franka 机器人和双臂人形机器人。
通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究,我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度,POINTWORLD 可以高效地集成到模型预测控制(MPC)框架中,用于机器人操作任务。我们展示了,仅凭一个预训练模型权重,真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务,且无需任何示范数据或后续训练,全部仅基于一张在自然环境中拍摄的单幅图像。
[图片]
图 1. POINTWORLD 是一个大规模预训练的三维世界模型,它以静态点云以及与机器人本体无关的动作描述作为输入(该动作同样以三维点流的形式表示),从而预测整个场景的三维点流。
1. Introduction
在非结构化环境中进行世界建模对于通用型机器人而言至关重要,其目标是根据机器人所看到的内容以及其计划通过身体执行的动作,预测世界将如何演化。人类仅凭一次观察与一次抓取,便能够预测物体的形变、关节运动、稳定性与接触情况,这揭示了当世界建模目标在三维空间中以'预想动作'为条件时,能够捕捉到多么丰富的信息。
大量已有研究从互补的角度对世界建模问题进行了探索。基于物理的模型虽然能够实现高度精确的预测,但面临仿真到现实的差距问题,并且需要针对具体环境进行精细化建模。基于学习的动力学模型通过从观测到的交互中学习来缓解这一问题,但往往依赖于特定领域的归纳偏置。与此同时,大规模训练的视频生成模型虽然能够生成逼真的视觉预测,但缺乏显式的动作条件建模,并且在物理一致性方面往往表现不足。
我们的核心理念是通过统一表示来实现规模化:将状态与动作统一表示在同一种三维物理空间模态中。状态由基于 RGB-D 采集构建的完整场景三维点云表示;动作则表示为从智能体自身本体实例化得到的稠密三维点轨迹。在这种表示下,三维世界建模等价于对在机器人点序列扰动下的全场景三维点流进行建模。
为提供监督信号,我们构建了一个用于三维动力学建模的大规模数据集,涵盖数百个真实环境场景中的单臂、双臂及全身交互,同时覆盖真实与仿真两种域。该数据集基于现有的机器人操作数据集 DROID 和 BEHAVIOR-1K 构建而成。
Contributions. (i) 我们提出了一个大规模预训练的三维世界模型 POINTWORLD,该模型在三维点流的统一表示中融合了状态与动作,并对其建模方案进行了系统而严格的研究。 (ii) 我们构建并开源了一个高质量的大规模三维交互数据集,用于训练 POINTWORLD,总计约 200 万条轨迹或约 500 小时的数据。 (iii) 我们证明,仅凭一个预训练的 POINTWORLD 模型,真实机器人即可从一张在自然环境中采集的 RGB-D 图像出发,完成多样化的操作任务,而无需额外的示范或训练。
2. Related Work
World Modeling. 世界模型是一类预测模型,用于在给定当前状态与动作的情况下模拟未来状态。视频模型采用像素空间作为状态表示,三维世界模型则作用于网格或显式表面表示、辐射场或高斯表示,以及粒子表示。POINTWORLD 使用三维点流作为共享的状态—动作表示,强调接触与几何而非外观。
Dynamics Models in Robotics. 机器人领域中的动力学模型将世界模型具体化到机器人动作空间中。这些模型包括基于物理的仿真器以及基于学习的方法。尽管现有动力学模型通常需要针对具体场景进行精细化建模,我们的目标是预训练一个能够跨越多样真实环境进行泛化的单一动力学模型。
2D and 3D Flows for Manipulation. 流(或点轨迹)用于建立跨越空间与时间的对应关系,为感知与控制之间提供了一个强有力的接口。在本工作中,我们利用三维视觉领域的最新进展——包括深度估计、相机位姿估计以及点追踪——从大规模真实世界机器人操作数据中标注三维场景流。
3. Method
我们将三维世界建模表述为以动作为条件的全场景三维点流预测。随后,我们介绍 POINTWORLD 如何用于动作推断,并讨论其在本工作所探究的模型预测控制框架中的应用场景。
[图片]
图 2. POINTWORLD 的整体概览。在给定标定后的 RGB-D 数据、机器人关节空间动作以及机器人描述文件(URDF)的情况下,我们将动作转换为机器人点流,并与场景点云进行拼接,形成一个作为与本体无关交互几何的统一点云。


