文章概括
摘要: 人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),这种建模方式能够直接以机器人的物理几何结构为条件,同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型,我们构建了一个大规模数据集,涵盖开放世界环境中真实与仿真的机器人操作任务,这得益于近年来三维视觉与仿真环境的发展;该数据集共包含约 200 万条轨迹、500 小时的数据,涉及单臂 Franka 机器人和双臂人形机器人。通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究,我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度,POINTWORLD 可以高效地集成到模型预测控制(MPC)框架中,用于机器人操作任务。我们展示了,仅凭一个预训练模型权重,真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务,且无需任何示范数据或后续训练,全部仅基于一张在自然环境中拍摄的单幅图像。
![图 1. POINTWORLD 整体概览]
1) 这段话到底想解决什么问题?
机器人在真实环境里做事(推箱子、拉抽屉、擦桌子、拿布、清理垃圾……)最大的难点是:世界不是静止的:你一动,物体会动、会滑、会倒、会变形。真实环境复杂:厨房、桌面、地面、杂物堆,各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。
所以他们想做一个东西:给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动',它就能预测接下来整个场景会怎么变化。
2) 这模型的输入输出是什么?(这是最核心的主线)
这段话的输入输出非常明确:
输入 A:静态点云(Scene Point Cloud)
你可以把'点云'理解成: 用很多很多 3D 小点拼出来的世界(桌面、物体、地面、墙……每个点有 3D 坐标,可能还有颜色)。图里写


