PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
文章概括
引用:
@article{huang2026pointworld, title={PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation}, author={Huang, Wenlong and Chao, Yu-Wei and Mousavian, Arsalan and Liu, Ming-Yu and Fox, Dieter and Mo, Kaichun and Fei-Fei, Li}, journal={arXiv preprint arXiv:2601.03782}, year={2026}}
ABSTRACT
人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。
通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),这种建模方式能够直接以机器人的物理几何结构为条件,同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型,我们构建了一个大规模数据集,涵盖开放世界环境中真实与仿真的机器人操作任务,这得益于近年来三维视觉与仿真环境的发展;该数据集共包含约 200 万条轨迹、500 小时的数据,涉及单臂 Franka 机器人和双臂人形机器人。
通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究,我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度,POINTWORLD 可以高效地集成到模型预测控制(MPC)框架中,用于机器人操作任务。我们展示了,仅凭一个预训练模型权重,真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务,且无需任何示范数据或后续训练,全部仅基于一张在自然环境中拍摄的单幅图像。
[图 1: POINTWORLD 概览]
核心问题解析
机器人在真实环境里做事(推箱子、拉抽屉、擦桌子、拿布、清理垃圾……)最大的难点是:世界不是静止的:你一动,物体会动、会滑、会倒、会变形。真实环境复杂:厨房、桌面、地面、杂物堆,各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。
所以他们想做一个东西:给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动',它就能预测接下来整个场景会怎么变化。
输入输出说明
输入 A:静态点云(Scene Point Cloud) 你可以把'点云'理解成:用很多很多 3D 小点拼出来的世界(桌面、物体、地面、墙……每个点有 3D 坐标,可能还有颜色)。图里写'RGB-D image',意思是:用一张 RGB-D(彩色 + 深度)图像,就能算出一个点云。
输入 B:动作描述(Robot 3D Point Flows) 他们不是用'关节角、力矩'这种强绑定某个机器人的动作表达,而是用一种更'通用'的表达:用机器人本体上的一些 3D 点(例如手臂、夹爪上的采样点)用这些点将要怎么移动来表示动作(也就是'点的位移') 这就是文中说的 embodiment-agnostic(与机器人本体无关):不管你是单臂、双臂、人形、移动机器人,只要你能把'机器人会怎么动'表达成'这些点会怎么走',模型就能理解。
输出:全场景 3D 点流(Full-scene 3D point flows) '点流(point flow)'你可以把它当成:每一个场景点,都会得到一个箭头(3D 位移向量),告诉你它接下来会往哪儿走、走多远。
一句话总结输入输出:输入:世界的'3D 点照片' + 机器人动作的'3D 点运动' 输出:整个世界里每个点'下一刻会怎么动'
1. Introduction
在非结构化环境中进行世界建模对于通用型机器人而言至关重要,其目标是根据机器人所看到的内容以及其计划通过身体执行的动作,预测世界将如何演化。人类仅凭一次观察与一次抓取,便能够预测物体的形变、关节运动、稳定性与接触情况,这揭示了当世界建模目标在三维空间中以'预想动作'为条件时,能够捕捉到多么丰富的信息。


