机器人在真实环境里最头疼的就是物理世界太不听话——推一下东西会动会滑,布料一拉就变形,抽屉抽出来可能把周围碰倒。为每种场景、每种机器人手写物理规则显然不现实。
POINTWORLD 想走另一条路:直接给机器人一个'会预言未来'的能力。你告诉它当前场景长什么样、机器人的动作轨迹,它就能预测接下来整个场景里每一点会怎么变。
这个模型把状态和动作统一扔进三维空间,用 3D 点流(point flows) 来建模:给定一张或多张 RGB-D 图像加上一段底层机器人动作指令,POINTWORLD 就能输出每个像素在三维空间里的位移,用来回应这些动作。动作本身也用三维点来表示,而不是绑定到某个机器人的关节空间,所以不同本体(单臂、双臂、人形…)都能直接拿来训练。
怎么做的
输入输出设计是整个模型的骨架:
- 输入 A:静态点云
从 RGB-D 图像反算出来的一堆 3D 点,每个点有坐标和颜色,代表桌面、物体、背景等等。 - 输入 B:机器人 3D 点流
不用关节角或力矩,而是在机器人本体上采样一堆点,描述这些点在未来 H 步里怎么移动。这样动作表达就和机器人具体结构解耦了——只要能把'机器人会怎么动'变成'这些点会怎么走',模型就能理解。 - 输出:全场景 3D 点流
给每个场景点预测一个箭头(3D 位移向量),告诉它接下来往哪儿走、走多远。盒子被推走,盒子上的点箭头都指向滑动方向;布被拉扯,布上的点箭头呈现形变;抽屉拉出来,抽屉点云整体平移,连带周围被挤压碰撞的点也会带上运动。
一句话:输入是世界的三维快照 + 机器人动作的三维运动,输出是整个世界里每个点下一刻怎么动。
网络架构
图 2 把管线画得很清楚:
- RGB-D 观测 → 场景点云。
- 关节动作 + URDF → 通过正向运动学算出机器人表面采样点在未来各时刻的位置,这就是机器人点流。
- 拼接:把场景点和机器人点(按时间堆叠)拼成一个'统一点云'。论文管这叫 embodiment-agnostic interaction geometry——不管什么机器人,都变成点,点的运动表达动作,不依赖特定关节定义。
- 特征编码:
- 场景点用冻结的 DINOv3 从图像提取特征再贴回点云(DINOv3 参数不更新)。
- 机器人点加上 时间嵌入(Time Embed),告诉网络这个点在将来第几步。
- 主干网络:带特征的统一点云喂进 PTv3(一个 SOTA 点云主干),输出每个点的深层表示。
- 输出头:共享 MLP 把主干输出转成预测——对每个场景点,未来 H 步每一步的 3D 位移。
训练细节
直接回归预测位移听起来很自然,但三维世界建模遇到两个麻烦:
- 稀疏信号:机器人只动一小块区域,大部分点静止,L2 损失会淹没在大量不动点里。
- 噪声:真实数据噪声大,模型容易被带偏。
解决方式是:用 加权回归目标,根据真实运动信息给每个点在每个时间步分配一个软运动概率,损失只盯着真正在动的点。同时用 偶然不确定性正则化,对每个点每个时间步预测一个标量对数方差,残差项换成 Huber 损失。这样模型在噪声大的点上可以降低惩罚,但必须为这种'不确定性'付出代价。
数据与实验
团队基于 DROID 和 BEHAVIOR-1K 两个真实操作数据集,花大力气构建了一套定制流水线,从真实世界数据里提取精确的三维点流(借助度量深度估计、相机位姿估计和点追踪)。最终得到包含数百个真实环境、单臂/双臂/全身交互、覆盖仿真与真实域的大规模数据集。
在这个数据集上他们系统研究了架构、动作表示、学习目标、部分可观测性、数据混合、规模规律和跨域迁移等关键设计。
扩展路线
PTv3 点云主干展现了最好的建模能力和扩展性。把基线方法 GBND 扩展到数据集规模时内存涨得很快,而 PTv3 的 U-Net 式层级结构在粗点集上计算注意力,既能长程建模又支持参数规模大幅提升。综合来说,主干网络、训练目标、预训练特征和模型规模一起带来了远优于 GBND 的性能。规模实验显示,无论是扩数据还是扩参数,预测精度都呈现近似对数线性的提升。


