PointWorld：用大规模3D世界模型让机器人预测物理交互

机器人操作在非结构化环境中需应对复杂物理动态。PointWorld提出大规模预训练的三维世界模型，将场景与动作统一表示为3D点流，从RGB-D图像预测全场景点级位移。模型适配不同机器人本体，在涵盖真机与仿真的丰富数据集上训练，克服稀疏信号与噪声挑战，实现对数线性扩展。预训练后可零样本或小样本微调完成非抓取推动、变形物体、关节物体操作及工具使用等任务，展现出可迁移的物理交互预测能力。

狂少发布于 2026/6/50 浏览

机器人在真实环境里最头疼的就是物理世界太不听话——推一下东西会动会滑，布料一拉就变形，抽屉抽出来可能把周围碰倒。为每种场景、每种机器人手写物理规则显然不现实。

POINTWORLD 想走另一条路：直接给机器人一个'会预言未来'的能力。你告诉它当前场景长什么样、机器人的动作轨迹，它就能预测接下来整个场景里每一点会怎么变。

这个模型把状态和动作统一扔进三维空间，用 3D 点流（point flows） 来建模：给定一张或多张 RGB-D 图像加上一段底层机器人动作指令，POINTWORLD 就能输出每个像素在三维空间里的位移，用来回应这些动作。动作本身也用三维点来表示，而不是绑定到某个机器人的关节空间，所以不同本体（单臂、双臂、人形…）都能直接拿来训练。

怎么做的

输入输出设计是整个模型的骨架：

输入 A：静态点云
从 RGB-D 图像反算出来的一堆 3D 点，每个点有坐标和颜色，代表桌面、物体、背景等等。
输入 B：机器人 3D 点流
不用关节角或力矩，而是在机器人本体上采样一堆点，描述这些点在未来 H 步里怎么移动。这样动作表达就和机器人具体结构解耦了——只要能把'机器人会怎么动'变成'这些点会怎么走'，模型就能理解。
输出：全场景 3D 点流
给每个场景点预测一个箭头（3D 位移向量），告诉它接下来往哪儿走、走多远。盒子被推走，盒子上的点箭头都指向滑动方向；布被拉扯，布上的点箭头呈现形变；抽屉拉出来，抽屉点云整体平移，连带周围被挤压碰撞的点也会带上运动。

一句话：输入是世界的三维快照 + 机器人动作的三维运动，输出是整个世界里每个点下一刻怎么动。

网络架构

图 2 把管线画得很清楚：

RGB-D 观测 → 场景点云。
关节动作 + URDF → 通过正向运动学算出机器人表面采样点在未来各时刻的位置，这就是机器人点流。
拼接：把场景点和机器人点（按时间堆叠）拼成一个'统一点云'。论文管这叫 embodiment-agnostic interaction geometry——不管什么机器人，都变成点，点的运动表达动作，不依赖特定关节定义。
特征编码：
- 场景点用冻结的 DINOv3 从图像提取特征再贴回点云（DINOv3 参数不更新）。
- 机器人点加上 时间嵌入（Time Embed），告诉网络这个点在将来第几步。
主干网络：带特征的统一点云喂进 PTv3（一个 SOTA 点云主干），输出每个点的深层表示。
输出头：共享 MLP 把主干输出转成预测——对每个场景点，未来 H 步每一步的 3D 位移。

训练细节

直接回归预测位移听起来很自然，但三维世界建模遇到两个麻烦：

稀疏信号：机器人只动一小块区域，大部分点静止，L2 损失会淹没在大量不动点里。
噪声：真实数据噪声大，模型容易被带偏。

解决方式是：用 加权回归目标，根据真实运动信息给每个点在每个时间步分配一个软运动概率，损失只盯着真正在动的点。同时用 偶然不确定性正则化，对每个点每个时间步预测一个标量对数方差，残差项换成 Huber 损失。这样模型在噪声大的点上可以降低惩罚，但必须为这种'不确定性'付出代价。

数据与实验

团队基于 DROID 和 BEHAVIOR-1K 两个真实操作数据集，花大力气构建了一套定制流水线，从真实世界数据里提取精确的三维点流（借助度量深度估计、相机位姿估计和点追踪）。最终得到包含数百个真实环境、单臂/双臂/全身交互、覆盖仿真与真实域的大规模数据集。

在这个数据集上他们系统研究了架构、动作表示、学习目标、部分可观测性、数据混合、规模规律和跨域迁移等关键设计。

扩展路线

PTv3 点云主干展现了最好的建模能力和扩展性。把基线方法 GBND 扩展到数据集规模时内存涨得很快，而 PTv3 的 U-Net 式层级结构在粗点集上计算注意力，既能长程建模又支持参数规模大幅提升。综合来说，主干网络、训练目标、预训练特征和模型规模一起带来了远优于 GBND 的性能。规模实验显示，无论是扩数据还是扩参数，预测精度都呈现近似对数线性的提升。

PointWorld：用大规模3D世界模型让机器人预测物理交互

怎么做的

网络架构

训练细节

数据与实验

扩展路线

更多推荐文章

相关免费在线工具

泛化与迁移

实际规划

小结

更多推荐文章

相关免费在线工具

PointWorld：用大规模3D世界模型让机器人预测物理交互

怎么做的

网络架构

训练细节

数据与实验

扩展路线

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

泛化与迁移

实际规划

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具