PointWorld：面向野外机器人操作的大规模 3D 世界模型研究（一）

POINTWORLD 提出了一种大规模预训练的三维世界模型，通过统一状态与动作的三维点流表示，预测场景在机器人动作下的动力学演化。该模型基于约 200 万条轨迹的数据集训练，结合 MPC 框架实现了零样本真实机器人操作，涵盖刚体推动、可变形物体及工具使用等任务。研究验证了 PTv3 主干网络、运动加权损失及不确定性正则化在规模化训练中的有效性，证明了模型在跨域迁移及部分可观测条件下的鲁棒性。

赛博行者发布于 2026/4/8更新于 2026/7/2137 浏览

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

引用：

@article{huang2026pointworld,
  title={PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation},
  author={Huang, Wenlong and Chao, Yu-Wei and Mousavian, Arsalan and Liu, Ming-Yu and Fox, Dieter and Mo, Kaichun and Fei-Fei, Li},
  journal={arXiv preprint arXiv:2601.03782},
  year={2026}
}

主页： https://point-world.github.io/
原文： https://arxiv.org/pdf/2601.03782
代码、数据和视频： https://github.com/huangwl18/PointWorld

文章概括

人类仅凭一眼观察以及对自身动作的预想，便能够预测三维世界将如何作出响应，而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD，一个大规模预训练的三维世界模型，该模型将状态与动作统一表示在同一三维空间中，并以三维点流（3D point flows）的形式建模：在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下，POINTWORLD 能够预测每个像素在三维空间中的位移变化，以响应所给定的动作。

通过将动作表示为三维点流，而非依赖于具体机器人本体的动作空间（例如关节位置），这种建模方式能够直接以机器人的物理几何结构为条件，同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型，我们构建了一个大规模数据集，涵盖开放世界环境中真实与仿真的机器人操作任务，这得益于近年来三维视觉与仿真环境的发展；该数据集共包含约 200 万条轨迹、500 小时的数据，涉及单臂 Franka 机器人和双臂人形机器人。

通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究，我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度，POINTWORLD 可以高效地集成到模型预测控制（MPC）框架中，用于机器人操作任务。我们展示了，仅凭一个预训练模型权重，真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务，且无需任何示范数据或后续训练，全部仅基于一张在自然环境中拍摄的单幅图像。代码、数据集以及预训练模型权重将全部开源。

图 1. POINTWORLD 是一个大规模预训练的三维世界模型，它以静态点云以及与机器人本体无关的动作描述作为输入（该动作同样以三维点流的形式表示），从而预测整个场景的三维点流。