PointWorld: 扩展 3D 世界模型用于机器人操作

POINTWorld 是一个大规模预训练的三维世界模型，旨在解决机器人在非结构化环境中的操作预测问题。它通过统一表示状态与动作在同一三维空间中，以三维点流形式建模，预测场景点云在给定动作下的位移变化。该模型基于约 200 万条轨迹的大规模数据集训练，涵盖真实与仿真环境。实验表明，POINTWorld 具备零样本泛化能力，可结合 MPC 框架在真实机器人上完成刚体推动、可变形物体及工具使用等任务，无需额外示范数据。

Pythonist发布于 2026/4/6更新于 2026/7/2047 浏览

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

文章概括

引用：

@article{huang2026pointworld, title={PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation}, author={Huang, Wenlong and Chao, Yu-Wei and Mousavian, Arsalan and Liu, Ming-Yu and Fox, Dieter and Mo, Kaichun and Fei-Fei, Li}, journal={arXiv preprint arXiv:2601.03782}, year={2026}}

ABSTRACT

人类仅凭一眼观察以及对自身动作的预想，便能够预测三维世界将如何作出响应，而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD，一个大规模预训练的三维世界模型，该模型将状态与动作统一表示在同一三维空间中，并以三维点流（3D point flows）的形式建模：在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下，POINTWORLD 能够预测每个像素在三维空间中的位移变化，以响应所给定的动作。

通过将动作表示为三维点流，而非依赖于具体机器人本体的动作空间（例如关节位置），这种建模方式能够直接以机器人的物理几何结构为条件，同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型，我们构建了一个大规模数据集，涵盖开放世界环境中真实与仿真的机器人操作任务，这得益于近年来三维视觉与仿真环境的发展；该数据集共包含约 200 万条轨迹、500 小时的数据，涉及单臂 Franka 机器人和双臂人形机器人。

通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究，我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度，POINTWORLD 可以高效地集成到模型预测控制（MPC）框架中，用于机器人操作任务。我们展示了，仅凭一个预训练模型权重，真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务，且无需任何示范数据或后续训练，全部仅基于一张在自然环境中拍摄的单幅图像。

[图 1: POINTWORLD 概览]

核心问题解析

机器人在真实环境里做事（推箱子、拉抽屉、擦桌子、拿布、清理垃圾……）最大的难点是：世界不是静止的：你一动，物体会动、会滑、会倒、会变形。真实环境复杂：厨房、桌面、地面、杂物堆，各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。

所以他们想做一个东西：给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动'，它就能预测接下来整个场景会怎么变化。

输入输出说明

输入 A：静态点云（Scene Point Cloud）你可以把'点云'理解成：用很多很多 3D 小点拼出来的世界（桌面、物体、地面、墙……每个点有 3D 坐标，可能还有颜色）。图里写'RGB-D image'，意思是：用一张 RGB-D（彩色 + 深度）图像，就能算出一个点云。

输入 B：动作描述（Robot 3D Point Flows）他们不是用'关节角、力矩'这种强绑定某个机器人的动作表达，而是用一种更'通用'的表达：用机器人本体上的一些 3D 点（例如手臂、夹爪上的采样点）用这些点将要怎么移动来表示动作（也就是'点的位移'）这就是文中说的 embodiment-agnostic（与机器人本体无关）：不管你是单臂、双臂、人形、移动机器人，只要你能把'机器人会怎么动'表达成'这些点会怎么走'，模型就能理解。

输出：全场景 3D 点流（Full-scene 3D point flows） '点流（point flow）'你可以把它当成：每一个场景点，都会得到一个箭头（3D 位移向量），告诉你它接下来会往哪儿走、走多远。

一句话总结输入输出：输入：世界的'3D 点照片' + 机器人动作的'3D 点运动' 输出：整个世界里每个点'下一刻会怎么动'

1. Introduction

在非结构化环境中进行世界建模对于通用型机器人而言至关重要，其目标是根据机器人所看到的内容以及其计划通过身体执行的动作，预测世界将如何演化。人类仅凭一次观察与一次抓取，便能够预测物体的形变、关节运动、稳定性与接触情况，这揭示了当世界建模目标在三维空间中以'预想动作'为条件时，能够捕捉到多么丰富的信息。

PointWorld: 扩展 3D 世界模型用于机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

文章概括

ABSTRACT

1. Introduction

更多推荐文章

相关免费在线工具

3. Method

3.1. 3D World Modeling with POINTWORLD

3.2. POINTWORLD for Robotic Manipulation

4. Dataset Curation and Evaluation Protocol

5. Experiments

5.1. Scaling 3D World Models: A Roadmap

5.2. Ablations

5.3. Generalization and Transfer

5.4. Model-Based Planning with POINTWORLD

6. Conclusion

更多推荐文章

相关免费在线工具

PointWorld: 扩展 3D 世界模型用于机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

文章概括

ABSTRACT

1. Introduction

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Related Work

3. Method

3.1. 3D World Modeling with POINTWORLD

3.2. POINTWORLD for Robotic Manipulation

4. Dataset Curation and Evaluation Protocol

5. Experiments

5.1. Scaling 3D World Models: A Roadmap

5.2. Ablations

5.3. Generalization and Transfer

5.4. Model-Based Planning with POINTWORLD

6. Conclusion

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具