论文笔记：PointWorld 扩展野外机器人操作的 3D 世界模型

PointWorld 提出了一种大规模预训练的三维世界模型，用于开放世界机器人操作。该模型将状态与动作统一表示为三维点流，通过 RGB-D 图像预测场景点的位移变化。构建包含约 200 万条轨迹的大规模数据集，涵盖真实与仿真环境。实验表明，仅凭一个预训练模型，无需微调即可在真实 Franka 机器人上完成刚体推动、可变形物体及工具使用任务，推理速度达 0.1 秒，可集成至 MPC 框架。

活在当下发布于 2026/4/5更新于 2026/4/131 浏览

文章概括

摘要： 人类仅凭一眼观察以及对自身动作的预想，便能够预测三维世界将如何作出响应，而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD，一个大规模预训练的三维世界模型，该模型将状态与动作统一表示在同一三维空间中，并以三维点流（3D point flows）的形式建模：在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下，POINTWORLD 能够预测每个像素在三维空间中的位移变化，以响应所给定的动作。通过将动作表示为三维点流，而非依赖于具体机器人本体的动作空间（例如关节位置），这种建模方式能够直接以机器人的物理几何结构为条件，同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型，我们构建了一个大规模数据集，涵盖开放世界环境中真实与仿真的机器人操作任务，这得益于近年来三维视觉与仿真环境的发展；该数据集共包含约 200 万条轨迹、500 小时的数据，涉及单臂 Franka 机器人和双臂人形机器人。通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究，我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度，POINTWORLD 可以高效地集成到模型预测控制（MPC）框架中，用于机器人操作任务。我们展示了，仅凭一个预训练模型权重，真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务，且无需任何示范数据或后续训练，全部仅基于一张在自然环境中拍摄的单幅图像。

![图 1. POINTWORLD 整体概览]

1) 这段话到底想解决什么问题？

机器人在真实环境里做事（推箱子、拉抽屉、擦桌子、拿布、清理垃圾……）最大的难点是：世界不是静止的：你一动，物体会动、会滑、会倒、会变形。真实环境复杂：厨房、桌面、地面、杂物堆，各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。

所以他们想做一个东西：给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动'，它就能预测接下来整个场景会怎么变化。

2) 这模型的输入输出是什么？（这是最核心的主线）

这段话的输入输出非常明确：

输入 A：静态点云（Scene Point Cloud）

你可以把'点云'理解成： 用很多很多 3D 小点拼出来的世界（桌面、物体、地面、墙……每个点有 3D 坐标，可能还有颜色）。图里写

论文笔记：PointWorld 扩展野外机器人操作的 3D 世界模型

文章概括

更多推荐文章

相关免费在线工具

论文笔记：PointWorld 扩展野外机器人操作的 3D 世界模型

文章概括

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具