PointWorld：面向野外机器人操作的 3D 世界模型规模化

PointWorld 是斯坦福与 Nvidia 提出的大型预训练三维世界模型，旨在解决野外机器人操作问题。该模型将状态和动作统一至共享三维空间，以点流形式预测场景响应。通过构建包含约 200 万条轨迹的大规模数据集进行训练，支持单臂及双手人形机器人。模型具备实时推理能力，可集成至模型预测控制框架，仅需一张 RGB-D 图像即可执行多种操作任务，无需额外演示或微调。研究还探讨了数据标注流程、动力学预测架构及规模化扩展路线，为具身智能提供了新的技术路径。

雾岛听风发布于 2026/4/8更新于 2026/7/2739 浏览

PointWorld 技术解析

斯坦福与 Nvidia 于 2026 年 1 月发表 PointWorld 论文，提出一种大型预训练三维世界模型。人类能够通过观察和思考身体动作来预测三维世界的响应，这种能力对于机器人操作同样至关重要。引入 POINTWORLD，这是一个大型预训练三维世界模型，它将状态和动作统一到一个共享的三维空间中，并以三维点流的形式呈现：给定一张或几张 RGB-D 图像以及一系列底层机器人动作指令，POINTWORLD 可以预测响应给定动作的三维空间中逐像素位移。通过将动作表示为三维点流，而不是特定于身体的动作空间（例如关节位置），这种方法直接依赖于机器人的物理几何结构，同时无缝地整合跨具身学习。

为了训练 3D 世界模型，构建一个涵盖真实和模拟机器人操作的大规模数据集，该数据集来自开放世界环境。得益于 3D 视觉和模拟环境的最新进展，该数据集包含约 200 万条轨迹，总时长达 500 小时，涵盖单臂 Franka 机器人和双手人形机器人。通过对骨干网络、动作表征、学习目标、部分可观测性、数据混合、域迁移和扩展性等方面的严谨的大规模实证研究，蒸馏出大规模 3D 世界建模的设计原则。POINTWORLD 模型具有实时（0.1 秒）推理速度，可以高效地集成到用于操作的模型预测控制（MPC）框架中。只需一个预训练的检查点，即可使真实世界的 Franka 机器人执行刚体推拉、可变形和关节体操作以及工具使用，无需任何演示或后训练，所有操作均基于一张在实际环境中拍摄的图像。

请添加图片描述

将三维世界建模表述为动作条件化的全场景三维点流预测（如图所示）：给定标定的 RGB-D 图像、机器人关节空间动作以及机器人描述文件（URDF），将动作转换为机器人流，并与场景连接，形成一个单一的点云，作为与具体形态无关的交互几何模型。场景点使用冻结的 DINOv3 编码器进行特征化，机器人点使用时间嵌入进行特征化，点云骨干网络预测全场景的 3D 点流。POINTWORLD 用于动作推理，在模型预测控制框架中进行应用。

请添加图片描述

基于 POINTWORLD 的 3D 世界建模

将环境动态建模为一个神经网络 F_θ : S × A → S，其中 θ 为参数，用于根据当前状态和机器人动作预测下一个状态，S 和 A 分别表示状态空间和动作空间。现有方法 [5] 通常将其表示为单步更新 s_t+1 = F_θ (s_t , a_t)。相比之下，采用多步（分块）公式进行数据驱动建模 [151]：该模型在单次前向传播 FH_θ : (s_t, a_t:t+H−1) → s_t+1:t+H 中预测时间范围 H 内的未来状态，从而提高时间一致性并摊销计算量。用 H = 10 步，每步耗时 0.1 秒。

状态表示。构建世界模型需要精心选择一个状态空间 S，时刻 t 的状态记为 s_t ∈ S。本文使用点流（也称为粒子 [3, 53]）作为环境状态。形式上，令 s_t = {(p_t, i, fS_i)} 表示时刻 t 的点流，它由 N_S 个点组成，每个点的位置 p_t,i，且每个点都具有维度为 D_S 的时间 - 恒定特征 fS_i。与替代表示方法相比，点流在世界建模和操作方面具有以下优势：(i) 强调 3D 几何之间的物理交互而非外观，类似于物理模拟器而非渲染器的角色；(ii) 可从部分可观测环境 [114] 中的任何 RGB-D 捕获访问，而无需假设物体性或材质先验；(iii) 通过位移上的 L_2 损失进行简单稳定的训练，无需置换匹配；(iv) 具有捕捉各种细粒度接触动态的表达能力。为了获得点流，从一到几个已标定的 RGB-D 视图中，通过正向运动学（使用 URDF 和关节配置）对机器人像素进行掩码，并将剩余像素反投影以获得 p_t,i。需要注意的是，由于模型以环境中的静态点集作为输入，并且对应关系仅在模型的前向传播（即其'想象'）中保留，因此推理不需要单独的点跟踪器，并且点数在不同的前向传播之间可能会有所不同。

动作表示。为了从异构的具身模型（不同的运动学、夹爪几何形状，甚至不同数量的夹爪）中学习，再次使用 3D 点流。然而，与从 RGB-D 图像捕获获得的场景点流不同，机器人点流是通过正向运动学预测机器人自身的几何而生成的，该运动学使用机器人的 URDF（先验已知）。这是一种有意为之的设计，旨在确保'想象的动作'能够完全（而非部分）地被观察到，同时以一种与具体形态无关的方式呈现——这在接触发生在被遮挡区域的情况下至关重要（例如，以自我中心视角搬运一个大箱子）。具体来说，给定一系列关节构建 {q_t+k}，在时刻 t 对机器人表面点进行一次采样，将每个点与其对应的连杆连接起来，并利用正向运动学方法传播这些点，从而在每个时间步 t+k 获得一个有序的 N_R 机器人点集 { (r_t+k,j, fR_t+k,j) }，其中 r_t+k,j 表示点 j 在时刻 t+k 的位置，fR_t+k,j 是其维度为 D_R 的时变特征向量。将此集合视为时刻 t+k 的动作，并将其记为 a_t+k。这便得到一个与具身无关的、覆盖整个视界的交互几何描述。实际上，大多数机器人表面点从未与场景接触；为了提高效率，仅对夹爪的机器人点流进行采样（每个夹爪采样几百个点，具体取决于其几何）。