PointWorld 技术解析
斯坦福与 Nvidia 于 2026 年 1 月发表 PointWorld 论文,提出一种大型预训练三维世界模型。人类能够通过观察和思考身体动作来预测三维世界的响应,这种能力对于机器人操作同样至关重要。引入 POINTWORLD,这是一个大型预训练三维世界模型,它将状态和动作统一到一个共享的三维空间中,并以三维点流的形式呈现:给定一张或几张 RGB-D 图像以及一系列底层机器人动作指令,POINTWORLD 可以预测响应给定动作的三维空间中逐像素位移。通过将动作表示为三维点流,而不是特定于身体的动作空间(例如关节位置),这种方法直接依赖于机器人的物理几何结构,同时无缝地整合跨具身学习。
为了训练 3D 世界模型,构建一个涵盖真实和模拟机器人操作的大规模数据集,该数据集来自开放世界环境。得益于 3D 视觉和模拟环境的最新进展,该数据集包含约 200 万条轨迹,总时长达 500 小时,涵盖单臂 Franka 机器人和双手人形机器人。通过对骨干网络、动作表征、学习目标、部分可观测性、数据混合、域迁移和扩展性等方面的严谨的大规模实证研究,蒸馏出大规模 3D 世界建模的设计原则。POINTWORLD 模型具有实时(0.1 秒)推理速度,可以高效地集成到用于操作的模型预测控制(MPC)框架中。只需一个预训练的检查点,即可使真实世界的 Franka 机器人执行刚体推拉、可变形和关节体操作以及工具使用,无需任何演示或后训练,所有操作均基于一张在实际环境中拍摄的图像。

将三维世界建模表述为动作条件化的全场景三维点流预测(如图所示):给定标定的 RGB-D 图像、机器人关节空间动作以及机器人描述文件(URDF),将动作转换为机器人流,并与场景连接,形成一个单一的点云,作为与具体形态无关的交互几何模型。场景点使用冻结的 DINOv3 编码器进行特征化,机器人点使用时间嵌入进行特征化,点云骨干网络预测全场景的 3D 点流。POINTWORLD 用于动作推理,在模型预测控制框架中进行应用。

基于 POINTWORLD 的 3D 世界建模
将环境动态建模为一个神经网络 F_θ : S × A → S,其中 θ 为参数,用于根据当前状态和机器人动作预测下一个状态,S 和 A 分别表示状态空间和动作空间。现有方法 [5] 通常将其表示为单步更新 s_t+1 = F_θ (s_t , a_t)。相比之下,采用多步(分块)公式进行数据驱动建模 [151]:该模型在单次前向传播 FH_θ : (s_t, a_t:t+H−1) → s_t+1:t+H 中预测时间范围 H 内的未来状态,从而提高时间一致性并摊销计算量。用 H = 10 步,每步耗时 0.1 秒。
状态表示。构建世界模型需要精心选择一个状态空间 S,时刻 t 的状态记为 s_t ∈ S。本文使用点流(也称为粒子 [3, 53])作为环境状态。形式上,令 s_t = {(p_t, i, fS_i)} 表示时刻 t 的点流,它由 N_S 个点组成,每个点的位置 p_t,i,且每个点都具有维度为 D_S 的时间 - 恒定特征 fS_i。与替代表示方法相比,点流在世界建模和操作方面具有以下优势:(i) 强调 3D 几何之间的物理交互而非外观,类似于物理模拟器而非渲染器的角色;(ii) 可从部分可观测环境 [114] 中的任何 RGB-D 捕获访问,而无需假设物体性或材质先验;(iii) 通过位移上的 L_2 损失进行简单稳定的训练,无需置换匹配;(iv) 具有捕捉各种细粒度接触动态的表达能力。为了获得点流,从一到几个已标定的 RGB-D 视图中,通过正向运动学(使用 URDF 和关节配置)对机器人像素进行掩码,并将剩余像素反投影以获得 p_t,i。需要注意的是,由于模型以环境中的静态点集作为输入,并且对应关系仅在模型的前向传播(即其'想象')中保留,因此推理不需要单独的点跟踪器,并且点数在不同的前向传播之间可能会有所不同。
动作表示。为了从异构的具身模型(不同的运动学、夹爪几何形状,甚至不同数量的夹爪)中学习,再次使用 3D 点流。然而,与从 RGB-D 图像捕获获得的场景点流不同,机器人点流是通过正向运动学预测机器人自身的几何而生成的,该运动学使用机器人的 URDF(先验已知)。这是一种有意为之的设计,旨在确保'想象的动作'能够完全(而非部分)地被观察到,同时以一种与具体形态无关的方式呈现——这在接触发生在被遮挡区域的情况下至关重要(例如,以自我中心视角搬运一个大箱子)。具体来说,给定一系列关节构建 {q_t+k},在时刻 t 对机器人表面点进行一次采样,将每个点与其对应的连杆连接起来,并利用正向运动学方法传播这些点,从而在每个时间步 t+k 获得一个有序的 N_R 机器人点集 { (r_t+k,j, fR_t+k,j) },其中 r_t+k,j 表示点 j 在时刻 t+k 的位置,fR_t+k,j 是其维度为 D_R 的时变特征向量。将此集合视为时刻 t+k 的动作,并将其记为 a_t+k。这便得到一个与具身无关的、覆盖整个视界的交互几何描述。实际上,大多数机器人表面点从未与场景接触;为了提高效率,仅对夹爪的机器人点流进行采样(每个夹爪采样几百个点,具体取决于其几何)。




