跳到主要内容
PointWorld:面向野外机器人操作的大规模 3D 世界模型研究(一) | 极客日志
Python AI 算法
PointWorld:面向野外机器人操作的大规模 3D 世界模型研究(一) 综述由AI生成 POINTWORLD 提出了一种大规模预训练的三维世界模型,通过统一状态与动作的三维点流表示,预测场景在机器人动作下的动力学演化。该模型基于约 200 万条轨迹的数据集训练,结合 MPC 框架实现了零样本真实机器人操作,涵盖刚体推动、可变形物体及工具使用等任务。研究验证了 PTv3 主干网络、运动加权损失及不确定性正则化在规模化训练中的有效性,证明了模型在跨域迁移及部分可观测条件下的鲁棒性。
赛博行者 发布于 2026/4/8 更新于 2026/5/23 14 浏览PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
引用:
@article{huang2026pointworld,
title ={PointWorld: Scaling 3 D World Models for In-The-Wild Robotic Manipulation},
author ={Huang, Wenlong and Chao, Yu-Wei and Mousavian, Arsalan and Liu, Ming-Yu and Fox, Dieter and Mo, Kaichun and Fei-Fei, Li},
journal ={arXiv preprint arXiv:2601.03782 },
year ={2026 }
}
主页: https://point-world.github.io/
原文: https://arxiv.org/pdf/2601.03782
代码、数据和视频: https://github.com/huangwl18/PointWorld
文章概括
人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。
通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),这种建模方式能够直接以机器人的物理几何结构为条件,同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型,我们构建了一个大规模数据集,涵盖开放世界环境中真实与仿真的机器人操作任务,这得益于近年来三维视觉与仿真环境的发展;该数据集共包含约 200 万条轨迹、500 小时的数据,涉及单臂 Franka 机器人和双臂人形机器人。
通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究,我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度,POINTWORLD 可以高效地集成到模型预测控制(MPC)框架中,用于机器人操作任务。我们展示了,仅凭一个预训练模型权重,真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务,且无需任何示范数据或后续训练,全部仅基于一张在自然环境中拍摄的单幅图像。代码、数据集以及预训练模型权重将全部开源。
核心问题与输入输出解析
1) 这段话到底想解决什么问题?
机器人在真实环境里做事(推箱子、拉抽屉、擦桌子、拿布、清理垃圾……)最大的难点是:世界不是静止的:你一动,物体会动、会滑、会倒、会变形。真实环境复杂:厨房、桌面、地面、杂物堆,各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。
所以他们想做一个东西:给机器人一个'会预言未来'的世界模型 ——你告诉它'现在世界长啥样 + 机器人要怎么动',它就能预测接下来整个场景会怎么变化。
2) 这模型的输入输出是什么?(这是最核心的主线)
输入 A:静态点云(Scene Point Cloud)
你可以把'点云'理解成:用很多很多 3D 小点拼出来的世界(桌面、物体、地面、墙……每个点有 3D 坐标,可能还有颜色)。图里写"RGB-D image",意思是:用一张 RGB-D(彩色 + 深度)图像,就能算出一个点云。
输入 B:动作描述(Robot 3D Point Flows)
他们不是用'关节角、力矩'这种强绑定某个机器人的动作表达,而是用一种更'通用'的表达:用机器人本体上的一些 3D 点(例如手臂、夹爪上的采样点)用这些点将要怎么移动来表示动作(也就是'点的位移')。
这就是文中说的 embodiment-agnostic(与机器人本体无关) :不管你是单臂、双臂、人形、移动机器人,只要你能把'机器人会怎么动'表达成'这些点会怎么走',模型就能理解。
输出:全场景 3D 点流(Full-scene 3D point flows)
'点流(point flow)'你可以把它当成:每一个场景点,都会得到一个箭头(3D 位移向量) ,告诉你它接下来会往哪儿走、走多远。
桌上的盒子会被推走 → 盒子上的点箭头都指向滑动方向
布被拉动 → 布上的点箭头呈现拉扯形变
抽屉被拉开 → 抽屉点云整体平移
甚至周围被挤压、碰撞导致的连带运动,也用点箭头表示
一句话总结输入输出:输入:世界的'3D 点照片' + 机器人动作的'3D 点运动' 输出:整个世界里每个点'下一刻会怎么动'
1. Introduction 在非结构化环境中进行世界建模对于通用型机器人而言至关重要,其目标是根据机器人所看到的内容以及其计划通过身体执行的动作,预测世界将如何演化。人类仅凭一次观察与一次抓取,便能够预测物体的形变、关节运动、稳定性与接触情况,这揭示了当世界建模目标在三维空间中以'预想动作'为条件时,能够捕捉到多么丰富的信息(见图 3)。
大量已有研究从互补的角度对世界建模问题进行了探索。基于物理的模型虽然能够实现高度精确的预测,但面临仿真到现实的差距问题,并且需要针对具体环境进行精细化建模。基于学习的动力学模型通过从观测到的交互中学习来缓解这一问题,但往往依赖于特定领域的归纳偏置。与此同时,大规模训练的视频生成模型虽然能够生成逼真的视觉预测,但缺乏显式的动作条件建模,并且在物理一致性方面往往表现不足。
我们的核心理念是通过统一表示来实现规模化:将状态与动作统一表示在同一种三维物理空间模态中。状态由基于 RGB-D 采集构建的完整场景三维点云表示;动作则表示为从智能体自身本体实例化得到的稠密三维点轨迹。在这种表示下,三维世界建模等价于对在机器人点序列扰动下的全场景三维点流进行建模 。通过对与目标无关的交互几何进行建模,POINTWORLD 旨在捕捉物理世界的'单一真实源',并能够自然地从异构的机器人本体、任务与轨迹中进行学习。
为提供监督信号,我们构建了一个用于三维动力学建模的大规模数据集,涵盖数百个真实环境场景中的单臂、双臂及全身交互,同时覆盖真实与仿真两种域。借助该数据集,我们通过对主干网络结构、动作表示方式、学习目标等方面进行严格研究,总结并提炼了大规模三维动力学学习中的关键设计决策。
2. Related Work World Modeling. 世界模型是一类预测模型,用于在给定当前状态与动作的情况下模拟未来状态。视频模型采用像素空间作为状态表示,三维世界模型则作用于网格或显式表面表示、辐射场或高斯表示,以及粒子表示。POINTWORLD 使用三维点流作为共享的状态—动作表示,强调接触与几何而非外观。
Dynamics Models in Robotics. 机器人领域中的动力学模型将世界模型具体化到机器人动作空间中。这些模型包括基于物理的仿真器以及基于学习的方法。尽管现有动力学模型通常需要针对具体场景进行精细化建模,我们的目标是预训练一个能够跨越多样真实环境进行泛化的单一动力学模型。
2D and 3D Flows for Manipulation. 流(或点轨迹)用于建立跨越空间与时间的对应关系。在本工作中,我们利用三维视觉领域的最新进展,从大规模真实世界机器人操作数据中标注三维场景流,从而通过稳定的回归损失函数训练大规模三维世界模型。
3. Method
POINTWORLD 做的事: 给它 当前世界的 3D 点云 (从 RGB-D 来) + 机器人未来一小段时间要怎么动 (从关节动作+URDF 算出来的'机器人点流'),它就一次性预测:未来 H 步里,场景里每个点会往哪里走 (全场景 3D 点流)。
我们将三维世界建模表述为以动作为条件的全场景三维点流预测 。随后,我们介绍 POINTWORLD 如何用于动作推断,并讨论其在本工作所探究的模型预测控制框架中的应用场景。
3.1. 3D World Modeling with POINTWORLD 我们将环境动力学建模为一个由参数 θ 表示的神经网络 Fθ : S × A → S,该网络在给定当前状态和机器人动作的情况下预测下一状态。相比之下,我们采用一种用于数据驱动建模的多步(分块)建模方式:模型在一次前向推理中预测长度为 H 的未来状态序列,该方式能够提升时间一致性并摊销计算开销。在实现中,我们使用 H = 10 个时间步,每个时间步对应 0.1s。
State Representation. 在本工作中,我们采用点流 (亦称为粒子)作为环境状态表示。形式化地,令 st = {(pt,i, fiS)} 表示时刻 t 的点流状态,其中包含 NS 个点,每个点具有三维位置 pt,i ∈ R3,以及维度为 DS 的时间不变特征 fiS ∈ RDS。
与其他表示方式相比,点流在机器人操作的世界建模中具有以下优势:
(i) 强调三维几何之间的物理交互,而非外观信息;
(ii) 能够直接从部分可观测环境中的任意 RGB-D 采集中获得,且不依赖物体性或材料属性的先验假设;
(iii) 通过对位移使用 L2 损失即可实现简单且稳定的训练,而无需进行排列匹配;
(iv) 具有足够的表达能力以刻画多样且精细的接触动力学。
Action Representation. 为了能够从异构机器人本体中学习,我们再次采用三维点流作为表示方式。然而,与通过 RGB-D 采集获得的场景点流不同,机器人点流是通过正向运动学预测机器人自身几何结构生成的,该过程利用的是先验已知的 URDF 描述文件。这种设计是有意为之,旨在确保'想象中的动作'在表示上是完全可观测 的,而非部分可观测,同时仍保持与具体机器人本体无关。
Dynamics Prediction. 在上述状态—动作表示的基础上,模型的输入包括一个静态的全场景点云 st,以及一段时间序列形式的机器人点流动作 at:t+H−1。我们并未设计定制化网络结构,而是有意构建在最先进的点云主干网络之上。为此,我们将初始场景点与按时间堆叠的机器人点进行拼接,形成一个统一的点云,并交由主干网络处理。
场景点通过投影至二维视角后,使用冻结的 DINOv3 编码器进行特征提取;而机器人点则采用时间嵌入进行特征编码。点云主干网络对拼接后的点云进行处理,并为所有点输出对应的特征表示。随后,一个共享的 MLP 预测头在一次前向推理中,预测长度为 H 的时间块内,每个时间步上场景点的逐点位移。
Training Objective. 尽管该建模形式天然适用于标准的回归目标,但三维世界建模引入了两个需要精心设计的独特挑战:(i) 由于需要进行全场景预测,机器人往往只操控场景中的一小部分区域,因此大多数点是静止的,直接使用标准的 L2 损失会导致训练信号极其稀疏;(ii) 真实世界数据具有噪声,因此需要对模型进行正则化,使其对噪声具有鲁棒性。
为应对挑战 (i),我们采用加权回归目标,根据真实运动信息为每个时间步上的每个点分配一个软运动概率 mk,i ∈ [0, 1],从而将损失函数聚焦于发生运动的点。为应对挑战 (ii),我们采用偶然不确定性(aleatoric uncertainty)正则化 方法,为每个时间步 k 上的每个点 i 预测一个标量对数方差 sk,i,并在残差项上使用 Huber 损失。
完整的训练目标函数为:
$$ \frac{1}{2}\sum_{k,i}^{H, N_S} w_{k,i} \Big( \rho_\delta(\hat{\mathbf{P}}{t+k,i}-\mathbf{P} {t+k,i}) e^{-s_{k,i}} + s_{k,i} \Big) $$
3.2. POINTWORLD for Robotic Manipulation 如第 2 节所述,一个预训练的 POINTWORLD 能够支持多种机器人应用场景。在本工作中,我们具体研究这样一个问题:是否仅凭一个预训练的 POINTWORLD,就能够在未见过的、真实自然环境中,仅基于单张 RGB-D 观测完成动作推断,而无需在部署阶段进行任何额外示范或后续训练。
为此,我们将 POINTWORLD 集成进一个模型预测控制(MPC)框架中,并采用基于采样的规划器 MPPI,在模型状态空间中定义代价函数,从而规划一段长度为 T 的末端执行器 SE(3) 位姿序列。整体优化问题被表述为一个全局轨迹优化问题:
$$ \argmin_{\mathbf{E}{0:T}} \sum {k=1}^{T}\Big[c_{\text{task}}(\mathbf{s}k)+c {\text{ctrl}}(\mathbf{E}_k)\Big] $$
4. Dataset Curation and Evaluation Protocol 准确且大规模的三维数据对于第 3 节中的世界模型在真实环境中的泛化能力至关重要。除动作标注外,数据集还需要具备准确的空间感知能力(即高保真深度)、手眼标定(即相机在机器人基坐标系下的外参),以及在遮挡条件下的逐像素对应关系匹配(即点追踪)。
3D Annotation for Real-World Data. 我们利用 DROID 数据集,该数据集记录了多样化的真实世界机器人交互场景。前沿的三维重建模型可以从 RGB 图像中联合估计深度和相机参数,但其生成的深度图过于平滑,且相机位姿可能与真实值存在数十厘米的偏差。
在大量实验之后,我们采用了一条三阶段标注流水线,将多个学习模型与专门设计的优化过程相结合。首先,我们使用 FoundationStereo 估计的立体视觉深度替换传感器深度。其次,我们通过一种优化过程对 VGGT 初始化的相机位姿进行细化。第三,在获得准确的深度与外参之后,我们使用 CoTracker3 进行逐像素点追踪。
Simulation (BEHAVIOR-1K). 为补充真实世界数据,我们使用 BEHAVIOR-1K(B1K),该数据集在逼真的家庭尺度环境中提供了约 1100 小时的遥操作交互数据。我们利用仿真中可获得的特权信息对轨迹进行筛选,仅保留机器人与物体存在主动接触且物体具有非零运动的轨迹。
Model Evaluation Protocol. 我们使用预测时间范围内逐点、逐时间步的 ℓ2 距离,对 POINTWORLD 及其他基线方法的点流预测结果进行评估。由于在机器人交互过程中大多数场景点保持静止,我们将评估重点放在运动点上(ℓ2 mover)。
5. Experiments 以真实世界数据为重点,我们总结并梳理了在扩展三维世界模型规模过程中获得的一系列经验性结论。
5.1. Scaling 3D World Models: A Roadmap 现代点云主干网络(PTv3)在三维世界建模中表现出良好的建模能力、高效性与可扩展性。将 GBND 基线模型扩展至我们的数据集规模时,暴露出两个主要挑战:内存消耗迅速增长,以及在部分可观测条件下,纯局部的信息传递机制表现不佳。在这些方法中,PointTransformerV3(PTv3)展现出最强的建模能力。
运动加权、不确定性正则化以及 Huber 损失函数能够显著稳定真实世界数据上的三维世界模型学习过程。 朴素的 ℓ2 损失难以优化,因为在任一时刻只有极少比例的点发生运动。综合这些改动后,模型训练更加稳定,且相较于未加权的 ℓ2 基线方法,预测精度得到显著提升。
预训练的二维特征提供了关键的先验信息,并带来了显著性能提升。 遵循文献的思路,我们假设 DINOv3 提供的稠密特征能够在无需显式分割的情况下提供物体性先验。这一简单的改动便显著提升了模型相对于基线方法的精度。
为了有效吸收大规模世界建模数据,模型规模扩展是必要的。 将模型参数规模从 5000 万扩展至 10 亿,在三维世界建模中同样带来了平滑、近似对数线性的性能提升。
5.2. Ablations 将动作表示为夹爪上的点流,在有效且高效的接触建模之间取得了平衡,并能够在异构机器人形态之间实现正迁移。 在 POINTWORLD 中,机器人动作被表示为夹爪上的稠密点流。实验结果表明,仅使用夹爪点流的方法有效缓解了真实世界数据上的学习信号掩盖问题,并取得了最佳性能。
在训练和推理阶段均采用分块预测,可以减少轨迹推演漂移,同时提升计算效率。 当训练与推理策略保持一致时,教师强制方法优于自回归输入方法。在训练和测试阶段均采用完整时间范围的分块预测,可以在仅需一次前向推理的情况下同时最小化漂移并摊薄计算开销。
POINTWORLD 对不同程度的部分可观测性具有较强鲁棒性,并且在训练与推理阶段均能从额外相机中获益。 随机视角模型在所有测试相机数量设置下均表现出最强的鲁棒性,这表明在训练阶段接触多样化的可观测性,有助于模型在推理阶段于部分可观测条件下推断物体属性与物理特性。
5.3. Generalization and Transfer 我们研究了 POINTWORLD 在零样本和微调两种设置下,于域内、跨域以及保留的真实世界环境中的泛化能力。
POINTWORLD 在域内具有良好的泛化能力。 我们在训练过程中未见过的 DROID 与 B1K 保留子集上,研究了域内迁移能力。这表明 POINTWORLD 并非仅仅记忆训练样本。
预训练的 POINTWORLD 能够通过高效微调实现从真实到仿真以及从仿真到真实的双向迁移。 仅使用原始训练步数的 5% 进行微调,便可迅速缩小与使用多 20 倍更新次数、从零训练的领域专用模型之间的性能差距。
POINTWORLD 能够在零样本设置下泛化到未见过的真实世界环境中,并在仅使用 20 倍更少更新次数进行微调后超越专用模型。 基于其余 DROID 数据预训练的 POINTWORLD 仍能达到与在该保留实验室数据上训练的专用模型相当的性能。
5.4. Model-Based Planning with POINTWORLD 在多样化交互数据上完成预训练后,我们测试 POINTWORLD 是否能够在真实自然环境中的物理机器人上以零样本方式部署用于操作任务。仅依赖预训练模型和统一的 MPC 框架,POINTWORLD 即可为多种真实世界任务优化动作,包括:刚体物体的非抓取式推动、可变形物体操作、关节物体操作以及工具使用。
6. Conclusion 我们提出了 POINTWORLD,一种大规模预训练的三维世界模型,其在统一的三维点流表示下,能够基于真实环境中的 RGB-D 观测与机器人动作预测三维环境动力学。通过系统的实验评估,我们深入研究了三维世界模型训练的扩展方法。在多样化数据上完成预训练后,单个 POINTWORLD 模型即可在真实世界中实现多种实用的操作行为。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online