编程语言AI算法

PointWorld: 大规模 3D 世界模型用于野外机器人操作

综述由AI生成POINTWorld 提出一种大规模预训练的三维世界模型，统一状态与动作表示为三维点流。该模型基于 RGB-D 图像和机器人动作指令，预测场景内每个像素在三维空间中的位移变化。通过构建包含约 200 万条轨迹的大规模数据集，结合真实与仿真环境数据，实现了跨不同机器人本体的统一学习。模型支持实时推理，可集成到模型预测控制框架中，无需额外训练即可完成刚体推动、可变形物体及工具使用等操作任务。

beaabea发布于 2026/4/10更新于 2026/6/215 浏览

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

人类仅凭一眼观察以及对自身动作的预想，便能够预测三维世界将如何作出响应，而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD，一个大规模预训练的三维世界模型，该模型将状态与动作统一表示在同一三维空间中，并以三维点流（3D point flows）的形式建模：在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下，POINTWORLD 能够预测每个像素在三维空间中的位移变化，以响应所给定的动作。通过将动作表示为三维点流，而非依赖于具体机器人本体的动作空间（例如关节位置），这种建模方式能够直接以机器人的物理几何结构为条件，同时自然地实现跨不同机器人本体的统一学习。为训练该三维世界模型，我们构建了一个大规模数据集，涵盖开放世界环境中真实与仿真的机器人操作任务，这得益于近年来三维视觉与仿真环境的发展；该数据集共包含约 200 万条轨迹、500 小时的数据，涉及单臂 Franka 机器人和双臂人形机器人。通过对主干网络、动作表示、学习目标、部分可观测性、数据混合、跨域迁移以及规模扩展等方面开展严格的大规模实证研究，我们总结并提炼了大规模三维世界建模的设计原则。凭借 0.1 秒的实时推理速度，POINTWORLD 可以高效地集成到模型预测控制（MPC）框架中，用于机器人操作任务。我们展示了，仅凭一个预训练模型权重，真实世界中的 Franka 机器人便能够完成刚体推动、可变形物体与关节物体操作以及工具使用任务，且无需任何示范数据或后续训练，全部仅基于一张在自然环境中拍摄的单幅图像。

![图片]

图 1. POINTWORLD 是一个大规模预训练的三维世界模型，它以静态点云以及与机器人本体无关的动作描述作为输入（该动作同样以三维点流的形式表示），从而预测整个场景的三维点流。我们构建了一个大规模的三维动力学建模数据集，涵盖真实与仿真环境中的单臂、双臂、全身以及移动操作等多种交互形式。通过细致而系统的评估，我们对三维世界模型规模化扩展的关键方法进行了严格研究。在多样化数据上完成预训练后，仅凭一个模型、仅输入一张在真实环境中采集的 RGB-D 图像，便可在真实物理硬件上实现多种不同的操作行为，而无需额外数据或微调。

1) 这段话到底想解决什么问题？

机器人在真实环境里做事（推箱子、拉抽屉、擦桌子、拿布、清理垃圾……）最大的难点是：世界不是静止的：你一动，物体会动、会滑、会倒、会变形。真实环境复杂：厨房、桌面、地面、杂物堆，各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。

所以他们想做一个东西：给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动'，它就能预测接下来整个场景会怎么变化。

2) 这模型的输入输出是什么？（这是最核心的主线）

这段话的输入输出非常明确：

输入 A：静态点云（Scene Point Cloud）

你可以把'点云'理解成：用很多很多 3D 小点拼出来的世界（桌面、物体、地面、墙……每个点有 3D 坐标，可能还有颜色）。图里写'RGB-D image'，意思是：用一张 RGB-D（彩色 + 深度）图像，就能算出一个点云。

输入 B：动作描述（Robot 3D Point Flows）

他们不是用'关节角、力矩'这种强绑定某个机器人的动作表达，而是用一种更'通用'的表达：用机器人本体上的一些 3D 点（例如手臂、夹爪上的采样点）用这些点将要怎么移动来表示动作（也就是'点的位移'）

这就是文中说的 embodiment-agnostic（与机器人本体无关）：不管你是单臂、双臂、人形、移动机器人，只要你能把'机器人会怎么动'表达成'这些点会怎么走'，模型就能理解。

输出：全场景 3D 点流（Full-scene 3D point flows）

'点流（point flow）'你可以把它当成：每一个场景点，都会得到一个箭头（3D 位移向量），告诉你它接下来会往哪儿走、走多远。桌上的盒子会被推走 → 盒子上的点箭头都指向滑动方向布被拉动 → 布上的点箭头呈现拉扯形变抽屉被拉开 → 抽屉点云整体平移甚至周围被挤压、碰撞导致的连带运动，也用点箭头表示

一句话总结输入输出：输入：世界的'3D 点照片' + 机器人动作的'3D 点运动' 输出：整个世界里每个点'下一刻会怎么动'

1. Introduction

在非结构化环境中进行世界建模对于通用型机器人而言至关重要，其目标是根据机器人所看到的内容以及其计划通过身体执行的动作，预测世界将如何演化。人类仅凭一次观察与一次抓取，便能够预测物体的形变、关节运动、稳定性与接触情况，这揭示了当世界建模目标在三维空间中以'预想动作'为条件时，能够捕捉到多么丰富的信息（见图 3）。动作发生在物理规律所支配的空间与时间之中：我们的目标是在开放世界环境下，仅依赖感知输入，构建一个能够进行这种具有空间约束、以动作为条件的预测模型，这也是空间智能的终极目标之一 [1]。

编程语言AI算法

PointWorld: 大规模 3D 世界模型用于野外机器人操作

beaabea发布于 2026/4/10更新于 2026/6/215 浏览

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

![图片]

1) 这段话到底想解决什么问题？

机器人在真实环境里做事（推箱子、拉抽屉、擦桌子、拿布、清理垃圾……）最大的难点是：世界不是静止的：你一动，物体会动、会滑、会倒、会变形。真实环境复杂：厨房、桌面、地面、杂物堆，各种形状材质。你不可能为每一种场景、每一种机器人、每一种动作都手写物理规则。

所以他们想做一个东西：给机器人一个'会预言未来'的世界模型——你告诉它'现在世界长啥样 + 机器人要怎么动'，它就能预测接下来整个场景会怎么变化。

2) 这模型的输入输出是什么？（这是最核心的主线）

这段话的输入输出非常明确：

输入 A：静态点云（Scene Point Cloud）

你可以把'点云'理解成：用很多很多 3D 小点拼出来的世界（桌面、物体、地面、墙……每个点有 3D 坐标，可能还有颜色）。图里写'RGB-D image'，意思是：用一张 RGB-D（彩色 + 深度）图像，就能算出一个点云。

输入 B：动作描述（Robot 3D Point Flows）

他们不是用'关节角、力矩'这种强绑定某个机器人的动作表达，而是用一种更'通用'的表达：用机器人本体上的一些 3D 点（例如手臂、夹爪上的采样点）用这些点将要怎么移动来表示动作（也就是'点的位移'）

这就是文中说的 embodiment-agnostic（与机器人本体无关）：不管你是单臂、双臂、人形、移动机器人，只要你能把'机器人会怎么动'表达成'这些点会怎么走'，模型就能理解。

输出：全场景 3D 点流（Full-scene 3D point flows）

'点流（point flow）'你可以把它当成：每一个场景点，都会得到一个箭头（3D 位移向量），告诉你它接下来会往哪儿走、走多远。桌上的盒子会被推走 → 盒子上的点箭头都指向滑动方向布被拉动 → 布上的点箭头呈现拉扯形变抽屉被拉开 → 抽屉点云整体平移甚至周围被挤压、碰撞导致的连带运动，也用点箭头表示

一句话总结输入输出：输入：世界的'3D 点照片' + 机器人动作的'3D 点运动' 输出：整个世界里每个点'下一刻会怎么动'

1. Introduction

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

图 2 在讲什么

图 2 从上到下就是完整管线：

(1) 输入 1：RGB-D 观测（RGB-D Obs）你拍一张 RGB-D（彩色 + 深度）。深度告诉你每个像素离相机多远，所以能反推出 3D 坐标。这样你就能得到场景点云（scene points）：桌子、物体、背景墙……一堆 3D 点。

(2) 输入 2：关节动作+URDF（Joint Actions + Robot URDF）关节动作：比如未来 H 步的关节角序列 q_{t+k}。URDF：机器人的结构说明书（每个关节连着哪根连杆、连杆形状、坐标系怎么连）。

有了这两样，你就能用正向运动学（Forward Kinematics）算出：机器人身体表面上某些点，在未来每个时刻的位置会在哪里。

这就得到机器人点流（Robot Flows）：一串'机器人点云随时间怎么移动'。

(3) 拼接：Concatenated Point Cloud（拼成一个统一点云）

把：场景点（静态采集到的点）机器人点（未来会动的点，按时间堆叠）

直接拼在一起，作为一个'统一点云'。论文用词叫：embodiment-agnostic interaction geometry 直白翻译：不管你是什么机器人，把它都变成点；点的运动表达动作；这样动作表达不依赖'某个特定机器人关节定义'。

(4) 特征编码

拼接后每个点要带'特征'，不然网络只能看到坐标，理解能力弱。场景点特征：冻结 DINOv3 做法是：把 3D 点投影回 2D 图像上，用 DINOv3 从图像抽特征，再贴回点上。'冻结'意思是：DINOv3 参数不训练，它只是一个固定的'视觉特征提取器'。

(5) 主干网络：Point Cloud Backbone（PTv3）

把带特征的'统一点云'丢进一个 SOTA 点云主干（PTv3），输出每个点的深层表示。

(6) 输出：Predicted Full-Scene Point Flow

最后用一个共享 MLP 头，把主干输出转成预测：对场景点：未来 H 步每一步的 3D 位移（或位置）也就是：全场景点流预测

机器人点特征：时间嵌入（Time Embed） 机器人点很关键：同一个点在 t、t+1、…对应不同时间。时间嵌入就是给机器人点加一个'第几步'的标记，让网络知道：

这是未来第 k 步机器人会到的位置，而不是现在的位置。

3.1.3 Dynamics Prediction：网络结构到底怎么做预测

'动力学预测'在这里就是一句话：已知现在世界长什么样（静态场景点云 s_t）+ 机器人接下来一段时间怎么动（机器人点流序列 a_{t:t+H-1}），预测未来 H 步里，场景里每个点会怎么移动。

注意：他们预测的不是'图片变成什么样'，而是 3D 点怎么动（逐点位移）。

这里论文的态度很明确：不发明新网络，就用成熟点云主干来研究'规模化原则'。

3.1.3.1 输入组织方式：统一点云

输入 A：静态全场景点云 s_t={(p_{t,i}, f_i^S)}_{i=1}^{N_S}

你可以把它想成：一张'3D 照片'，由很多点组成：每个点有 3D 坐标 (x,y,z) 可能还有颜色/语义特征（后面会讲怎么来）

关键：它是静态的，就是时刻 t 看到的那一堆点。

输入 B：机器人点流序列 a_{t:t+H-1} = {(r_{t+k,j}, f^R_{t+k,j})}_{j=1}^{N_R}

这是'机器人未来动作'的 3D 版本。它不是'关节角向量直接输入'，而是：在机器人（通常是夹爪）表面采样一些点用 URDF+ 正向运动学算出这些点在未来每一步的位置所以你得到一段时间序列：第 1 步机器人点在哪、第 2 步在哪……一直到第 H 步

这段序列就是动作。

然后拼接成一个点云丢给主干网络（PTv3）。

这一步非常核心：让网络在同一个'点集合'里同时看到'世界'和'会动的机器人'，从而学出接触与影响范围。

把'世界的点' + '机器人未来会经过的点' 直接拼在同一个点集合里，形成一个统一点云，喂给点云主干网络。你把它想成：场景点 = 桌子、物体、背景的'静态粒子'机器人点 = 夹爪未来轨迹上的'会移动粒子'拼一起以后，网络看到的是：这些粒子离得近、会发生接触，可能会带动彼此移动。

这就是他们说的核心思想：不用为'接触、碰撞'手写规则，让网络在点的空间关系里自己学。

3.1.3.2 特征怎么来 拼完点云后，每个点需要一个'身份证信息'（feature），否则网络只能看到几何位置，很难理解'这块是布、那块是盒子、那块是桌面纹理'等等。

A. 场景点特征：DINOv3（冻结）投影到 2D，用冻结 DINOv3 取特征，再回填到点

做法是：你有 RGB 图像（来自 RGB-D）把 3D 场景点投影回图像平面（知道这个 3D 点对应图像哪个像素）在那个像素位置，从 DINOv3 抽一个特征向量把这个向量贴回这个 3D 点上

DINOv3 是什么？ 你可以把它当成一个'超级强的视觉特征提取器'，能把像素周围的语义/纹理信息变成向量。

冻结是什么意思？ 训练 PointWorld 时，DINOv3 不更新参数。它像一个固定的'工具人'，稳定提供特征，不参与学习。

为什么要冻结？直觉上有两个好处（不偏离原意）：训练更稳定，世界模型只学动力学，不把视觉编码也搅乱借用大模型预训练的视觉能力，提高泛化

B. 机器人点特征：时间嵌入（Time Embedding）时间嵌入（告诉网络第几步）

机器人点是按时间堆叠的：你会把第 0 步、第 1 步…第 H-1 步的机器人点都放进统一点云里。

这时最大的问题是：同样一堆机器人点，如果不告诉网络'这是第几步'，网络分不清谁是现在、谁是未来第 7 步。

所以他们给机器人点加一个'时间标签'（时间嵌入）：第 k 步的机器人点，带着'k'的编码让网络知道这个点代表未来哪个时刻机器人的位置

你可以把时间嵌入理解成：给每个机器人点贴一个小纸条写着'第 k 帧'。

顺序生成 scene 点坐标 p_{t,i} 生成 robot 点坐标 r_{t+k,j}（按时间堆叠）分别算特征：scene 点特征 f_i^S ← DINOv3(RGB at projected pixel) robot 点特征 f_{k,j}^R ← TimeEmbed(k)（通常再拼一些'点类型标记/局部几何标记'）拼接点：坐标拼接：X=[P;;R] 特征拼接：F=[F^S;;F^R] 把 (X,F) 喂给 PTv3 骨干

3.1.3.3 点云主干网络（PTv3）到底在做什么？

他们说'我们不设计定制化网络结构，而是用最先进的点云主干网络'。不用纠结 PTv3 内部的每层公式（论文此处也没展开），你只要抓住它的功能：输入：一个带特征的'大点集合'（场景点 + 机器人点）输出：每个点一个'更聪明的特征向量'（融合了周围点的信息）

更直白一点：主干网络会做大量'点与点之间的信息交换'，让每个点都知道：我附近有哪些场景点（物体边界、桌面）我附近有没有机器人点（未来会不会来碰我）空间上怎么相对运动（根据时间嵌入暗示未来接触）

所以经过主干网络后，每个场景点的特征已经变成：'考虑了机器人未来动作影响'的场景点表示

3.1.3.4 预测头：共享 MLP 一次输出 H 步逐点位移（这句非常关键）

主干网络输出每个点的特征后，还没直接得到'点会移动多少'。所以他们加一个很简单的预测头：共享的 MLP：同一个小网络，给每个场景点都用一遍（参数共享）一次前向推理：喂一次网络，就把未来 H 步的结果都吐出来输出内容：对每个场景点 i、每个未来时间步 k，输出一个 3D 位移向量 (Δx, Δy, Δz)

你可以想象它输出一个张量：形状大概是：N_S × H × 3 N_S：场景点数 H：未来步数 3：xyz 位移

这就是'分块式（chunk）建模'：一次预测一整段未来，而不是一步一步滚。

3.1.3.5 为什么这种'分块式'会很快？（以及为什么适合 MPC）

他们强调速度：一次批量前向约 0.1s，能评估大量候选轨迹。这里的逻辑是：

A. MPC 需要'试很多动作'

MPC（模型预测控制）的核心动作是：你有很多候选动作序列（很多条未来轨迹）你要用世界模型预测每条轨迹会导致什么结果选最好的那条

所以世界模型越快，你能试的候选轨迹越多，MPC 越强。

B. 为什么一次预测 H 步比逐步预测快？

如果你逐步预测：要跑 H 次网络（每步一次）

如果你分块预测：只跑 1 次网络，直接输出 H 步

这就叫'摊销计算开销'（amortize computation）：一次计算，得到整段结果。

整个推理流程（deployment/inference）到底长什么样？

下面是'从输入到输出'的完整推理链路，按真正运行顺序写。

1. 输入一张标定 RGB-D（单视角或多视角都可）机器人 URDF + 当前关节状态（用于 mask 机器人像素）未来 H 步的动作（训练时来自数据，控制时来自规划器）

**2. 构建场景点云（scene points）**用 URDF+FK 投影机器人到图像，mask 掉机器人像素对剩余像素用深度反投影得到 3D 点：P={p_{t,i}}_{i=1}^{N_S}

3. 构建机器人点流（robot points across time）

给定关节序列 {q_{t+k}}{k=0}^{H}：在夹爪表面采样点（几百个）并绑定到连杆用 FK 把这些点推进到每个时刻 t+k，得到 R_k={r{t+k,j}}{j=1}^{N_R} 把所有时间的机器人点按时间堆叠：R=⋃{k=0}^{H-1}R_k (点数大约是 H·N_R) 注意：这个'时间堆叠'非常关键：你不是只给骨干一个'当前机器人点云'，而是把'未来每一步机器人会在哪里'的几何都塞进去，让网络能推断接触会发生在什么时候/哪里。

4. 给点加特征（feature）

4.1 scene 点特征（DINOv3）

对每个 scene 点 p_{t,i}：投影回图像得到像素 (u_i,v_i) 从冻结 DINOv3 的特征图里取一个向量得到 f_i^S

4.2 robot 点特征（time embedding）

对每个 robot 点 r_{t+k,j}：取其时间步索引 k，算时间嵌入向量 e(k) 作为 f_{k,j}^R（也可拼点类型 one-hot，这属于实现细节）

B5. 拼接成'一个'联合点云，送入 PTv3 骨干坐标：X=[P;;R] 特征：F=[F^S;;F^R]

把 (X,F) 一次性送进 PTv3。 PTv3 输出每个输入点的高维表示 Z。

B6. 预测头输出未来 H 步场景点位移

共享 MLP head 只对场景点那部分输出：每个 scene 点 i 每个未来步 k 预测 Δp_{k,i}∈R^3 或者直接预测 P^_{t+k,i}

最终得到：未来 H 步的场景点位置序列（点流轨迹）。

0）先把背景钉牢：这个模型训练时到底在学什么？

模型每次输入：现在的场景点云（很多点）机器人未来 H 步动作（机器人点流）

模型输出：未来 H 步里，场景里每个点的 3D 位置（或位移）

所以训练最朴素的想法是：对每个点、每个未来时间步，把'预测位置'和'真实位置'做差，然后用 L2（平方误差）去最小化。但他们说：这样会出两个大问题。这一段就是在解决这两个问题。

Step 1：在 t 帧 RGB-D 中'选好一批点'

这一步是训练数据构建阶段做的，不是网络做的。

典型做法（完全符合论文精神）：拿 t 时刻的 RGB-D mask 掉机器人像素在剩余像素里 采样 N_S 个像素（比如 500～2000 个）对每个像素 (u_i,v_i)t：用深度反投影得到 3D 点 p{t,i} 记录这个点的 索引 i

到这里你已经有了：点集合：{p_{t,i}}_{i=1}^{N_S} 每个点在 RGB 中的原始像素位置 (u_i,v_i)_t 🔑 这一步就已经'锁死'了点的身份 以后所有监督、预测、损失，都是围绕这同一批点 i=1…N_S

Step 2：训练时网络到底在预测什么？

网络输入的是：这 N_S 个点在 t 时刻的 3D 位置（scene points）机器人未来 H 步的 robot point flows

网络输出的是：P^{t+1,i}, P^{t+2,i}, …, P^_{t+H,i} 👉 第 i 个'初始点'在未来每一步的预测 3D 位置

注意：网络不是在'生成新的点云'，而是在做一个 index-preserving 的逐点回归：

输入点 i ──▶ 输出未来的点 i

Step 3：真值是怎么来的？——你说的 2D tracking 正是这里用的

对这 同一批初始点 i，做下面的事：

3.1 在 RGB 中做 2D tracking 用 2D tracker（光流 / 点追踪器）把 (u_i,v_i)t 追踪到：(u_i,v_i){t+1}, (u_i,v_i){t+2}, …, (u_i,v_i){t+H} 如果某一步：遮挡出画面跟丢 👉 标记为 不可见

3.2 把追踪到的像素再变回 3D（这一步你已经说对了）

对每个可见的 (u_i,v_i){t+k}：用 t+k 时刻的深度图反投影得到：P{t+k,i}∈R^3 这就是训练用的 真值 3D 位置

Step 4：训练损失为什么能'对得上号'？**

现在你有：网络预测：P^{t+k,i} 真值标签：P{t+k,i}

它们的 i 是 同一个索引，因为：i 来自 t 帧选点tracking 是 **'追这个 i'**网络预测是 '预测这个 i'

所以损失函数里的：|P^{t+k,i} - P{t+k,i}|

在语义上是完全对齐的，不需要任何 matching、Hungarian、ICP 之类的操作。

👉 这正是论文敢说 '无需排列匹配（no permutation matching）' 的真正原因。

Step 5：那'联合点云''点云骨干'在这套里扮演什么角色？

关键澄清一句：点云骨干只是一个函数 f(i)，它不会创造点，也不会改变点的身份。

流程是：输入是一个数组：index i : [scene point i , robot points...] PTv3 内部怎么做 attention / pooling 是它的事输出仍然是：index i : feature of point i

MLP 头再对 同一个 i 输出 P^_{t+k,i}

所以：tracking 负责'点的身份在时间上的延续'点云网络负责'在空间中理解谁会被机器人影响'

两者不冲突，分工明确

1）问题（i）：大多数点不动 → 直接 L2 会让模型'偷懒'

1.1 直觉：如果 90% 的点都静止，会发生什么？

举个极端例子：桌面上 100 万个点，机器人只碰到盒子上那一小撮点，真正运动的可能只有几千点。

如果你用普通 L2，总损失大部分来自'不动点'：对不动点，真值位移≈0 模型只要学会'所有点都预测不动'，损失就能很小结果：模型会倾向于忽视真正运动的少数点

所以论文说'训练信号稀疏'：不是没信号，而是'有用信号被海量静止点淹没'。

1.2 他们的解决：给'会动的点'更高权重

核心思想一句话：先根据真值判断哪些点真的在动，然后训练时主要惩罚这些点。

2）他们怎么判断'这个点在第 k 步是不是在动'？——软运动概率 m_{k,i}

2.1 δ_{k,i} 是什么？

δ_{k,i} 是一个数（非负）：取点 i 在第 k 步的真实位移向量的长度（范数）位移越大，δ_{k,i} 越大完全不动时，δ_{k,i}=0

你可以把 δ_{k,i} 理解成：'这个点真的移动了多少'。

2.2 为什么不用硬阈值'动/不动'？而用 Sigmoid 软概率？

如果你用硬阈值，比如：位移>1mm 算动，否则不动。那在阈值附近会很不稳定：一点点噪声就把点从'动'翻成'不动'。

所以他们用 Sigmoid 做'软开关'：m_{k,i}=σ(κ(δ_{k,i}-τ))

你这样读它：τ：位移阈值（比如'超过这个量我才认为真的动了'）κ：温度/斜率（控制过渡有多陡）σ：Sigmoid，把任何数压到 [0,1]

结果是：若 δ_{k,i}≪τ：m_{k,i}≈0（基本不动）若 δ_{k,i}≫τ：m_{k,i}≈1（明显在动）若 δ_{k,i}接近 τ：m_{k,i} 在 0 到 1 之间（'有点动但不确定'）

一句话：m_{k,i} 就是'这个点在这一步有多像在动'的分数。

3）权重 w_{k,i}：把训练注意力集中到运动点上

他们把 m_{k,i} 归一化：w_{k,i}=m_{k,i}/∑{k,i}m{k,i}

这一步很多人会卡住，我直接说清楚：归一化后，所有 w_{k,i} 加起来等于 1（像概率分布）如果只有少数点真正在动，那么这些点的 m 接近 1，权重就会很大大量静止点 m 接近 0，权重就很小（几乎不贡献损失）

这就等于告诉训练：别把力气浪费在'本来就不动'的点上，重点盯着'被机器人影响的那部分点'。

4）问题（ii）：真实数据有噪声 → 需要让模型对噪声'更稳'

现实世界里，真值并不完美：深度传感器有噪声 2D 追踪器生成伪真值会错遮挡/反光会让点的位置抖动

如果你还用普通 L2：少量错误点（离群点）会产生巨大梯度训练会被'假真值'带跑，模型不稳

所以他们加了两层'抗噪声设计'：Huber 损失（比 L2 更抗离群点）偶然不确定性（aleatoric uncertainty）正则化（模型自己学会：哪些点本来就很噪，别太自信）

下面把这俩讲透。

5）Huber 损失 ρ_δ：为什么比 L2 稳？

Huber 是'介于 L1 和 L2 之间'的损失，你可以这样记：误差小的时候像 L2：平滑、好优化误差大的时候像 L1：增长没那么快，不会因为一个离群点把损失炸飞

ρ_δ(r) = { 1/2 r^2, |r|≤δ; δ(|r|-1/2 δ), |r|>δ }

直觉：真实数据里偶尔会有'追踪器错得离谱'的点，Huber 不会让这种点把训练拖垮。

论文说'逐元素 Huber'意思是对 3D 残差的每个坐标分量做 Huber（实现细节），总之核心是'抗离群'。

6）偶然不确定性：s_{k,i}、e^{-s_{k,i}}、+s_{k,i} 到底在干嘛？

'aleatoric uncertainty 正则化'的核心：模型自适应地给每个点、每个时间步分配一个噪声尺度，用来调节损失权重，并用一个项约束它别乱报。

这是这一段最容易卡住的地方，我用一个'很直白的机制'解释：

6.1 模型除了预测位置，还额外预测一个'噪声大小'。也就是说，网络最后不只输出位置/位移，还输出一个额外通道：位置预测：P^{t+k,i}∈R^3 不确定性预测：s{k,i}∈R

对每个点 i、每个时间步 k，模型预测一个标量：s_{k,i}：对数方差（log variance）

你不用怕'对数方差'这四个字，它的作用就是：数越大表示：模型认为这个点这个时刻的真值越不可靠/噪声越大。

6.2 为什么要用 e^{-s_{k,i}} 乘在残差上？

损失里有一项：ρ_δ(P^-P)e^{-s_{k,i}}

你这样理解：如果模型觉得这里噪声大 → s 大 → e^{-s} 小 → **这点的残差惩罚被'削弱'**如果模型觉得这里很可靠 → s 小 → e^{-s} 大 → 这点的残差惩罚更强

这就像老师批作业：有的题本来就印刷模糊，允许你错一点（惩罚小）有的题很清晰，错了就该扣分（惩罚大）

6.3 但如果模型耍赖：把所有 s 都调很大，不就都不用学了吗？

所以损失里还加了：+s_{k,i}

这就是'反作弊条款'：你说自己不确定（s 大）可以让残差惩罚变小但你要付出代价：s 本身会被加进损失里所以模型不能无限制地把 s 抬高

最终效果是一个平衡：只有当某点的误差确实更像噪声、无法拟合时，模型才'合理地'提高不确定性；否则提高 s 反而得不偿失。

这就是'偶然不确定性正则化'的核心。误差项乘 e^{-s}：噪声越大，误差惩罚越小。加上 +s：噪声越大，自己也要付代价，防止 s→∞的作弊

7）把最终目标函数（式 1）逐块翻译成人话

式 (1) 是：1/2 ∑{k,i}^{H, N_S} w{k,i} ⏟ movement weight ( ρ_δ(P^{t+k,i}-P{t+k,i}) ⏟ Huber loss on 3D residual e^{-s_{k,i}} ⏟ uncertainty weight + s_{k,i} ⏟ uncertainty reg. ) , (1)

你按'外→内'读：

外层：对所有时间步 k=1..H、所有场景点 i=1..N_S 求和

表示：未来每一步、每个点都要管。

w_{k,i}：运动权重

表示：动的点算得多，不动点算得少（解决问题 i）。

括号里第一项：ρ_δ(P^-P)e^{-s}

表示：用 Huber 计算 3D 误差，然后再根据不确定性调整惩罚强度（解决问题 ii 的一半）。

括号里第二项：+s

表示：防止模型把'不确定性'乱报得太大（解决问题 ii 的另一半）。所以整体一句话总结式 (1)：重点惩罚真正运动的点；对噪声大的点允许模型降低惩罚，但必须付出'报不确定性'的代价；同时用 Huber 抵抗离群点。

PointWorld: 大规模 3D 世界模型用于野外机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

1. Introduction

PointWorld: 大规模 3D 世界模型用于野外机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

1. Introduction

更多推荐文章

相关免费在线工具

3. Method

3.1. 3D World Modeling with POINTWORLD

3.2. POINTWORLD for Robotic Manipulation

4. Dataset Curation and Evaluation Protocol

5. Experiments

5.1. Scaling 3D World Models: A Roadmap

5.2. Ablations

5.3. Generalization and Transfer

5.4. Model-Based Planning with POINTWORLD

6. Conclusion

更多推荐文章

相关免费在线工具

PointWorld: 大规模 3D 世界模型用于野外机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

1. Introduction

PointWorld: 大规模 3D 世界模型用于野外机器人操作

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

ABSTRACT

1. Introduction

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Related Work

3. Method

3.1. 3D World Modeling with POINTWORLD

3.2. POINTWORLD for Robotic Manipulation

4. Dataset Curation and Evaluation Protocol

5. Experiments

5.1. Scaling 3D World Models: A Roadmap

5.2. Ablations

5.3. Generalization and Transfer

5.4. Model-Based Planning with POINTWORLD

6. Conclusion

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具