Gaussian Grouping：在三维场景中分割与编辑任意对象

Gaussian Grouping 提出了一种基于三维高斯点的开放世界场景理解方案，解决了高斯投影缺乏细粒度物体级理解的问题。通过引入紧凑的身份编码，结合 SAM 的二维掩码预测与三维空间一致性正则化，该方法实现了对三维场景中任意内容的联合重建与分割。相比隐式 NeRF 表示，其离散分组特性支持高效的场景编辑操作，包括对象移除、修复、着色及风格迁移，在保证视觉质量的同时显著提升了训练与渲染效率。

落日余晖发布于 2026/4/7更新于 2026/7/530 浏览

摘要

高斯投影（Gaussian Splatting）虽然实现了高质量、实时的三维场景新视点合成，但往往只关注外观和几何建模，缺乏对细粒度物体级场景的理解。为了解决这一痛点，我们提出了 Gaussian Grouping，将高斯点扩展为能够联合重建和分割开放世界三维场景中任意内容的能力。核心在于为每个高斯添加了一个紧凑的身份编码（Identity Encoding），使得这些点能够根据其在三维场景中的物体实例或'物体/背景'的成员关系进行分组。该方法不依赖昂贵的三维标签，而是在可微渲染过程中利用 Segment Anything Model (SAM) 的二维掩码预测，结合引入的三维空间一致性正则化来监督身份编码。相比隐式的 NeRF 表示，离散且分组的三维高斯点能够在三维中以高视觉质量、细粒度和高效性来重建、分割和编辑任意内容。

引言

本文旨在构建一种表达力更强的三维场景表示，不仅对外观和几何进行建模，还能捕捉场景中每个实例和物体的身份信息。我们的方法以最近的三维高斯投影为基础，将其从纯粹的重建扩展到细粒度的场景理解。提出的'Gaussian Grouping'方法主要具备以下能力：

同时对场景的每个三维部分进行外观、几何及其掩码身份的建模；
将三维场景完全分解为离散分组，例如表示不同对象实例以便后续编辑；
在不降低原始三维重建质量的前提下，实现快速训练和渲染。

Gaussian Grouping 有效地利用了 SAM 的密集二维掩码提案，并通过辐射场渲染将其提升到三维场景中的任意物体分割。

方法

3D Gaussian Grouping

本节介绍 Gaussian Grouping 的设计细节。为了让三维高斯点具备细粒度场景理解能力，核心思路是在保持高斯点原有属性（如位置、颜色、不透明度和大小）不变的前提下，新增身份编码参数。其格式类似于颜色建模，这使得每个高斯点都能够被分配到在三维场景中所表示的实例或'物体/背景'之中。

Gaussian Grouping 输入流程

(a) 2D 图像与掩码输入 为了准备 Gaussian Grouping 的输入，我们首先使用 SAM 自动为多视图集合中的每张图像生成掩码。2D 掩码是按图像单独生成的。随后，为了在三维场景中给每个 2D 掩码分配一个唯一的 ID，我们需要在不同视图之间关联具有相同身份的掩码，并获得三维场景中实例/物体的总数 K。

(b) 跨视图的身份一致性 我们在训练中不再依赖基于代价的线性分配的做法，而是将三维场景的多视图图像视为视角逐步变化的视频序列。为了实现跨视图的 2D 掩码一致性，我们使用一个训练良好的零-shot 跟踪器来传播并关联掩码。这也提供了三维场景中掩码身份的总数。与文献中提出的基于代价的线性分配相比，我们发现该方法简化了训练难度，同时避免在每次渲染迭代中重复计算匹配关系，从而实现了超过 60 倍的加速。在密集且相互重叠的 SAM 掩码情形下，该方法还展现出比基于代价的线性分配更好的性能。

(c) 3D 高斯渲染与分组 为了在场景的不同视图之间生成一致的三维掩码身份，我们提出将属于同一实例/物体的三维高斯进行分组。除了现有的高斯属性外，我们还为每个高斯引入一个新的参数，即身份编码（Identity Encoding）。这是一个长度为 16 的可学习且紧凑的向量，它在保持计算效率的同时足以区分场景中的不同对象/部件。

在训练过程中，与表示每个高斯颜色的球面调和系数（SH）类似，我们优化引入的身份编码向量，以表示场景的实例 ID。需要注意的是，与场景的视角相关外观建模不同，实例 ID 在不同渲染视图之间是一致的。因此，我们将身份编码的 SH 阶数设为 0，只对其直流分量进行建模。与基于 NeRF 的方法设计额外的语义 MLP 层不同，身份编码作为每个高斯的可学习属性，用于对三维场景进行分组。

最终渲染出的视频 2D 掩码身份特征 $E_{id}$ 在每个像素处是对每个高斯的长度为 16 的 Identity Encoding $e_i$ 的加权求和，权重为该高斯在该像素处的影响因子 $\alpha'_i$。我们通过测量一个带协方差矩阵 $\Sigma^{2D}$ 的二维高斯并乘以一个学习得到的每点不透明度 $\alpha_i$ 来计算 $\alpha'_i$，并且：

$$ \Sigma_{2D} = J_W , \Sigma_{3D} , J_W^T $$

其中 $\Sigma_{3D}$ 是三维协方差矩阵，$\Sigma_{2D}$ 是投影后展开的二维版本。$J_W$ 是三维到二维投影的仿射近似的雅可比矩阵，$W$ 是从世界坐标到相机坐标的变换矩阵。

(d) 组分损失 在对每个训练视图的 2D 实例标签进行关联之后，假设三维场景中共有 K 个掩码。为了按实例/物体掩码身份对每个 3D 高斯点进行分组，我们设计了分组损失 $\mathcal{L}_{id}$，用于更新高斯点的 Identity Encoding，包含两个部分：

Gaussian Grouping：在三维场景中分割与编辑任意对象

摘要

引言

方法

3D Gaussian Grouping

更多推荐文章

相关免费在线工具

用于场景编辑的高斯分组

实验

结论

更多推荐文章

相关免费在线工具

Gaussian Grouping：在三维场景中分割与编辑任意对象

摘要

引言

方法

3D Gaussian Grouping

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

用于场景编辑的高斯分组

实验

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具