跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Gaussian Grouping:在三维场景中分割与编辑任意对象

综述由AI生成Gaussian Grouping 提出了一种基于三维高斯点的开放世界场景理解方案,解决了高斯投影缺乏细粒度物体级理解的问题。通过引入紧凑的身份编码,结合 SAM 的二维掩码预测与三维空间一致性正则化,该方法实现了对三维场景中任意内容的联合重建与分割。相比隐式 NeRF 表示,其离散分组特性支持高效的场景编辑操作,包括对象移除、修复、着色及风格迁移,在保证视觉质量的同时显著提升了训练与渲染效率。

落日余晖发布于 2026/4/7更新于 2026/5/2215 浏览
Gaussian Grouping:在三维场景中分割与编辑任意对象

摘要

高斯投影(Gaussian Splatting)虽然实现了高质量、实时的三维场景新视点合成,但往往只关注外观和几何建模,缺乏对细粒度物体级场景的理解。为了解决这一痛点,我们提出了 Gaussian Grouping,将高斯点扩展为能够联合重建和分割开放世界三维场景中任意内容的能力。核心在于为每个高斯添加了一个紧凑的身份编码(Identity Encoding),使得这些点能够根据其在三维场景中的物体实例或'物体/背景'的成员关系进行分组。该方法不依赖昂贵的三维标签,而是在可微渲染过程中利用 Segment Anything Model (SAM) 的二维掩码预测,结合引入的三维空间一致性正则化来监督身份编码。相比隐式的 NeRF 表示,离散且分组的三维高斯点能够在三维中以高视觉质量、细粒度和高效性来重建、分割和编辑任意内容。

引言

本文旨在构建一种表达力更强的三维场景表示,不仅对外观和几何进行建模,还能捕捉场景中每个实例和物体的身份信息。我们的方法以最近的三维高斯投影为基础,将其从纯粹的重建扩展到细粒度的场景理解。提出的'Gaussian Grouping'方法主要具备以下能力:

  • 同时对场景的每个三维部分进行外观、几何及其掩码身份的建模;
  • 将三维场景完全分解为离散分组,例如表示不同对象实例以便后续编辑;
  • 在不降低原始三维重建质量的前提下,实现快速训练和渲染。

Gaussian Grouping 有效地利用了 SAM 的密集二维掩码提案,并通过辐射场渲染将其提升到三维场景中的任意物体分割。

方法

3D Gaussian Grouping

本节介绍 Gaussian Grouping 的设计细节。为了让三维高斯点具备细粒度场景理解能力,核心思路是在保持高斯点原有属性(如位置、颜色、不透明度和大小)不变的前提下,新增身份编码参数。其格式类似于颜色建模,这使得每个高斯点都能够被分配到在三维场景中所表示的实例或'物体/背景'之中。

Gaussian Grouping 输入流程

(a) 2D 图像与掩码输入 为了准备 Gaussian Grouping 的输入,我们首先使用 SAM 自动为多视图集合中的每张图像生成掩码。2D 掩码是按图像单独生成的。随后,为了在三维场景中给每个 2D 掩码分配一个唯一的 ID,我们需要在不同视图之间关联具有相同身份的掩码,并获得三维场景中实例/物体的总数 K。

(b) 跨视图的身份一致性 我们在训练中不再依赖基于代价的线性分配的做法,而是将三维场景的多视图图像视为视角逐步变化的视频序列。为了实现跨视图的 2D 掩码一致性,我们使用一个训练良好的零-shot 跟踪器来传播并关联掩码。这也提供了三维场景中掩码身份的总数。与文献中提出的基于代价的线性分配相比,我们发现该方法简化了训练难度,同时避免在每次渲染迭代中重复计算匹配关系,从而实现了超过 60 倍的加速。在密集且相互重叠的 SAM 掩码情形下,该方法还展现出比基于代价的线性分配更好的性能。

(c) 3D 高斯渲染与分组 为了在场景的不同视图之间生成一致的三维掩码身份,我们提出将属于同一实例/物体的三维高斯进行分组。除了现有的高斯属性外,我们还为每个高斯引入一个新的参数,即身份编码(Identity Encoding)。这是一个长度为 16 的可学习且紧凑的向量,它在保持计算效率的同时足以区分场景中的不同对象/部件。

在训练过程中,与表示每个高斯颜色的球面调和系数(SH)类似,我们优化引入的身份编码向量,以表示场景的实例 ID。需要注意的是,与场景的视角相关外观建模不同,实例 ID 在不同渲染视图之间是一致的。因此,我们将身份编码的 SH 阶数设为 0,只对其直流分量进行建模。与基于 NeRF 的方法设计额外的语义 MLP 层不同,身份编码作为每个高斯的可学习属性,用于对三维场景进行分组。

最终渲染出的视频 2D 掩码身份特征 $E_{id}$ 在每个像素处是对每个高斯的长度为 16 的 Identity Encoding $e_i$ 的加权求和,权重为该高斯在该像素处的影响因子 $\alpha'_i$。我们通过测量一个带协方差矩阵 $\Sigma^{2D}$ 的二维高斯并乘以一个学习得到的每点不透明度 $\alpha_i$ 来计算 $\alpha'_i$,并且:

$$ \Sigma_{2D} = J_W , \Sigma_{3D} , J_W^T $$

其中 $\Sigma_{3D}$ 是三维协方差矩阵,$\Sigma_{2D}$ 是投影后展开的二维版本。$J_W$ 是三维到二维投影的仿射近似的雅可比矩阵,$W$ 是从世界坐标到相机坐标的变换矩阵。

(d) 组分损失 在对每个训练视图的 2D 实例标签进行关联之后,假设三维场景中共有 K 个掩码。为了按实例/物体掩码身份对每个 3D 高斯点进行分组,我们设计了分组损失 $\mathcal{L}_{id}$,用于更新高斯点的 Identity Encoding,包含两个部分:

  1. 2D 身份损失(2D Identity Loss):由于掩码身份标签在 2D 中,我们并不直接对三维高斯的 Identity Encoding $e_i$ 进行监督。给定 Eq. 1 中渲染得到的 2D 特征 $E_{id}$ 作为输入,先通过一个线性层 f 将其特征维度恢复到 K,然后对 $f(E_{id})$ 进行 softmax,以进行身份分类,其中 K 是三维场景中掩码的总数。我们采用一个标准的交叉熵损失 $\mathcal{L}_{2d}$,用于 K 类分类。
  2. 3D 正则化损失(3D Regularization Loss):为了进一步提升高斯点的分组准确性,除了对间接的 2D 监督使用的标准交叉熵损失外,我们还引入一个无监督的 3D 正则化损失,以直接对 Identity Encoding $e_i$ 的学习进行正则化。3D 正则化损失利用三维空间的一致性,强制前 k 个最近邻三维高斯的 Identity Encoding 在特征距离上保持接近。这使得位于 3D 物体内部、或在点渲染中几乎在所有训练视图中都不可见的高斯点,能够得到更充分的监督。

结合在图像渲染上使用的传统三维高斯重建损失,用于端到端完全训练的总损失记为 $\mathcal{L}_{render}$。

用于场景编辑的高斯分组

在完成 3D 高斯场的训练与分组后,我们用一组分组后的三维高斯来表示整个三维场景。为执行各种后续的局部场景编辑任务,我们提出高效的局部高斯编辑(Local Gaussian Editing)。得益于解耦的场景表示,我们无需对所有 3D 高斯进行微调,而是冻结大部分已经良好训练的高斯的属性,只调整与编辑目标相关的少量现有或新添加的 3D 高斯。

  • 对于 3D 目标移除,我们只需删除编辑目标的 3D 高斯。
  • 对于 3D 场景的重新组合,我们在两个高斯组之间交换其 3D 位置。这两种编辑应用都是直接可用的,无需额外的参数调优。
  • 对于 3D 目标修复(inpainting),我们首先删除相关的 3D 高斯,然后在渲染过程中通过 LaMa 的 2D 修复结果来监督添加少量新高斯。
  • 对于 3D 目标着色,我们仅调整相应高斯组的颜色(SH)参数,以保持学到的三维场景几何结构不变。
  • 对于 3D 目标风格迁移,我们进一步解冻 3D 位置和尺寸,以实现更真实的效果。

实验

实验验证了该方法在视觉质量、细粒度分割及渲染效率上的优势。结果表明,Gaussian Grouping 能够在保持高保真度重建的同时,实现对三维场景中任意对象的精确分割与灵活编辑,且在训练和推理速度上均优于传统的隐式神经表示方法。

结论

本文提出了高斯分组(Gaussian Grouping),这是首个基于三维高斯点的能够在开放世界三维场景中实现'共同重建与分割'的能力的方法。方法引入了一种用于三维高斯的 Identity Encoding,它通过 SAM 的二维掩码预测以及三维空间一致性来进行监督。基于这一分组且离散化的三维场景表示,方法进一步展示了其能够支持多种场景编辑应用,例如三维对象移除、三维对象修复、三维对象风格迁移和场景重新组合,同时兼具高质量的视觉效果和较高的时间效率。

目录

  1. 摘要
  2. 引言
  3. 方法
  4. 3D Gaussian Grouping
  5. 用于场景编辑的高斯分组
  6. 实验
  7. 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Qwen3-VL 结合 LLaMA-Factory 进行 Grounding 任务 LoRA 微调
  • C++11 核心新特性详解:初始化、引用与移动语义
  • 金仓数据库与 InfluxDB 时序性能对比及 SQL 兼容性分析
  • Git LFS 安装教程:Linux、macOS 与 Windows 全平台指南
  • Mac 抹除重装卡在激活锁的两种解锁方案
  • 2026年,我整理了中国 200 多家机器人(具身智能)公司名单
  • AI 提示词工程:原理、策略与精通之道
  • 银河麒麟服务器版 Nginx Web 服务部署实战
  • 工作中常用的几种设计模式实战
  • 双指针算法进阶:从三角形计数到四数之和
  • 基于开源鸿蒙(OpenHarmony)的【智能家居综合应用】系统
  • Whisper-turbo 速度实测:云端 GPU 7 倍加速
  • Virt-A-Mate 虚拟实境交互软件技术特性解析
  • Linux 常用命令大全:系统管理与文件操作指南
  • 前端可视化界面开发:基于 Vue 构建 VibeThinker 交互平台
  • OpenClaw 本地优先 AI 智能体:从安装到实战部署指南
  • Git 原理与使用进阶:远程协作、标签管理及企业级开发模型
  • Tomcat 核心组件详解
  • 2024 大模型面试 100 道精选真题及答案解析
  • OpenClaw + MCP 对接 143 种工具打造全场景 AI 自动化流水线

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online