【论文阅读】Gaussian Grouping: Segment and Edit Anything in 3D Scenes

Ne0inhk

21 Mar 2026 — 10 min read

摘要

高斯投影（Gaussian Splatting）实现了高质量、实时的三维场景新视点合成。不过，它仅专注于外观和几何建模，缺乏对细粒度的物体级场景理解。为了解决这一问题，我们提出了 Gaussian Grouping，将高斯点扩展为联合重建和分割开放世界三维场景中的任意内容。我们为每个高斯添加了一个紧凑的身份编码（Identity Encoding），使得这些高斯点能够根据其在三维场景中的物体实例或“物体/背景”的成员关系进行分组。并不依赖昂贵的三维标签，我们在可微渲染过程中通过利用 Segment Anything Model (SAM) 的二维掩码预测，以及引入的三维空间一致性正则化，对身份编码进行监督。与隐式的 NeRF 表示相比，我们表明离散且分组的三维高斯点能够在三维中以高视觉质量、细粒度和高效性来重建、分割和编辑任意内容。

引言

本文旨在构建一个 expressive 的三维场景表示，不仅对外观和几何进行建模，还捕捉场景中每个实例和物体的身份信息。我们的方法以最近的三维高斯投影（Gaussian Splatting）为基础，将其从纯粹的三维重建扩展到细粒度的场景理解。提出的“Gaussian Grouping”方法能够做到：

同时对场景的每个三维部分进行外观、几何和它们的掩码身份的建模；
将三维场景完全分解为离散分组，例如表示不同对象实例以便进行编辑；
在不降低原始三维重建质量的前提下，实现快速训练和渲染。

Gaussian Grouping 有效地利用了 SAM 的密集二维掩码提案，并通过辐射场渲染将其提升到三维场景中的任意物体的分割。

方法

3D Gaussian Grouping

在本节中，我们将介绍 Gaussian Grouping 的设计。为了使三维高斯点具备细粒度场景理解能力，我们的核心思路是：在保持高斯点原有属性（如位置、颜色、不透明度和大小）不变的前提下，新增身份编码参数（Identity Encoding），其格式类似于颜色建模。这使得每个高斯点都能够被分配到在三维场景中所表示的实例或“物体/背景”之中。

(a) 2D 图像与掩码输入
为了准备 Gaussian Grouping 的输入，在图2(a)中，我们首先使用 SAM 自动为多视图集合中的每张图像生成掩码。2D 掩码是按图像单独生成的。随后，为了在三维场景中给每个 2D 掩码分配一个唯一的 ID，我们需要在不同视图之间关联具有相同身份的掩码，并获得三维场景中实例/物体的总数 K。

(b) 跨视图的身份一致性
我们在训练中不再依赖基于代价的线性分配的做法 [44] ，而是将三维场景的多视图图像视为视角逐步变化的视频序列。为了实现跨视图的 2D 掩码一致性，我们使用一个训练良好的零-shot 跟踪器 [7] 来传播并关联掩码。这也提供了三维场景中掩码身份的总数。我们在图 2(b) 中对关联的 2D 掩码标签进行了可视化。与文献 [44] 提出的基于代价的线性分配相比，我们发现该方法简化了训练难度，同时避免在每次渲染迭代中重复计算匹配关系，从而实现了超过 60 倍的加速。在密集且相互重叠的 SAM 掩码情形下，该方法还展现出比基于代价的线性分配更好的性能。此外，我们在图 5 中展示了我们对三维掩码关联的鲁棒性，其中来自视频的 2D 关联掩码 [7] 也存在明显错误。

（c）3D 高斯渲染与分组
为了在场景的不同视图之间生成一致的三维掩码身份，我们提出将属于同一实例/物体的三维高斯进行分组。除了现有的高斯属性外，我们还为每个高斯引入一个新的参数，即身份编码（Identity Encoding）。身份编码是一个长度为 16 的可学习且紧凑的向量，我们发现它在保持计算效率的同时足以区分场景中的不同对象/部件。在训练过程中，与表示每个高斯颜色的球面调和系数（SH）类似，我们优化引入的身份编码向量，以表示场景的实例 ID。需要注意的是，与场景的视角相关外观建模不同，实例 ID 在不同渲染视图之间是一致的。因此，我们将身份编码的 SH 阶数设为 0，只对其直流分量进行建模。与基于 NeRF 的方法 [16,19,44] 设计额外的语义 MLP 层不同，身份编码作为每个高斯的可学习属性，用于对三维场景进行分组。
最终渲染出的视频2D掩码身份特征 EidE_{id}Eid 在每个像素处是对每个高斯的长度为 16 的 Identity Encoding eie_iei 的加权求和，权重为该高斯在该像素处的影响因子 αi′\alpha^′_iαi′。参见 [61]，我们通过测量一个带协方差矩阵 Σ2DΣ^{2D}Σ2D 的二维高斯并乘以一个学习得到的每点不透明度 αiα_iαi 来计算 αi′α^′_iαi′，并且
Σ2D=JW Σ3D JWT \Sigma_{2D} = J_W \, \Sigma_{3D} \, J_W^T Σ2D=JWΣ3DJWT
其中 Σ3D\Sigma_{3D}Σ3D 是三维协方差矩阵，Σ2D\Sigma_{2D}Σ2D 是投影后展开的二维版本 [68]。JJJ 是三维到二维投影的仿射近似的雅可比矩阵，WWW 是从世界坐标到相机坐标的变换矩阵。

(d) 组分损失
在对每个训练视图的 2D 实例标签进行关联之后，假设三维场景中共有 K 个掩码。为了按实例/物体掩码身份对每个 3D 高斯点进行分组，我们设计了分组损失 Lid\mathcal{L}_{id}Lid，用于更新高斯点的 Identity Encoding，包含两个部分：

2D 身份损失（2D Identity Loss）：由于掩码身份标签在 2D 中，我们并不直接对三维高斯的 Identity Encoding eie_iei 进行监督。给定 Eq. 1 中渲染得到的 2D 特征 EidE_{id}Eid 作为输入，先通过一个线性层 f 将其特征维度恢复到 K，然后对 f(EidE_{id}Eid) 进行 softmax，以进行身份分类，其中 K 是三维场景中掩码的总数。我们采用一个标准的交叉熵损失 L2d\mathcal{L}_{2d}L2d，用于 K 类分类。
3D 正则化损失（3D Regularization Loss）：为了进一步提升高斯点的分组准确性，除了对间接的 2D 监督使用的标准交叉熵损失外，我们还引入一个无监督的 3D 正则化损失，以直接对 Identity Encoding eie_iei 的学习进行正则化。3D 正则化损失利用三维空间的一致性，强制前 k 个最近邻三维高斯的 Identity Encoding 在特征距离上保持接近。这使得位于 3D 物体内部、或在点渲染（式(1)）中几乎在所有训练视图中都不可见的高斯点，能够得到更充分的监督。在 Eq. 3 中，我们将 F 表示在线性层 f 之后的 Softmax 操作（在计算 2D Identity Loss 时共用）。我们用带有采样点的 KL 散度损失来形式化，记为 m 采样点的 KL 损失。

其中 P 包含一个三维高斯点采样得到的 Identity Encoding e，而集合 Q = {e′1, e′2, …, e′k} 则由其在三维欧氏空间中的最近邻的 k 个向量组成。为简洁起见，我们省略在线性层 f 之后的 Softmax 操作。

结合在图像渲染上使用的传统三维高斯重建损失，用于端到端完全训练的总损失记为 Lrender\mathcal{L}_{render}Lrender：

用于场景编辑的高斯分组

在完成 3D 高斯场的训练与分组（第 3.2 节）后，如图 3 所示，我们用一组分组后的三维高斯来表示整个三维场景。为执行各种后续的局部场景编辑任务，我们提出高效的局部高斯编辑（Local Gaussian Editing）。得益于解耦的场景表示，我们无需对所有 3D 高斯进行微调，而是冻结大部分已经良好训练的高斯的属性，只调整与编辑目标相关的少量现有或新添加的 3D 高斯。

对于 3D 目标移除，我们只需删除编辑目标的 3D 高斯。
对于 3D 场景的重新组合，我们在两个高斯组之间交换其 3D 位置。这两种编辑应用都是直接可用的，无需额外的参数调优。
对于 3D 目标修复（inpainting），我们首先删除相关的 3D 高斯，然后在渲染过程中通过 LaMa [46] 的 2D 修复结果来监督添加少量新高斯。
对于 3D 目标着色，我们仅调整相应高斯组的颜色（SH）参数，以保持学到的三维场景几何结构不变。
对于 3D 目标风格迁移，我们进一步解冻 3D 位置和尺寸，以实现更真实的效果。

实验

见原文。

结论

本文提出了高斯分组（Gaussian Grouping），这是首个基于三维高斯点的能够在开放世界三维场景中实现“共同重建与分割”的能力的方法。方法引入了一种用于三维高斯的 Identity Encoding，它通过 SAM 的二维掩码预测以及三维空间一致性来进行监督。基于这一分组且离散化的三维场景表示，方法进一步展示了其能够支持多种场景编辑应用，例如三维对象移除、三维对象修复、三维对象风格迁移和场景重新组合，同时兼具高质量的视觉效果和较高的时间效率。

Author:ChiAuthor: ChiAuthor:Chi

开源GraphMindStudio工作流引擎：自动化与AI智能体的理想核心

引言 GraphMindStudio是一个完善的开源引擎，从前端到算法。整体分为多层架构，前端使用UnityUI，动态计算排布。后端工作流引擎完全模块化解耦，能够实时观测，控制节点的运行，后基于上下文反应式ECS重构，提高运行效率；顶层Json使用占位符架构抽象重复节点逻辑为通用逻辑。工作流完全基于既定配置运行，极其的稳定。但是被底层逻辑被设计为支持动态更新，即可以在任何逻辑中更新任何运行的工作流。这个技术目前应用在编译逻辑上，如果编译失败了就添加一个节点再重新调用大模型生成一次代码，带着报错。我认为这样的设计远好于相较于完全依赖于大模型，所有的逻辑都使用大模型完成的完全自主智能体。工作流的运行结果在模板的基础上可以很大范围的确定，而节点动态更新的能力完全能够实现大模型的自主运行，且是更高级的抽象，支持多步，或者选择已有配置进行运行。这个框架是一个高效、稳定、强大而完整的逻辑架构。不仅能用于AI代码生成，AI图片生成，可以应用于任何适用于工作流的领域。 publicstaticFunc<object, Task<object>> CompileCheck =async(obj

2026年AI OCR发展前瞻：开源可部署模型实战趋势解析

2026年AI OCR发展前瞻：开源可部署模型实战趋势解析 1. 引言：OCR技术正迎来“平民化”爆发期你有没有遇到过这种情况：手头有一堆扫描的合同、发票或者产品说明书，想把里面的内容提取出来编辑使用，结果手动敲键盘敲到眼花？传统OCR工具要么收费贵得离谱，要么识别不准还得反复修改。但现在，情况完全不同了。 2026年，AI驱动的OCR技术已经不再是大公司的专属武器。像 cv_resnet18_ocr-detection 这样的开源可部署模型正在快速普及，普通人也能在自己的服务器上一键搭建一个高精度的文字检测系统。更重要的是，这些模型不仅免费，还支持本地运行、数据不出内网、可定制化训练——真正实现了“我的文档我做主”。本文要讲的，就是一个由开发者“科哥”构建并开源的OCR文字检测WebUI系统。它基于ResNet18骨干网络，集成了检测、批量处理、微调训练和ONNX导出功能，界面友好，部署简单，特别适合中小企业、个人开发者甚至教育场景使用。我们不聊复杂的算法原理，只聚焦三件事： * 它能做什么？ * 怎么快速用起来？ * 未来这类模型会怎么发展？看完这篇，

GitHub热榜----上帝视角玩转未来！MiroFish：基于群体智能的万物预测引擎

摘要：你是否想过像《黑客帝国》或《西部世界》那样，构建一个平行的数字世界？或者在小说写到瓶颈时，让书中人物自己“活”过来推演结局？今天介绍的开源项目 MiroFish，正是一个基于**多智能体（Multi-Agent）**技术的通用群体智能引擎。它能通过你上传的“种子信息”，自动生成成千上万个具备独立人格和记忆的智能体，在数字沙盘中演化未来。 🚀 前言：当 AI 拥有了“社会属性” 在 ChatGPT 单打独斗的时代，我们问它：“如果发生X，会产生什么后果？”它只能基于训练数据给出概率性的回答。但在 MiroFish 构建的多智能体系统 (MAS) 中，AI 不再是一个孤独的对话框。MiroFish 让无数个 AI 智能体组成一个社会，它们有记忆、有性格、有社交关系。当你在系统中投入一个变量（比如一条突发新闻），你会看到这些智能体如何反应、

开源AI编程工具对决：Superpowers技能库与OpenSpec规范驱动，谁更胜一筹？

文章概要在AI辅助编程领域，Obra/superpowers库与Fission-AI/OpenSpec库代表了两种截然不同的技术路径。前者致力于构建可复用的AI编程技能库，后者则倡导以规范（Spec）为核心的驱动开发模式。本文将深入对比两者在核心理念、工作流程及适用场景上的核心差异，探讨它们如何分别解决AI开发中的效率与一致性难题，并分析在项目演进中应如何取舍。前几天在咖啡店，我无意中听到邻桌两位程序员在激烈争论。一位坚持说：“AI编程助手最大的价值就是帮我快速写出新代码，我需要的是更多‘技能’。”另一位则反驳：“不对，AI最该解决的是代码一致性，我们团队现在最缺的是‘规范’。”这让我立刻想到了最近在GitHub上观察到的两个项目：Obra的superpowers技能库和Fission-AI的OpenSpec规范驱动框架。它们恰好代表了这两种截然不同的思路。我打开superpowers的仓库，第一印象是它像一个为AI助手精心打造的“瑞士军刀”工具箱。它的核心理念非常直接：将常见的、复杂的编程任务封装成一个个可复用的“技能”（Skill）。这就像给AI安装了一个插件商店，当需要

摘要

引言

方法