SAM 3 论文解读：可提示概念分割任务与架构

综述由AI生成SAM 3 是 SAM 系列的升级模型，首次提出可提示概念分割（PCS）任务，支持通过文本或图像示例分割视频中所有匹配概念的实例。模型采用检测器与跟踪器解耦架构，引入存在头分离识别与定位。构建了四阶段数据引擎生成高质量训练数据，并在 SA-Co 基准上表现优异，显著提升了开放词汇概念分割和少样本迁移能力。

邪神洛基发布于 2026/4/6更新于 2026/5/2837 浏览

创新点

首次定义 Promptable Concept Segmentation (PCS) 可提示概念分割任务，支持通过名词短语、图像样本或两者结合，检测、分割并跟踪图像/视频中所有匹配概念的实例，同时保留视频帧间目标身份。
引入'存在头（Presence Token）'解耦识别与定位任务；采用共享骨干网络的检测器 + 视频跟踪器架构，避免任务冲突。
构建四阶段数据引擎，通过媒体筛选、标签生成（含难负样本）、AI 验证器实现标注吞吐量翻倍，生成高质量的合成训练数据。
创建包含 20.7 万个独特概念的 SA-Co（大规模概念分割数据集与基准体系），涵盖 12 万张图像和 1.7 千个视频，概念数量是现有基准的 50 倍以上，支持 PCS 任务全面评估。

问题

SAM 系列（Kirillov 等人，2023 年；Ravi 等人，2024 年）引入了图像和视频的可提示分割任务，专注于使用点、框或掩码进行可提示视觉分割（PVS），每个提示分割一个物体。虽然这些方法取得了突破，但它们并未解决在输入中任何位置找到并分割某个概念的所有实例这一通用任务（例如，视频中的所有'猫'）。

图 1 SAM 3 在基于点击的可提示视觉分割任务上比 SAM 2 有所改进，并引入了新的可提示概念分割能力

解决方法

我们的模型由一个检测器和一个跟踪器组成，它们共享一个视觉编码器。为了应对开放词汇概念检测的挑战，我们引入了一个单独的存在头来分离识别和定位，这在使用具有挑战性的否定短语进行训练时尤其有效。跟踪器继承了 SAM 2 的 Transformer 编码器 - 解码器架构，支持视频分割和交互式细化。检测和跟踪的解耦设计避免了任务冲突，因为检测器需要与身份无关，而跟踪器的主要目标是在视频中区分不同身份。
为了实现显著的性能提升，构建了一个包含人类和模型参与的闭环数据引擎，用于标注一个大型且多样化的训练数据集。
数据引擎从带噪声的媒体 - 短语 - 掩码伪标签入手，通过人工和 AI 验证器检查掩码的质量和完整性，筛选出标记正确的样本，并识别出具有挑战性的错误案例。然后，人工标注员专注于通过手动修正掩码来修复这些错误。这使我们能够标注出包含 400 万个独特短语和 5200 万个掩码的高质量训练数据，以及一个包含 3800 万个短语和 14 亿个掩码的合成数据集。此外，我们还为 PCS 创建了'概念化万物分割（SA-Co）'基准，该基准包含 20.7 万个独特概念，在 12 万张图像和 1700 个视频中具有完整的掩码。

SAM 3 是一个在图像和视频的可提示分割方面实现跨越式进步的模型。它提高了 PVS（可提示视频分割）的性能，并为可提示概念分割（PCS）树立了新的标准。我们将 PCS 任务形式化为：以文本和/或图像示例作为输入，预测与该概念匹配的每个对象的实例掩码和语义掩码，同时在视频帧中保持对象的身份一致性）。为了专注于识别基本视觉概念，我们将文本限制为简单的名词短语（NP），例如'红苹果'或'条纹猫'，SAM 3 具有完全的交互性，允许用户通过添加细化提示来解决歧义。

图 2 在 SA-Co 基准测试上，与 OWLv2 相比，SAM 3 改进开放词汇概念分割的示例

模型

SAM 3 是 SAM 2 的泛化版本，支持新的 PCS 任务以及 PVS 任务。它通过概念提示（简单名词短语、图像示例）或视觉提示（点、框、掩码）来定义需要进行时空（个体）分割的对象。可以在单个帧上迭代添加图像示例和视觉提示，以优化目标掩码——使用图像示例可以分别移除假阳性对象或添加假阴性对象。我们的架构主要基于 SAM 和 DETR 系列。

图 4 SAM 3 架构概述