创新点
- 首次定义 Promptable Concept Segmentation (PCS) 可提示概念分割任务,支持通过名词短语、图像样本或两者结合,检测、分割并跟踪图像/视频中所有匹配概念的实例,同时保留视频帧间目标身份。
- 引入'存在头(Presence Token)'解耦识别与定位任务;采用共享骨干网络的检测器 + 视频跟踪器架构,避免任务冲突。
- 构建四阶段数据引擎,通过媒体筛选、标签生成(含难负样本)、AI 验证器实现标注吞吐量翻倍,生成高质量的合成训练数据。
- 创建包含 20.7 万个独特概念的 SA-Co(大规模概念分割数据集与基准体系),涵盖 12 万张图像和 1.7 千个视频,概念数量是现有基准的 50 倍以上,支持 PCS 任务全面评估。
问题
SAM 系列(Kirillov 等人,2023 年;Ravi 等人,2024 年)引入了图像和视频的可提示分割任务,专注于使用点、框或掩码进行可提示视觉分割(PVS),每个提示分割一个物体。虽然这些方法取得了突破,但它们并未解决在输入中任何位置找到并分割某个概念的所有实例这一通用任务(例如,视频中的所有'猫')。

解决方法
- 我们的模型由一个检测器和一个跟踪器组成,它们共享一个视觉编码器。为了应对开放词汇概念检测的挑战,我们引入了一个单独的存在头来分离识别和定位,这在使用具有挑战性的否定短语进行训练时尤其有效。跟踪器继承了 SAM 2 的 Transformer 编码器 - 解码器架构,支持视频分割和交互式细化。检测和跟踪的解耦设计避免了任务冲突,因为检测器需要与身份无关,而跟踪器的主要目标是在视频中区分不同身份。
- 为了实现显著的性能提升,构建了一个包含人类和模型参与的闭环数据引擎,用于标注一个大型且多样化的训练数据集。
- 数据引擎从带噪声的媒体 - 短语 - 掩码伪标签入手,通过人工和 AI 验证器检查掩码的质量和完整性,筛选出标记正确的样本,并识别出具有挑战性的错误案例。然后,人工标注员专注于通过手动修正掩码来修复这些错误。这使我们能够标注出包含 400 万个独特短语和 5200 万个掩码的高质量训练数据,以及一个包含 3800 万个短语和 14 亿个掩码的合成数据集。此外,我们还为 PCS 创建了'概念化万物分割(SA-Co)'基准,该基准包含 20.7 万个独特概念,在 12 万张图像和 1700 个视频中具有完整的掩码。
SAM 3 是一个在图像和视频的可提示分割方面实现跨越式进步的模型。它提高了 PVS(可提示视频分割)的性能,并为可提示概念分割(PCS)树立了新的标准。我们将 PCS 任务形式化为:以文本和/或图像示例作为输入,预测与该概念匹配的每个对象的实例掩码和语义掩码,同时在视频帧中保持对象的身份一致性)。为了专注于识别基本视觉概念,我们将文本限制为简单的名词短语(NP),例如'红苹果'或'条纹猫',SAM 3 具有完全的交互性,允许用户通过添加细化提示来解决歧义。

模型
SAM 3 是 SAM 2 的泛化版本,支持新的 PCS 任务以及 PVS 任务。它通过概念提示(简单名词短语、图像示例)或视觉提示(点、框、掩码)来定义需要进行时空(个体)分割的对象。可以在单个帧上迭代添加图像示例和视觉提示,以优化目标掩码——使用图像示例可以分别移除假阳性对象或添加假阴性对象。我们的架构主要基于 SAM 和 DETR 系列。

- :该检测器的架构遵循通用的 DETR 范式。图像和文本提示首先通过位置编码(PE)进行编码,若存在图像示例,则通过示例编码器对其进行编码。我们将图像示例令牌和文本令牌统称为'提示令牌'。然后,融合编码器接收来自图像编码器的无条件嵌入,并通过交叉关注提示令牌对其进行调节。每个解码器层都会为每个对象查询预测一个分类分数(在我们的案例中,是一个二元标签,用于表示该对象是否与提示相对应),以及一个与上一级预测的边界框之间的差值的方法。








