Nature Methods 论文:跨九种模态生物医学对象联合分割检测识别基础模型 BiomedParse
背景与意义
生物医学图像分析对生物医学发现至关重要。整体图像分析包括分割、检测和识别等相互依赖的子任务,这些任务通常由传统方法分别处理。这种分离式的处理方式往往限制了模型在复杂场景下的泛化能力和效率。
2024 年 11 月 13 日,华盛顿大学联合微软研究院在《Nature Methods》发表题为'BiomedParse: A foundation model for joint segmentation, detection and recognition of biomedical objects across nine modalities'的研究论文。该研究提出了 BiomedParse,这是一个可以跨九种成像模态联合进行分割、检测和识别的生物医学基础模型。这种联合学习提高了各个任务的准确性,并使得新的应用成为可能,例如通过文本描述在图像中分割所有相关对象。
为了训练 BiomedParse,作者创建了一个大型数据集,包含超过 600 万张图像、分割掩码和文本描述的三元组,利用现有数据集中伴随的自然语言标签或描述。作者展示了 BiomedParse 在九种成像模态的图像分割上超越了现有方法,对于形状不规则的对象改进更大。作者进一步展示了 BiomedParse 可以同时对图像中的所有对象进行分割和标记。总之,BiomedParse 是一个涵盖所有主要成像模态的生物医学图像分析的全能工具,为高效准确的基于图像的生物医学发现铺平了道路。
核心架构与数据
本体论构建
BiomedParse 的核心在于其统一的本体论结构。研究团队利用 GPT-4 构建了用于统一跨数据集语义概念的对象类型的层次结构。条形图数据显示了包含该类型对象的图像数量,确保了不同来源数据的语义对齐。
数据集 BiomedParseData
BiomedParseData 是支撑模型训练的关键资源。该数据集涵盖了多种成像模态,包括 CT(计算机断层扫描)、MRI(磁共振成像)、OCT(光学相干断层扫描)等。每种模态下都包含了大量的图像 - 掩码 - 描述三元组,为多模态学习提供了坚实基础。
工作流程
BiomedParse 的工作流程设计简洁高效:
- 输入:接收图像和文本提示作为输入。
- 输出:输出提示中指定对象的分割掩码。
- 交互:在作者的框架中不需要图像特定的手动交互,如边界框或点击。
- 语义学习:为了促进图像编码器的语义学习,BiomedParse 还包含了一个学习目标,用于对元对象类型进行分类。
- 推理优化:在线推理时,GPT-4 用于将文本提示解析为对象类型,使用对象本体论,这也使用 BiomedParse 输出的元对象类型来缩小候选语义标签的范围。
性能评估与对比
大规模分割性能
在大规模生物医学图像分割数据集上的比较显示,BiomedParse 表现优异。箱线图比较了作者的方法与竞争方法在九种模态的 102,855 个测试实例(图像 - 掩码 - 标签三元组)上的 Dice 得分。
- 基准对比:MedSAM 和 SAM 需要边界框作为输入。作者考虑了两种设置:神谕边界框(覆盖金标准掩码的最小边界框);由基于文本的 Grounding DINO(一种最先进的基于文本的定位模型)从文本提示生成的边界框。
- 统计显著性:BiomedParse 优于最佳竞争方法的显著性水平,采用双尾配对 t 检验,分别为 P < 1 × 10^-2; *P < 1 × 10^-3; 和 ****P < 1 × 10^-4。
- 具体模态表现:BiomedParse 与 MedSAM 在神谕框提示下的比较的确切 P 值分别为:所有模态 P < 1.86 × 10^-12;CT 模态 P < 2.49 × 10^-3;MRI 模态 P < 3.33 × 10^-4;病理学模态 P < 3.30 × 10^-16。
细胞分割与操作效率
在 n=42 张图像的细胞分割测试集上,BiomedParse 仅需要一个用户操作(文本提示'结肠病理中的腺体结构')。相比之下,为了获得竞争结果,MedSAM 和 SAM 需要 430 次操作(每个单独细胞一个边界框)。
- 显著性:BiomedParse 优于 MedSAM 的显著性水平,采用单尾配对 t 检验,分别为 P < 1 × 10^-2; ***P < 1 × 10^-3; 和 ****P < 1 × 10^-4。
- :确切的 P 值分别为:每个数据集 P < 1.74 × 10^-13;每张图像 P < 1.71 × 10^-7。


