【论文阅读笔记|CVPR2025】nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Cal

论文题目:nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Calling for a Unified Evaluation Benchmark

论文来源:CVPR2025

论文链接:openaccess.thecvf.com/content/CVPR2025/papers/Zhou_nnWNet_Rethinking_the_Use_of_Transformers_in_Biomedical_Image_Segmentation_CVPR_2025_paper.pdf

代码链接:GitHub - Yanfeng-Zhou/nnWNet: [CVPR 2025] nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation and Calling for a Unified Evaluation Benchmark

0 摘要

语义分割是临床应用和计算机辅助诊断中的关键前提。随着深度神经网络的发展,生物医学图像分割取得了显著成功。能够同时捕获全局和局部特征的卷积与Transformer结合的编码器-解码器架构正因其潜力而受到关注。然而,当前的设计面临一个矛盾,即这两种特征无法在模型中连续传递。此外,一些模型缺乏统一和标准化的评估基准,导致实验设置存在显著差异。在本研究中,我们回顾并总结了这些架构,分析了它们在设计上的矛盾之处。我们改进了UNet并提出WNet,以结合Transformer和卷积,有效解决特征传递问题。WNet能够同时捕获长程依赖关系和局部细节,并确保它们的连续传递与多尺度融合。我们将WNet整合到nnUNet框架中以实现统一的基准测试。我们的模型在生物医学图像分割中取得了最先进的性能。大量实验在四个2D数据集(DRIVE、ISIC-2017、Kvasir-SEG和CREMI)和四个3D数据集(Parse2022、AMOS22、BTCV和ImageCAS)上验证了其有效性。

1 引言

分割是生物医学图像分析中的一项基本任务,其目标是为每个像素(体素)分配一个类别标签。随着深度学习的发展,生物医学图像分割取得了卓越的成果。基于编码器-解码器架构的卷积神经网络(CNNs)是主流范式。CNN的两个关键特性是局部连接和参数共享。局部连接确保提取的特征是针对局部输入的,而参数共享则使特征具有平移不变性。这种设计提高了计算效率,同时使CNN能够专注于局部细节。

最近,序列到序列的Transformer架构获得了广泛关注。它利用全局自注意力机制来捕获长程依赖关系和全局信息。然而,它也带来了计算开销高和容易忽视局部细节的局限性。

一些研究尝试结合卷积和Transformer,以同时利用局部和全局感受野。这些组合策略包括:交替堆叠卷积层和Transformer层;使用卷积构建编码器,Transformer构建解码器(或反之);以及在编码器和解码器之间的瓶颈块或桥接块中引入Transformer。

然而,这些设计存在矛盾与缺陷。Transformer层的目的是提取长程依赖关系并生成相应的全局特征,而卷积层的目的是捕获局部细节并生成局部聚焦的特征。当前的组合方法迫使Transformer层使用局部特征作为输入来提取全局特征,并强制卷积层在全局特征上进行操作以提取局部细节。全局特征和局部特征交替生成,无法在整个模型中连续稳定地传递。这一矛盾导致了特征混淆和训练过程的不稳定。

此外,当前的生物医学图像分割模型缺乏统一的评估基准。不同研究在实验数据集、图像预处理策略(如重采样、感兴趣区域裁剪)、训练和验证集划分、评估指标以及一些关键超参数(如图像块大小、损失函数和训练轮数)等方面存在显著差异。缺乏标准化使得跨研究比较结果和评估不同模型的真实性能变得困难。一些模型可能在特定数据集上表现优异,但在其他数据集上泛化能力不足。此外,某些宣称达到最先进性能的模型在统一基准下可能表现不佳,甚至不如一个精心设计的UNet。

在本研究中,我们回顾了基于卷积和Transformer的各种生物医学图像分割模型,将其抽象为几种典型架构,并分析了这些设计中的矛盾和缺陷。为了将Transformer有效融入全卷积的UNet[41]以提取全局特征,同时解决上述问题,我们提出了一种改进的架构——WNet。WNet能够同时捕获长程依赖关系和局部细节,确保这两种特征在整个网络中不间断、不混淆地连续传递。然后,我们将WNet整合到自动配置框架nnUNet[25]中,形成了nnWNet。基于nnUNet框架的统一评估基准上的大量实验验证了其有效性。我们的模型在包含不同分割对象、数据规模和图像模态的四个2D数据集和四个3D数据集上均取得了最先进的性能。

我们的贡献总结如下:

  • 我们系统性地总结和分类了基于卷积和Transformer的各种生物医学图像分割模型,并分析了它们的矛盾和缺陷。**
  • 我们轻微调整了UNet架构,提出了WNet。WNet同时关注长程依赖关系和局部细节,确保这两种特征在整个网络中不间断、不混淆地连续传递。**
  • 我们将WNet整合到nnUNet框架中,形成了nnWNet。在统一的评估基准下,nnWNet在四个2D数据集和四个3D数据集上取得了最先进的性能。**

2 相关工作

基于卷积的生物医学图像分割

高效轻量的U型CNN在生物医学图像分割中占据主导地位。它们能够保留边界的位置信息,并在生物医学图像数据量有限的情况下缓解过拟合。一些研究对U型CNN进行各种补充或改进以更好地提取特征。UNet++重新设计了编码器与解码器之间的跳跃连接,以实现多尺度特征聚合。Attention UNet将注意力门模块整合到UNet中,以更好地聚焦于不同形状和尺寸的目标结构。[45]提出了一种融合了混合卷积和多尺度注意力门的全卷积U型网络(CMUNet)。此外,一些研究将这些架构扩展到3D,以满足体数据分割的需求。[36]提出了一个全卷积3D网络VNet。ConResNet[55]提出了切片间上下文残差学习以提高空间上下文感知能力。[57]提出了一种用于全监督和半监督生物医学图像分割的低频与高频融合网络XNet。

基于Transformer的生物医学图像分割。

Transformer模型将图像视为小图像块的序列。它采用基于全连接网络的自注意力机制来捕获整个图像上的长程依赖关系,并使用位置编码来表示图像块之间的空间关系。一些研究探索了将Transformer整合到U型架构中。常见策略包括:无卷积层的纯Transformer UNet,如SwinUNet、D-Former、nnFormer;用Transformer替换卷积编码器或解码器,如TC-CoNet、ConvTransSeg、UNETR、Swin UNETR、3D UX-Net;在编码器和解码器之间引入基于Transformer的桥接或瓶颈,如CoTr、MissFormer、DCA、TransAttUNet;串联或并联堆叠卷积层和Transformer层,如ConvFormer、H2Former、DuAT、MaxViT-UNet。此外,一些研究专注于优化自注意力机制以降低计算成本和内存消耗,如BRAU-Net++、UNETR++。然而,这些架构设计存在全局和局部特征交替传递和混淆的缺陷。我们在第3.1节中更详细地讨论了这个问题。

nnUNet。

nnUNet是一个自动配置的分割框架,它设定了图像预处理、数据增强和训练超参数。它不仅作为一个开箱即用的分割解决方案,还为评估模型性能提供了一个统一的基准。在本研究中,我们基于nnUNet框架进行了全面且公平的比较。

3 方法

在第3.1节中,我们回顾并总结了各种编码器-解码器架构,分析了当前结合Transformer和卷积的设计中的矛盾。在第3.2节中,我们对全卷积UNet进行轻微调整,提出了WNet,它整合了Transformer并解决了这些矛盾。在第3.3节中,我们将WNet整合到nnUNet框架中,用于统一的基准测试。

3.1 编码器-解码器架构探讨

如图1所示,当前的编码器-解码器模型可以总结并抽象为三种主要架构:编码器-解码器(encoder-decoder)、编码器-瓶颈-解码器(encoder-bottleneck-decoder)以及编码器-桥接-解码器(encoder-bridge-decoder)。这三种架构由四个模块组成:编码器、解码器、瓶颈和桥接。这四个模块不仅可以由纯卷积层或纯Transformer层顺序连接而成,也可以是卷积层和Transformer层的串联或并联。

表1列出了这些架构及其对应的一些模型。卷积专注于捕获局部细节,而Transformer则强调全局关系。它们的结合有潜力增强特征表示能力。

然而,当前的组合策略是矛盾的。无论是用Transformer作为编码器、卷积作为解码器(或反之),还是交替堆叠卷积层和Transformer层,它们都迫使Transformer层利用局部特征作为输入来捕获长程依赖,并迫使卷积层使用全局特征作为输入来提取局部细节。这破坏了全局和局部特征在整个模型中连续稳定的流动,导致训练不稳定和显著的性能下降。我们在第4.3节的对比实验中观察到了这一现象。

3.2 无矛盾地整合Transformer

为了将Transformer整合到编码器-解码器架构中,并确保全局和局部特征能够不间断、不混淆地连续传递,我们轻微调整了UNet,提出了WNet。图2展示了WNet的概览。WNet由两个级联的编码器-解码器架构组成,对输入图像进行重叠补丁嵌入,使用局部范围块构建多尺度编码和解码层,并在每个尺度的编码层和解码层之间引入全局范围桥。我们采用卷积层作为LSB来提取局部细节,并使用Transformer层作为GSB来捕获长程依赖关系。LSB和GSB在每个编码-解码尺度上进行特征融合以交换信息。我们在补充材料中详细解释了架构设计的动机。

图2:WNet概览。OPE表示重叠补丁嵌入。LSB表示局部范围块。GSB表示全局范围桥。

\circledast

表示局部和全局特征融合。

H

W

表示特征图尺寸。

C_{1}

C_{2}

C_{3}

C_{4}

表示不同尺度特征图的通道数。

具体来说,重叠特征嵌入通过步长为1的3×3卷积和下采样实现。LSB通过步长为1及下采样/上采样的3×3残差块实现。GSB通过具有全局注意力机制的Transformer实现。特征融合通过通道拼接实现。我们在第4.6节的消融研究中比较了各种注意力机制和融合策略。请注意,基于LSB的局部特征包含隐式的位置关系,并且由于LSB和GSB可以交换信息,我们没有在GSB中引入额外的位置编码。

如何解决矛盾?

从图3可以看出,WNet中的全局和局部特征可以在整个模型中连续流动,并在每个尺度上相互交换信息,这不仅解决了矛盾,而且有效地将全局和局部特征融合为一个统一的表示。

图3:全局和局部特征的传递。(a) 局部特征的传递。(b) 全局特征的传递。两种特征连续流动和融合,没有间断。

我们在图4中比较了不同尺度下LSB和GSB的有效感受野。LSB的ERF较小,而GSB的ERF较大,它们是互补的。这表明LSB主要捕获局部特征,而GSB专注于非局部特征。关于ERF可视化的更多细节可在补充材料中找到。此外,WNet只是U型架构的扩展,没有任何复杂操作。其参数量少于nnUNet。我们在第4.3节比较了不同模型的参数数量和性能。

图4:LSB和GSB在ISIC-2017[9]、Kvasir-SEG[27]、CREMI[12]上的有效感受野(100张图像平均)。顶行:LSB中的残差块。底行:GSB中的11×11深度可分离卷积自注意力。(a) ISIC-2017尺度1。(b) ISIC-2017尺度2。(c) ISIC-2017尺度3。(d) ISIC-2017尺度4。(e) Kvasir-SEG尺度4。(f) CREMI尺度4。

3.3 呼吁建立统一的评估基准

由于生物医学图像在图像尺寸、维度、模态、成像区域、像素(体素)大小、分割对象、数据规模和病理变化方面具有多样性,即使是针对相同临床应用的数据集之间也存在显著差异。这导致了缺乏标准化的训练和验证集划分以及一致的性能评估指标。一些研究尝试细化图像预处理(如图像重采样和感兴趣区域裁剪)并优化关键超参数(如图像块大小和训练轮数),以确保其模型表现更好。

总的来说,由于缺乏统一的评估基准,对比实验已不仅仅是模型架构的竞争。nnUNet[25, 26]是一个自动配置的分割框架。更重要的是,它为纯粹、公平地比较各种架构提供了一个统一的基准。我们将WNet整合到nnUNet框架中以标准化实验设置。

4. 实验

4.1 数据集

我们在四个2D数据集(DRIVE[44]、ISIC-2017[9]、Kvasir-SEG[27]和CREMI[12])和四个3D数据集(Parse2022[35]、AMOS22[28]、BTCV[31]、ImageCAS[53])上评估我们的模型。表2展示了它们实验设置的详细信息。这八个数据集的补充信息在补充材料中提供。从表2可以看出,这些数据集涵盖了不同的模态、维度、成像区域、数据规模和分割对象,评估模型性能更具代表性和说服力。

表2:八个数据集在成像区域、模态、分割对象和数据规模方面的对比。

维度数据集模态成像区域分割对象数据规模
2DDRIVE眼底视网膜视网膜血管40
ISIC-2017皮肤镜皮肤病变2750
Kvasir-SEG结肠镜胃肠道息肉1000
CREMI电子显微镜果蝇及成年蝇大脑神经元膜7059
3DParse2022CTA肺部肺动脉100
AMOS22CT-MRI腹部15个腹部器官360
BTCVCT腹部13个腹部器官30
ImageCASCTA心脏冠状动脉1000

4.2 统一评估基准

我们通过nnUNet框架(版本2.3.1)实现我们的模型。所有模型的训练和推理均在单张NVIDIA RTX A6000 GPU上进行。所有模型均从头开始训练。为了平衡训练时间和效果,我们分别对2D和3D数据集使用2d和3d_lowres训练器。2D数据集的训练轮数设为200,3D数据集设为500。我们使用五折交叉验证来评估分割结果,并使用Jaccard指数、Dice系数、95%豪斯多夫距离和平均表面距离作为性能指标。Jaccard和Dice强调像素级精度,而95HD和ASD强调边界精度。此外,我们仅使用模型的输出进行评估,不做任何额外的后处理。其他配置(如学习率、损失函数、图像块大小和优化器)均采用nnUNet框架中的默认设置。

4.3 与最先进模型的比较

我们将nnWNet与最先进的模型进行了广泛比较,包括纯卷积、纯Transformer以及混合模型。表3展示了在2D和3D数据集上的比较结果。nnWNet大幅超越了先前的最先进模型;这可能是因为我们的模型能够同时捕获长程依赖关系和局部细节,并确保它们在多个特征尺度上连续传递和融合。我们还注意到,一些纯Transformer模型未能收敛;可能是因为它们过度强调长程依赖而忽略了关键的局部特征。一些混合模型表现出显著的性能下降;这可能归因于全局和局部特征传递过程中的混淆和矛盾。此外,在统一基准下,一些模型的表现不如一个精心设计的UNet。

还在表3中比较了模型大小。我们的模型在所有编码器-解码器架构中保持了相对较少的参数数量。

表3:在2D和3D数据集上与最先进模型的比较。

注:此处仅保留表格说明,因表格内容复杂且为实验数据摘要,建议用户查阅原文PDF或图片以获取准确表格。表中绿色表示性能优于nnUNet,橙色表示性能差于nnUNet,红色表示训练失败或性能显著下降。粗体表示所有模型中的最佳性能。

4.4 统计分析

表4显示了nnWNet与其他模型在Jaccard指标上的统计显著性。我们的模型取得了87.50%的显著率,在32次t检验中成功28次(p<0.05)。这表明nnWNet具有统计上显著的改进。

4.5 定性结果

图5和图6展示了不同模型的各种定性结果。基于全局和局部特征的连续流动与多尺度融合,nnWNet实现了更好的像素级精度和轮廓精度。更多定性结果可在补充材料中找到。

4.6 消融研究

为了验证每个组件的有效性,我们在四个2D数据集上进行了以下消融研究。

不同自注意力机制的比较。

表5比较了在GSB中添加不同自注意力机制的性能,包括大核深度卷积、池化和高效多头自注意力。池化取得了更好的结果。我们在表3的所有相关实验中使用池化作为自注意力机制。

融合策略的比较。

 表6比较了全局和局部特征的不同融合策略。我们发现原始UNet使用的通道拼接取得了更好的性能。我们将其应用于表3的所有相关实验。

结合卷积与Transformer的有效性。

我们将LSB替换为PoolFormer,将GSB替换为残差块,分别生成纯Transformer WNet和纯卷积WNet。表7比较了混合、纯卷积和纯Transformer架构的性能。总体而言,混合架构表现出优越的结果。请注意,纯卷积架构可能获得更好的轮廓精度,因为卷积专注于局部细节并对边界敏感。

全局和局部特征连续传递的必要性。

我们替换原始UNet中的编码器和解码器,以证明连续传递全局和局部特征的重要性。具体来说,我们实现了纯卷积、纯Transformer、卷积与Transformer串联以及卷积与Transformer并联来构建编码器和解码器。表8比较了这些架构的性能。我们的发现表明串联连接有负面影响。这可能是因为串联连接迫使全局和局部特征交替生成,阻碍了连续传递。相比之下,并联连接以及在每个下采样前的融合产生了积极结果,因为它避免了从局部特征捕获长程依赖的同时又从全局特征提取局部细节的冲突。使用卷积编码器与Transformer解码器的性能与使用Transformer编码器与卷积解码器相似,这两种架构的性能介于串联和并联之间。此外,我们发现Transformer与卷积的组合优于纯卷积架构,进一步证明了同时关注全局和局部特征的必要性。

5. 结论

我们系统性地总结了基于Transformer的生物医学图像分割编码器-解码器架构,并分析了其设计中的矛盾。为了整合Transformer并解决这些矛盾,我们轻微调整了UNet并提出了WNet。WNet能够同时捕获长程依赖关系和局部细节,并确保它们的连续传递和多尺度融合。我们将WNet整合到nnUNet框架中以进行统一的基准测试。我们的模型实现了最先进的生物医学图像分割性能,在四个2D数据集和四个3D数据集上的大量实验证明了其有效性。

Read more

AI入门系列:AI新手必看:人工智能发展历程与现状分析

AI入门系列:AI新手必看:人工智能发展历程与现状分析

写在前面:为什么AI发展历史很重要? 记得刚开始学习AI的时候,我总觉得历史这种东西很枯燥,不如直接学习最新的技术来得实在。但后来我发现,了解AI的发展历程,就像了解一个人的成长经历一样,能帮助我们更好地理解现在的AI是如何走到今天的,也能帮助我们预测未来可能的发展方向。 有一次,我和一位从事AI研究多年的教授聊天,他告诉我:"现在的学生总想直接学习深度学习,但如果不了解符号主义AI的兴衰,就无法理解为什么深度学习会成功,也无法预见它可能面临的挑战。"这句话让我深受启发。 所以,在这篇文章中,我想和大家一起回顾一下AI的发展历程,不是为了考试背诵那些枯燥的年代和事件,而是为了让我们能够站在历史的高度,更好地理解现在的AI技术,以及它在我们生活中的应用。 人工智能的诞生:一个充满想象力的开始 说起AI的诞生,我们不得不提到1956年的达特茅斯会议。这次会议被公认为人工智能学科的诞生标志。 想象一下那个场景:一群来自不同领域的顶尖科学家,包括约翰·麦卡锡、马文·明斯基、克劳德·香农等,聚集在一起,讨论着一个看似疯狂的问题:"机器能思考吗?"他们相信,只要给机器输入足够多的规则

AI时代人人都是产品经理:落地流程:AI 核心功能,从需求到上线的全流程管控方法

AI时代人人都是产品经理:落地流程:AI 核心功能,从需求到上线的全流程管控方法

AI的普及正在重构产品经理的工作模式——不再依赖传统的跨部门协作瓶颈,AI可以成为产品经理的"全职助手",覆盖需求分析、原型设计、开发协同、测试验证全流程。本文将拆解AI时代产品核心功能从0到1落地的完整管控方法,让你用AI能力提升300%的落地效率。 一、需求阶段:AI辅助的需求挖掘与标准化 需求是产品的起点,AI可以帮你从海量信息中精准定位用户真实需求,避免"伪需求"浪费资源。 1. 需求挖掘:AI辅助用户洞察 传统需求调研依赖问卷、访谈,效率低且样本有限。AI可以通过以下方式快速完成用户洞察: * 结构化处理非结构化数据:用AI分析用户在社交媒体、客服对话、应用评论中的碎片化反馈,自动提炼高频需求点 * 需求优先级排序:基于KANO模型,AI可以自动将需求划分为基础型、期望型、兴奋型、无差异型四类,输出优先级列表 实战工具与示例: 使用GPT-4+Python脚本批量处理应用商店评论: import openai import pandas as

AI小说创作平台终极指南:10分钟搭建专属智能写作助手

还在为长篇小说的创作瓶颈而苦恼吗?想拥有一个能自动衔接剧情、埋设伏笔的AI创作伙伴吗?本教程将带你快速部署AI_NovelGenerator项目,让你的创作之路从此畅通无阻。无论你是网文作者还是文学爱好者,这个本地AI写作平台都能成为你的得力助手。 【免费下载链接】AI_NovelGenerator使用ai生成多章节的长篇小说,自动衔接上下文、伏笔 项目地址: https://gitcode.com/GitHub_Trending/ai/AI_NovelGenerator 项目亮点速览 ✨ AI_NovelGenerator是一款开源的AI小说创作工具,它能帮你: * 智能剧情衔接:自动回顾前文,确保故事连贯性 * 伏笔自动管理:跟踪关键线索,避免剧情漏洞 * 多章节协调:支持上百章节的长篇创作 * 本地化部署:数据安全可控,无需担心隐私泄露 快速启动指南 🚀 环境要求与准备 开始之前,确保你的系统满足以下要求: * Python 3.9+ 环境(推荐3.10-3.12版本) * 有效的API密钥(支持OpenAI、

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南 "见微知著,凝光成影。将梦境的碎片,凝结为永恒的视觉诗篇。" 你是否曾经梦想过拥有一个属于自己的艺术创作空间?一个不需要复杂技术背景,只需轻轻描述心中所想,就能让AI帮你将梦境转化为精美画作的地方?今天我要介绍的"灵感画廊"就是这样一个神奇的工具。 基于Stable Diffusion XL 1.0打造,这个创作终端不仅技术强大,更重要的是它极其友好——无论是对创作者还是对你的电脑硬件。即使只有8GB显存的GPU,也能流畅运行,生成1024x1024高清画质。接下来,我将手把手带你搭建这个艺术创作空间。 1. 环境准备与快速部署 在开始之前,我们先来看看需要准备什么。整个过程比想象中简单很多,不需要复杂的配置,只需要几个简单的步骤。 1.1 系统要求与依赖安装 首先确保你的环境满足以下要求: * NVIDIA显卡(建议8GB以上显存) * Python 3.8或更高版本