nnWNet: Rethinking the Use of Transformers in Biomedical Image Segmentation
论文来源: CVPR2025 代码链接: https://github.com/Yanfeng-Zhou/nnWNet
摘要
语义分割是临床应用和计算机辅助诊断中的关键前提。随着深度神经网络的发展,生物医学图像分割取得了显著成功。能够同时捕获全局和局部特征的卷积与 Transformer 结合的编码器 - 解码器架构正因其潜力而受到关注。然而,当前的设计面临一个矛盾,即这两种特征无法在模型中连续传递。此外,一些模型缺乏统一和标准化的评估基准,导致实验设置存在显著差异。在本研究中,我们回顾并总结了这些架构,分析了它们在设计上的矛盾之处。我们改进了 UNet 并提出 WNet,以结合 Transformer 和卷积,有效解决特征传递问题。WNet 能够同时捕获长程依赖关系和局部细节,并确保它们的连续传递与多尺度融合。我们将 WNet 整合到 nnUNet 框架中以实现统一的基准测试。我们的模型在生物医学图像分割中取得了最先进的性能。大量实验在四个 2D 数据集(DRIVE、ISIC-2017、Kvasir-SEG 和 CREMI)和四个 3D 数据集(Parse2022、AMOS22、BTCV 和 ImageCAS)上验证了其有效性。
引言
分割是生物医学图像分析中的一项基本任务,其目标是为每个像素(体素)分配一个类别标签。随着深度学习的发展,生物医学图像分割取得了卓越的成果。基于编码器 - 解码器架构的卷积神经网络(CNNs)是主流范式。CNN 的两个关键特性是局部连接和参数共享。局部连接确保提取的特征是针对局部输入的,而参数共享则使特征具有平移不变性。这种设计提高了计算效率,同时使 CNN 能够专注于局部细节。
最近,序列到序列的 Transformer 架构获得了广泛关注。它利用全局自注意力机制来捕获长程依赖关系和全局信息。然而,它也带来了计算开销高和容易忽视局部细节的局限性。
一些研究尝试结合卷积和 Transformer,以同时利用局部和全局感受野。这些组合策略包括:交替堆叠卷积层和 Transformer 层;使用卷积构建编码器,Transformer 构建解码器(或反之);以及在编码器和解码器之间的瓶颈块或桥接块中引入 Transformer。
然而,这些设计存在矛盾与缺陷。Transformer 层的目的是提取长程依赖关系并生成相应的全局特征,而卷积层的目的是捕获局部细节并生成局部聚焦的特征。当前的组合方法迫使 Transformer 层使用局部特征作为输入来提取全局特征,并强制卷积层在全局特征上进行操作以提取局部细节。全局特征和局部特征交替生成,无法在整个模型中连续稳定地传递。这一矛盾导致了特征混淆和训练过程的不稳定。
此外,当前的生物医学图像分割模型缺乏统一的评估基准。不同研究在实验数据集、图像预处理策略(如重采样、感兴趣区域裁剪)、训练和验证集划分、评估指标以及一些关键超参数(如图像块大小、损失函数和训练轮数)等方面存在显著差异。缺乏标准化使得跨研究比较结果和评估不同模型的真实性能变得困难。一些模型可能在特定数据集上表现优异,但在其他数据集上泛化能力不足。此外,某些宣称达到最先进性能的模型在统一基准下可能表现不佳,甚至不如一个精心设计的 UNet。
在本研究中,我们回顾了基于卷积和 Transformer 的各种生物医学图像分割模型,将其抽象为几种典型架构,并分析了这些设计中的矛盾和缺陷。为了将 Transformer 有效融入全卷积的 UNet 以提取全局特征,同时解决上述问题,我们提出了一种改进的架构——WNet。WNet 能够同时捕获长程依赖关系和局部细节,确保这两种特征在整个网络中不间断、不混淆地连续传递。然后,我们将 WNet 整合到自动配置框架 nnUNet 中,形成了 nnWNet。基于 nnUNet 框架的统一评估基准上的大量实验验证了其有效性。我们的模型在包含不同分割对象、数据规模和图像模态的四个 2D 数据集和四个 3D 数据集上均取得了最先进的性能。
我们的贡献总结如下:
- 我们系统性地总结和分类了基于卷积和 Transformer 的各种生物医学图像分割模型,并分析了它们的矛盾和缺陷。
- 我们轻微调整了 UNet 架构,提出了 WNet。WNet 同时关注长程依赖关系和局部细节,确保这两种特征在整个网络中不间断、不混淆地连续传递。
- 我们将 WNet 整合到 nnUNet 框架中,形成了 nnWNet。在统一的评估基准下,nnWNet 在四个 2D 数据集和四个 3D 数据集上取得了最先进的性能。
相关工作
基于卷积的生物医学图像分割
高效轻量的 U 型 CNN 在生物医学图像分割中占据主导地位。它们能够保留边界的位置信息,并在生物医学图像数据量有限的情况下缓解过拟合。一些研究对 U 型 CNN 进行各种补充或改进以更好地提取特征。UNet++ 重新设计了编码器与解码器之间的跳跃连接,以实现多尺度特征聚合。Attention UNet 将注意力门模块整合到 UNet 中,以更好地聚焦于不同形状和尺寸的目标结构。[45] 提出了一种融合了混合卷积和多尺度注意力门的全卷积 U 型网络(CMUNet)。此外,一些研究将这些架构扩展到 3D,以满足体数据分割的需求。[36] 提出了一个全卷积 3D 网络 VNet。ConResNet [55] 提出了切片间上下文残差学习以提高空间上下文感知能力。[57] 提出了一种用于全监督和半监督生物医学图像分割的低频与高频融合网络 XNet。
















