nnWNet：重新思考 Transformer 在生物医学图像分割中的应用

综述由AI生成对生物医学图像分割中卷积与 Transformer 结合时特征传递矛盾及评估基准不统一的问题，提出 WNet 架构。WNet 通过局部范围块与全局范围桥的级联设计，实现长程依赖与局部细节的连续融合。模型整合至 nnUNet 框架，在四个 2D 和四个 3D 数据集上验证，取得了最先进的性能，并呼吁建立统一的评估标准。

不知所云发布于 2026/4/6更新于 2026/5/2336 浏览

摘要

语义分割是临床应用和计算机辅助诊断中的关键前提。随着深度神经网络的发展，生物医学图像分割取得了显著成功。能够同时捕获全局和局部特征的卷积与 Transformer 结合的编码器 - 解码器架构正因其潜力而受到关注。然而，当前的设计面临一个矛盾，即这两种特征无法在模型中连续传递。此外，一些模型缺乏统一和标准化的评估基准，导致实验设置存在显著差异。在本研究中，我们回顾并总结了这些架构，分析了它们在设计上的矛盾之处。我们改进了 UNet 并提出 WNet，以结合 Transformer 和卷积，有效解决特征传递问题。WNet 能够同时捕获长程依赖关系和局部细节，并确保它们的连续传递与多尺度融合。我们将 WNet 整合到 nnUNet 框架中以实现统一的基准测试。我们的模型在生物医学图像分割中取得了最先进的性能。大量实验在四个 2D 数据集（DRIVE、ISIC-2017、Kvasir-SEG 和 CREMI）和四个 3D 数据集（Parse2022、AMOS22、BTCV 和 ImageCAS）上验证了其有效性。

引言

分割是生物医学图像分析中的一项基本任务，其目标是为每个像素（体素）分配一个类别标签。随着深度学习的发展，生物医学图像分割取得了卓越的成果。基于编码器 - 解码器架构的卷积神经网络（CNNs）是主流范式。CNN 的两个关键特性是局部连接和参数共享。局部连接确保提取的特征是针对局部输入的，而参数共享则使特征具有平移不变性。这种设计提高了计算效率，同时使 CNN 能够专注于局部细节。

最近，序列到序列的 Transformer 架构获得了广泛关注。它利用全局自注意力机制来捕获长程依赖关系和全局信息。然而，它也带来了计算开销高和容易忽视局部细节的局限性。

一些研究尝试结合卷积和 Transformer，以同时利用局部和全局感受野。这些组合策略包括：交替堆叠卷积层和 Transformer 层；使用卷积构建编码器，Transformer 构建解码器（或反之）；以及在编码器和解码器之间的瓶颈块或桥接块中引入 Transformer。

然而，这些设计存在矛盾与缺陷。Transformer 层的目的是提取长程依赖关系并生成相应的全局特征，而卷积层的目的是捕获局部细节并生成局部聚焦的特征。当前的组合方法迫使 Transformer 层使用局部特征作为输入来提取全局特征，并强制卷积层在全局特征上进行操作以提取局部细节。全局特征和局部特征交替生成，无法在整个模型中连续稳定地传递。这一矛盾导致了特征混淆和训练过程的不稳定。

此外，当前的生物医学图像分割模型缺乏统一的评估基准。不同研究在实验数据集、图像预处理策略（如重采样、感兴趣区域裁剪）、训练和验证集划分、评估指标以及一些关键超参数（如图像块大小、损失函数和训练轮数）等方面存在显著差异。缺乏标准化使得跨研究比较结果和评估不同模型的真实性能变得困难。一些模型可能在特定数据集上表现优异，但在其他数据集上泛化能力不足。此外，某些宣称达到最先进性能的模型在统一基准下可能表现不佳，甚至不如一个精心设计的 UNet。

在本研究中，我们回顾了基于卷积和 Transformer 的各种生物医学图像分割模型，将其抽象为几种典型架构，并分析了这些设计中的矛盾和缺陷。为了将 Transformer 有效融入全卷积的 UNet [41] 以提取全局特征，同时解决上述问题，我们提出了一种改进的架构——WNet。WNet 能够同时捕获长程依赖关系和局部细节，确保这两种特征在整个网络中不间断、不混淆地连续传递。然后，我们将 WNet 整合到自动配置框架 nnUNet [25] 中，形成了 nnWNet。基于 nnUNet 框架的统一评估基准上的大量实验验证了其有效性。我们的模型在包含不同分割对象、数据规模和图像模态的四个 2D 数据集和四个 3D 数据集上均取得了最先进的性能。

我们的贡献总结如下：

我们系统性地总结和分类了基于卷积和 Transformer 的各种生物医学图像分割模型，并分析了它们的矛盾和缺陷。
我们轻微调整了 UNet 架构，提出了 WNet。WNet 同时关注长程依赖关系和局部细节，确保这两种特征在整个网络中不间断、不混淆地连续传递。
我们将 WNet 整合到 nnUNet 框架中，形成了 nnWNet。在统一的评估基准下，nnWNet 在四个 2D 数据集和四个 3D 数据集上取得了最先进的性能。

维度	数据集	模态	成像区域	分割对象	数据规模
2D	DRIVE	眼底	视网膜	视网膜血管	40
	ISIC-2017	皮肤镜	皮肤	病变	2750
	Kvasir-SEG	结肠镜	胃肠道	息肉	1000
	CREMI	电子显微镜	果蝇及成年蝇大脑	神经元膜	7059
3D	Parse2022	CTA	肺部	肺动脉	100
	AMOS22	CT-MRI	腹部	15 个腹部器官	360
	BTCV	CT	腹部	13 个腹部器官	30
	ImageCAS	CTA	心脏	冠状动脉	1000

nnWNet：重新思考 Transformer 在生物医学图像分割中的应用

摘要

引言

相关工作

基于卷积的生物医学图像分割

基于 Transformer 的生物医学图像分割

更多推荐文章

相关免费在线工具

nnUNet

方法

3.1 编码器 - 解码器架构探讨

3.2 无矛盾地整合 Transformer

如何解决矛盾？

3.3 呼吁建立统一的评估基准

实验

4.1 数据集

4.2 统一评估基准

4.3 与最先进模型的比较

4.4 统计分析

4.5 定性结果

4.6 消融研究

不同自注意力机制的比较。

融合策略的比较。

结合卷积与 Transformer 的有效性。

全局和局部特征连续传递的必要性。

结论

更多推荐文章

相关免费在线工具

nnWNet：重新思考 Transformer 在生物医学图像分割中的应用

摘要

引言

相关工作

基于卷积的生物医学图像分割

基于 Transformer 的生物医学图像分割

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

nnUNet

方法

3.1 编码器 - 解码器架构探讨

3.2 无矛盾地整合 Transformer

如何解决矛盾？

3.3 呼吁建立统一的评估基准

实验

4.1 数据集

4.2 统一评估基准

4.3 与最先进模型的比较

4.4 统计分析

4.5 定性结果

4.6 消融研究

不同自注意力机制的比较。

融合策略的比较。

结合卷积与 Transformer 的有效性。

全局和局部特征连续传递的必要性。

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具