引言
近年来,深度学习在医学图像分割领域取得了显著进展。基于全卷积网络的 U-Net 已成为该领域最主流、最受关注的架构之一。尽管经典 U-Net 表现优异,但在处理复杂场景时仍存在局限。本文对经典 U-Net 进行了改进,并通过实验验证了其性能提升。

U-Net 模型分析
医学图像分割的核心目标很明确:识别细胞核、器官或肿瘤等感兴趣区域。这些图像往往来自不同模态,且目标对象形状不规则、尺度差异巨大。例如,皮肤镜图像中的病变规模变化就非常大。这种多尺度特性要求网络具备更强的鲁棒性。
为了应对不同尺度的目标检测,Inception block 采用了并行使用不同大小卷积核的策略。在 U-Net 中,每个池化层和反卷积层后通常接两个 3×3 卷积,这两个 3×3 卷积的感受野实际上近似于一个 5×5 卷积。受 Inception block 启发,最简单的增强方式是将 3×3、5×5、7×7 卷积并行处理,从而让网络从图像中学习多分辨率特征。

虽然这种结构有助于特征提取,但并行卷积会大幅增加内存消耗。借鉴 Inception v3 的思想,我们可以用一系列更小、更轻量级的 3×3 卷积核来分解大卷积核(如 5×5 和 7×7),从而在保证感受野的同时降低计算成本。

实验证明,这种轻量级结构能近似替代原有的类 Inception block,同时显著减少内存占用。这里有两个关键问题值得探讨:
为什么两次 3×3 卷积可近似一次 5×5 卷积?
从感受野角度看,两次 3×3 卷积得到的 1×1 特征图,其感受野大小为 5;而单次 5×5 卷积得到的 1×1 特征图,感受野同样为 5。这意味着两者在覆盖范围上等效,但前者能通过引入更多非线性激活函数提升表达能力,同时在特定配置下节省计算资源。

轻量级结构的实现细节
具体实现上,输入经过第一个 3×3 卷积保存特征图,再经第二个 3×3 卷积(相当于 5×5 效果)并保存结果,最后通过第三个 3×3 卷积(相当于 7×7 效果)。将这三层特征图拼接(concat)作为输出。






