前言
近年来,深度学习在医学图像分割领域表现突出,基于全卷积网络的 U-Net 已成为该领域最主流的架构。尽管经典 U-Net 效果显著,但在处理多模态、多尺度目标时仍存在局限。本文对 U-Net 进行了改进,并通过实验验证了其在性能上的提升。

U-Net 模型分析
在医学图像分割任务中,我们关注的目标往往是不规则的,且规模差异巨大。例如皮肤病变在皮肤镜图像中的尺寸变化就非常明显。面对这些不同尺度的对象,网络需要具备足够的鲁棒性。类似 Inception Block 的设计可以通过并行使用不同大小的卷积核来检测多尺度目标。
在 U-Net 架构中,每个池化层和反卷积层后通常使用两个 3×3 卷积。这两个 3×3 卷积实际上等效于一个 5×5 卷积的感受域。因此,增强 U-Net 的一种直观思路是引入多分辨率分析,将 3×3、5×5、7×7 卷积并行。但这会极大增加内存消耗。

借鉴 Inception v3 的思想,我们可以用一系列更小、更轻量级的 3×3 卷积核来分解大尺寸的 5×5 和 7×7 卷积核。

这种轻量级结构不仅近似于前述的 Inception 式块,还能显著降低内存需求。这里有两个关键问题需要厘清。
为何两个 3×3 卷积能等效于一个 5×5 卷积?
从感受域的角度看,两次 3×3 卷积得到的特征图,其感受野大小与一次 5×5 卷积相同。这意味着它们能捕捉到相同范围的信息,但参数量更少,计算效率更高。

轻量级结构的实现细节
从输入开始,经过第一个 3×3 卷积保存特征图,再经过第二个 3×3 卷积(相当于 5×5),保存结果;接着经过第三个 3×3 卷积(相当于 7×7)。最后将这三层特征图进行拼接(Concat)得到输出。

虽然修改降低了内存需求,但如果第一层卷积核数量过高,会产生二次效应导致深层计算量激增。因此,MultiResUNet 并未保持所有连续卷积层的卷积核数量相等,而是逐渐增加(例如从 1 增加到 3),防止内存需求过度传播。同时,该模块引入了残差连接以获取额外的空间信息,被称为 MultiRes Block。





