跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

MultiResUNet：重新思考多模态生物医学图像分割的 U-Net 架构 | 极客日志

编程语言AI算法

MultiResUNet：重新思考多模态生物医学图像分割的 U-Net 架构

MultiResUNet 针对医学图像分割中目标尺度变化大及语义差异问题提出改进方案。通过引入 MultiRes block 替代传统卷积层，利用多个 3x3 卷积分解大核卷积，在降低内存消耗的同时保留多分辨率特征提取能力。同时设计 Res Path 路径连接编码器与解码器，缓解跳跃连接中的语义鸿沟。实验表明该架构在多模态生物医学图像分割任务中性能更优且计算更高效。

漫步发布于 2026/4/8更新于 2026/7/627 浏览

MultiResUNet：重新思考多模态生物医学图像分割的 U-Net 架构

引言

近年来，深度学习在医学图像分割领域取得了显著进展。基于全卷积网络的 U-Net 已成为该领域最主流、最受关注的架构之一。尽管经典 U-Net 表现优异，但在处理复杂场景时仍存在局限。本文对经典 U-Net 进行了改进，并通过实验验证了其性能提升。

U-Net 架构

U-Net 模型分析

医学图像分割的核心目标很明确：识别细胞核、器官或肿瘤等感兴趣区域。这些图像往往来自不同模态，且目标对象形状不规则、尺度差异巨大。例如，皮肤镜图像中的病变规模变化就非常大。这种多尺度特性要求网络具备更强的鲁棒性。

为了应对不同尺度的目标检测，Inception block 采用了并行使用不同大小卷积核的策略。在 U-Net 中，每个池化层和反卷积层后通常接两个 3×3 卷积，这两个 3×3 卷积的感受野实际上近似于一个 5×5 卷积。受 Inception block 启发，最简单的增强方式是将 3×3、5×5、7×7 卷积并行处理，从而让网络从图像中学习多分辨率特征。

简单的类 Inception block

虽然这种结构有助于特征提取，但并行卷积会大幅增加内存消耗。借鉴 Inception v3 的思想，我们可以用一系列更小、更轻量级的 3×3 卷积核来分解大卷积核（如 5×5 和 7×7），从而在保证感受野的同时降低计算成本。

轻量级结构

实验证明，这种轻量级结构能近似替代原有的类 Inception block，同时显著减少内存占用。这里有两个关键问题值得探讨：

为什么两次 3×3 卷积可近似一次 5×5 卷积？

从感受野角度看，两次 3×3 卷积得到的 1×1 特征图，其感受野大小为 5；而单次 5×5 卷积得到的 1×1 特征图，感受野同样为 5。这意味着两者在覆盖范围上等效，但前者能通过引入更多非线性激活函数提升表达能力，同时在特定配置下节省计算资源。

两次 3×3 的卷积替换 5×5 的卷积

轻量级结构的实现细节

具体实现上，输入经过第一个 3×3 卷积保存特征图，再经第二个 3×3 卷积（相当于 5×5 效果）并保存结果，最后通过第三个 3×3 卷积（相当于 7×7 效果）。将这三层特征图拼接（concat）作为输出。

轻量级结构

尽管修改降低了内存需求，但若第一层卷积核数量过大，仍会产生二次效应影响后续层。例如，若两层卷积核数均为 3，通道数为 3 的 7×7 特征图经过第一层需大量乘法运算，第二层则取决于前一层输出通道数。因此，MultiResUNet 并未保持所有连续卷积层核数相等，而是逐渐增加卷积核数量（如从 1 增至 3），防止浅层内存需求过度传播至深层。此外，该模块还引入了残差连接以获取额外空间信息，被称为 MultiRes block。

MultiRes block

融合策略分析

U-Net 的跳跃连接是其巧妙之处，能将编码器丢失前的语义信息传递至解码器。然而，传统跳跃连接存在缺陷：编码器浅层特征属于低级特征，而解码器对应层特征属于高级特征，两者融合时可能存在语义差异（semantic gap），影响预测效果。

随着网络深度增加，编码器和解码器对应层级间的距离变近，语义差异会逐渐减小。为缓解这一问题，文章提出在跳跃连接中加入卷积层，并引入残差连接，使学习过程更顺畅。该模块称为 Res Path，使用了 3×3 卷积配合 1×1 卷积的残差连接。

Res Path

整体架构

整体架构如图所示。随着网络深度增加，语义差异不断减小，因此沿着 Res Path 路径使用的卷积块数量也逐渐减少，分别为 4、3、2、1 个。

整体架构

参考文献

[1] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241. [2] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2818-2826. [3] Ibtehaz N, Rahman M S. MultiResUNet: Rethinking the U-Net architecture for multimodal biomedical image segmentation[J]. Neural networks, 2020, 121: 74-87.

目录

引言
U-Net 模型分析
为什么两次 3×3 卷积可近似一次 5×5 卷积？
轻量级结构的实现细节
融合策略分析
整体架构
参考文献

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

基于红黑树封装实现 C++ map 与 set 容器详解
Coze AI 应用开发：从智能体构建到 Web 部署实战
自学 Python 使用 PyCharm 是否友好及学习建议
基于 Docker 和 Ollama 本地部署 DeepSeek 大模型
RAG 应用构建与优化：解决检索召回与上下文窗口问题
美国资深产品经理分享的 AI 产品经理十大核心技能
SpringBoot 整合 Lock4j 分布式锁使用详解
Android 热修复原理与 HotFix 框架实现详解
Python 爬虫开发实战：从 Requests 到 Scrapy 分布式部署
Visual C++ 运行库缺失问题排查与修复指南
Linux 下调试 C/C++ 程序的核心 GDB 命令
MVP 至高并发：AI 在前后端开发中的差异化落地实践
大模型应用：如何增强模型记忆力与上下文管理
JavaShop 百万级并发场景下的性能表现与架构解析
Applite：macOS 应用管理的图形化 Homebrew Cask 工具
Flutter for OpenHarmony：使用 money2 实现高精度金融计算
C++ 继承：派生类构造、多继承与菱形虚拟继承详解
基于 OpenClaw 搭建 QQ AI 办公机器人并配置邮件发送
30 行 Python 实现公开接口数据抓取与本地存储
字符串模拟算法题精选：思维与实现解析

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online