跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

MambaYOLO: 一种基于状态空间模型的简单目标检测基线

综述由AI生成一种名为 MambaYOLO 的目标检测基线模型,基于状态空间模型(SSM)构建。该方法无需大规模数据集预训练,具有线性内存复杂度。核心贡献包括提出 ODSSBlock 模块以增强局部建模能力,以及设计 RG Block 融合门控聚合与卷积思想。实验表明,在 MSCOCO 数据集上,MambaYOLO 在参数量、计算量及推理延迟方面优于现有 SOTA 模型如 YOLOv8 和 Gold-YOLO,实现了精度与效率的平衡。

草莓泡芙发布于 2026/4/6更新于 2026/5/2232 浏览

MambaYOLO: 一种基于状态空间模型的简单目标检测基线

1 摘要&相关工作&贡献

1.1 摘要

在深度学习技术飞速发展的推动下,YOLO 系列为实时目标检测器树立了新标杆。此外,基于 Transformer 的架构已成为该领域最强大的解决方案,通过大幅扩展模型的感受野实现了显著性能提升。然而这种改进也带来了代价——自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题,论文提出了一种简单却有效的基线方法 Mamba YOLO。

1.2 相关工作

  • 实时目标检测器 YOLO 的早期性能提升主要得益于其骨干网络的改进,这推动了 DarkNet 的广泛应用。YOLOv7 提出了 EELAN 结构,在保持原有模型特性的同时提升了性能。YOLO8 将前几代 YOLO 的特点结合起来,采用 CSPDarknet53 与 2 阶段 FPN(C2f)结构相结合,通过更丰富的梯度流实现轻量级且适应不同场景,同时兼顾精度。最近,Gold YOLO 引入了一种名为 Gather-and-Distribute(GD)的新机制,机制通过自注意力操作解决传统特征金字塔网络和 Rep PAN 的信息融合问题,并成功实现了 SOTA。
  • 端到端目标检测器 DETR 首次将 Transformer 引入目标检测领域,采用 Transformer 编码器 - 解码器架构,绕过了锚点生成和非极大值抑制等传统手工设计组件,将检测视为直接的集成预测问题。可变形 DETR 提出可变形注意力机制,作为 Transformer 注意力的变体,用于在参考位置周围采样稀疏关键点集,解决了 DETR 处理高分辨率特征图的局限性。DINO 整合了混合查询选择策略、可变形注意力,并通过注入噪声进行训练,经查询优化后性能提升。RT-DETR 提出混合编码器,通过解耦尺度内交互与跨尺度融合实现高效的多尺度特征处理。然而,DETRs 的优异性能高度依赖于大规模数据集的预训练操作,而由于训练收敛性、计算成本以及小目标检测等挑战,YOLOs 在小规模建模领域仍以准确性和速度 SOTA。
  • 视觉状态空间模型基于 SSM 的研究,在输入规模上展现出线性复杂度,并解决了 Transformer 在建模状态空间长序列时的计算效率问题。在广义视觉骨干领域,Vision Mamba 提出了基于选择性 SSM 的纯视觉骨干模型,标志着 Mamba 首次被引入视觉领域。VMamba 引入了 Cross-Scan 模块,使模型能够对二维图像进行选择性扫描,这种扫描方式增强了视觉处理能力,并在图像分类任务中展现出优越性。LocalMamba 专注于视觉空间模型的窗口扫描策略,优化视觉信息以捕捉局部依赖关系,并引入动态扫描方法为不同层寻找最优选择。受 VMamba 在视觉任务领域取得的显著成果启发,本文首次提出 Mamba YOLO——一种新型 SSM 模型,与传统基于 SSM 的视觉骨干不同,它无需在大规模数据集上进行预训练。该方法旨在考虑全局感知域,同时展示其在目标检测中的潜力。

1.3 贡献

  • 提出的基于 SSM 的 MambaYOLO 具有简单高效的结构,内存复杂度为线性,且无需在大规模数据集上进行预训练,为目标检测领域的 YOLO(目标检测)设定了新的基准。
  • 提出 ODSSBlock 来弥补 SSM 的局部建模能力。通过重新设计 MLP 层,我们引入了 RGBlock,该模块融合了门控聚合、有效卷积和残差连接的思想,能有效捕捉局部依赖关系,从而提升模型鲁棒性。
  • 设计了一套 MambaYOLO 模型(Tiny/Base/Large),支持不同尺度的任务部署。如图 1 所示,MSCOCO 实验表明,与现有最先进方法相比,我们的 MambaYOLO 实现了显著的性能提升。

2 方法

2.1 前言

结构化状态空间序列模型 S4 和 Mamba,其根植于 SSM,两者均源自一个连续系统,该系统通过隐式潜在中间状态 h(t) ∈ R 将单变量序列 x(t) ∈ R 映射到输出序列 y(t)。该设计不仅建立了输入与输出之间的关系,还封装了时间动态。该系统可数学定义如下:

$$h'(t) = \mathbf{A}h(t) + \mathbf{B}x(t) \tag{1}$$

$$y(t) = \mathbf{C}h(t) \tag{2}$$

在公式 (1) 中,A ∈ R 表示状态转移矩阵,它控制隐藏状态随时间的演变;而 B ∈ R 则表示输入空间与隐藏状态相关的权重矩阵。此外,C ∈ R 是观测矩阵,它将隐藏中间状态映射到输出。Mamba 通过采用固定离散化规则,将转换参数 A 和 B 为它们的离散对应物 $\overline{\mathbf{A}}$ 和 $\overline{\mathbf{B}}$,从而更好地将该连续系统整合到深度学习架构中。为此目的常用的一种离散化方法是零阶保持(ZOH)。离散化版本可定义如下:

$$\overline{\mathbf{A}}=\operatorname{exp}(\mathbf{\Delta A}) \tag{3}$$

$$\overline{\mathbf{B}}=(\mathbf{\Delta A})^{-1}(\operatorname{exp}(\mathbf{\Delta A})-\mathbf{I})\mathbf{\Delta B} \tag{4}$$

在公式 (4) 中,∆表示一个时间尺度参数,用于调整模型的时间分辨率,∆A 和∆B 分别表示给定时间区间内连续参数的离散时间对应量。此处 I 表示单位矩阵。经过变换后,模型通过线性递归形式进行计算,其定义如下:

$$h'(t)=\overline{\mathbf{A}}h_{t-1}+\overline{\mathbf{B}}x_{t} \tag{5}$$

$$y_{t}=\mathbf{C}h_{t} \tag{6}$$

整个序列变换也可表示为卷积形式,其定义如下:

$$\overline{\mathbf{K}}=(\mathbf{C}\overline{\mathbf{B}},\mathbf{C}\overline{\mathbf{A}}\overline{\mathbf{B}},...,\mathbf{C}\overline{\mathbf{A}}^{L-1}\overline{\mathbf{B}}) \tag{7}$$

$$y=x*\overline{\mathbf{K}} \tag{8}$$

其中,K ∈ RL 表示结构化卷积核,L 表示输入序列的长度。在本文提出的设计中,该模型采用卷积形式进行并行训练,并利用线性递归公式实现高效的自回归推理。

2.2 综述

![图 2:MambaYOLO 架构概览]

图 2 展示了 MambaYOLO 的架构概览。目标检测模型由 ODMamba 主干和颈部两部分组成。ODMamba 包含简单茎干和下采样模块。在颈部部分,我们采用 PAFPN 的设计方案,用 ODSSBlock 模块替代 C2f,以捕捉更丰富的梯度信息流。主干首先通过 Stem 模块进行下采样,生成分辨率 HxW 的二维特征图。因此,所有模型均由 ODSSBlock 模块后接 VisionClueMerge 模块构成,用于进一步下采样。在颈部区域,我们采用 PAFPN 的设计方案,用 ODSSBlock 替代 C2f,其中 Conv 模块专门负责下采样。

2.3 simple stem

现代视觉 Transformer(ViTs)通常采用分块图像作为初始模块,将图像分割为互不重叠的区域。这种分割过程通过卷积运算实现,其卷积核尺寸为 4×4,步长为 4。然而,近期研究(如 EfficientFormerV2 的 Li 等人 2023 年研究)表明,该方法可能限制 ViTs 的优化能力,影响整体性能。为在性能与效率之间取得平衡,论文提出了一种精简的主干层设计。该方案摒弃了非重叠图像块,转而采用两个步长为 2、卷积核尺寸为 3 的卷积操作。

2.4 Vision Clue Merge

视觉线索融合虽然卷积神经网络和视觉图卷积器结构通常采用卷积进行下采样,发现这种方法会干扰 SS2D 在不同信息流阶段的选择性操作。为解决这一问题,VMamba 通过 1 × 1 卷积对二维特征图进行分割和降维。研究结果表明,保留更多视觉线索以 SSM 模型训练效果更佳。与传统维度减半方法不同,论文通过以下方式优化该过程:

  1. 消除规范。
  2. 分割维度映射。
  3. 向通道维度添加冗余特征图。
  4. 采用 4 ×压缩逐点卷积进行下采样。

与使用步长为 2 的 3 × 3 卷积不同,论文的方法保留了由 SS2D 从上一层选择的特征图。

2.5 ODSSBlock

![图 3:ODSSBlock 结构]

如图 3 所示,ODSSBlock 是 Mamba YOLO 的核心模块,在输入阶段,它通过一个 ConvModule,使网络能够学习更深层、更丰富的特征表示。假设输入特征 Z 的形状为 R,我们有:

$$Z^{l-2}=\sigma\left(BatchNorm\left(ConvModule(Z^{l-3})\right)\right) \tag{9}$$

其中σ表示激活函数(非线性 SiLU)。ODSSBlock 的层归一化与残差链接设计借鉴了 Transformer Blocks 架构风格,使得模型在深度堆叠存在时仍能高效运行并进行训练。

$$Z^{l-1}=SS2D\left(LayerNorm(Z^{l-2})\right)+Z^{l-2} \tag{10}$$

$$Z^{l}=RGBlock\left(LayerNorm(Z^{l-1})\right)+Z^{l-1} \tag{11}$$

ODSSBlock 可解耦为两个独立的功能组件 SS2D(·)和 RGBlock(·),分别用于全局空间信息传播和信道信息传播,其中 Z 表示 SS2D 后的中间状态。SS2D 算法包含扫描扩展、S6 模块和扫描合并三个核心步骤,其主要流程如图 3 所示。扫描扩展操作将输入图像分解为多个子图像,每个子图像对应特定方向。从对角线视角观察时,该操作会沿四个对称方向进行扫描:自上而下、自下而上、左右方向以及从右向左的字元方向。这种布局不仅全面覆盖了输入图像的所有区域,还通过系统化方向变换为后续特征提取提供了丰富的多维信息基础,从而显著提升了图像特征多维捕捉的效率与全面性。SS2D 中的扫描合并操作将生成的序列作为输入传递至 S6 模块并融合来自不同方向的序列,从而将特征提取为全局特征。

2.6 RG Block

RG Block 原始 MLP 仍然是最广泛采用的,VMamba 架构中的 MLP 也遵循 Transformer 设计,通过对输入序列进行非线性变换来增强模型的表达能力。近期研究 Gated MLP(Dauphin 等人 2017;Rajagopal 和 Nirmala 2021)表明其在自然语言处理中表现强劲,我们发现门控机制在视觉领域同样具有潜力。图 3 中,本文提出残差门控块的简单设计旨在以更低计算成本提升模型性能,RG Block 通过从输入 fIA 和 fIB 分别生成两个分支来保留全局与局部信息,T(·)表示线性层。

$$\mathcal{R}{\text{local}}^{l-1}=\mathcal{T}{\text{local}}^{l-1}(f_{A}^{\prime}) \tag{12}$$

$$\mathcal{R}{\text{global}}^{l-1}=\mathcal{T}{\text{global}}^{l-1}(f_{B}^{\prime}) \tag{13}$$

global 深度可分离卷积被用作 Rl- 分支上的位置编码模块,通过残差拼接在训练期间更高效地反向传播梯度,这具有较低的计算成本,并通过保留和利用图像的空间结构信息显著提升性能。RG Block 采用非线性 GeLU 作为激活函数来控制每个层级的信息流动。

$$\mathcal{Y}(x)=\Phi(DWConv(x)\oplus x) \tag{14}$$

通过 Y(x)传递的局部信息与 Rl- 的全局信息相乘,全局特征通过线性层进行细化以融合局部通道的信息,并允许残差连接与 fIA 的原始输入及隐藏层特征相加。RG Block 在仅产生轻微计算成本增加的情况下捕获了更多全局与局部特征,其输出特征定义如下:

$$\mathcal{R}{\text{fusion}}^{l}=\mathcal{R}{\text{global}}^{l-1}\odot\mathcal{Y}(\mathcal{R}_{\text{local}}^{l-1}) \tag{15}$$

$$f_{RG}=\mathcal{T}{\text{fusion}}^{l}(\mathcal{R}{\text{fusion}}^{l})\oplus f_{A}^{\prime} \tag{16}$$

其中 Φ 表示激活函数(非线性 GELU)。本文中,RGBlock 的门控机制通过整合卷积操作来保留空间信息,同时使模型对图像中的细粒度特征更加敏感。与传统 MLP 相比,RGBlock 将全局依赖关系和全局特征传递至每个像素,以捕捉相邻特征间的依赖关系,从而丰富上下文信息,进一步提升模型的表达能力。

3 实验

3.1 对比实验

![图 4:对比实验结果]

![图 5:对比实验结果]

与现有技术对比表 1 展示了 MSCOCO val 的实验结果,表明论文提出的方法在浮点运算量、参数数量、精度与 GPU 延迟之间实现了最佳平衡。具体而言,相较于 ppyoloe-S/YOLO-MS-XS 等高性能微型轻量模型,Mamba YOLO-T 的平均精度分别提升了 1.1%/1.5%,GPU 推理延迟则缩短了 0.9ms/0.2ms。当与精度相当的基线模型 YOLOv8-S 对比时,Mamba YOLO-T 不仅将参数量减少了 48%、浮点运算量降低了 53%,还使 GPU 推理延迟降低了 0.4ms。与参数量和浮点运算量相近的 Gold-YOLO-M 相比,Mamba YOLO-B 的平均精度(AP)提升了 3.7%。即便与精度相当的 ppyoloe-M 相比,Mamba YOLOB 仍能将参数量减少 18%、浮点运算量降低 9%,同时将 GPU 推理延迟缩短 1.8 毫秒。对于大型模型,Mamba YOLO-L 在所有高级目标检测器中均展现出更优或相当的性能。相较于表现最佳的 Gold-YOLO-L,Mamba YOLO-L 在参数量减少 0.9% 的同时,平均精度提升了 0.3%。如表格所示,采用零样本训练方法的 Mamba YOLO-T 表现优于其他所有训练方法。

3.2 消融实验

![图 6:Clue Merge 消融]

独立地检查 ODSSBlock 中的每个模块,并在没有 Clue Merge 的情况下使用传统卷积进行下采样,以评估 Clue Merge 对精度的影响。Mamba YOLO 在 MSCOCO 数据集上进行测试,以开展消融实验,测试模型为 Mamba YOLO-T。结果表 2 显示,Clue Merge 为 SSM 保留了更多的视觉线索,也支持了 ODSSBlock 结构确实是最优的这一观点。

![图 7:RG Block 消融]

RG Block 结构消融研究 RG Block 通过逐像素提取全局依赖关系和全局特征,实现对局部依赖关系的捕捉。该模块采用多分支结构建模通道维度,有效解决了 SSM 序列建模在感知域不足和图像定位能力弱方面的局限性。在 RG Block 的设计细节方面,我们还考虑了三种变体:

  1. 卷积 MLP,该方法在原始 MLP 基础上添加了 DW Conv。
  2. 残差卷积 MLP(Res-Convolutional MLP)通过将 DW Conv 以残差拼接方式添加到原始 MLP 中实现。
  3. 门控 MLP(Gated MLP)是一种基于门控机制设计的 MLP 变体。

![图 8:MLP 变体对比]

图 6 展示了这些变体,表 3 则通过 MSCOCO 数据集验证了原始 MLP、RG Block 及其各变体在 MLP 上的分析有效性,测试模型采用 Mamba YOLO-T。我们发现单纯引入卷积层并未显著提升性能,而图 6 所示的门控 MLP 变体则不同——其输出由两个元素乘法的线性投影构成,其中一个包含残差连接的 DWConv 和门控激活函数。这种设计使模型能够通过层级结构传递关键特征,从而有效提升模型的准确性和鲁棒性。实验表明,在处理复杂图像任务时,引入卷积层的性能提升与门控聚合机制密切相关,前提是二者需在残差连接的框架下协同应用。

3.3 变体消融

![图 9:变体消融配置]

论文探索了主干网络中 ODSSBlock 重复次数的四种不同配置:[9,3,3,3] 会增加额外计算开销,但并未带来相应的精度提升;[3,9,3,3]、[3,3,9,3] 以及 [3,3,3,9] 实际上因 ODSSBlock 过度重复而产生冗余。实验表明 [3,6,6,3] 是 MambaYOLO 中更合理的配置。在颈部区域,虽然移除 ODSSBlock 可实现更轻量化的模型,但这将不可避免地降低模型精度,而颈部区域的 ODSSBlock 能提供丰富的梯度流和特征融合。选择输出特征图为 {P2,P3,P4,P5} 该变体显著提高了精度,但不可避免地大幅增加了 GFLOPs。Mamba YOLO 最终选择了 Blocks= [3,6,6,3],特征图={P3,P4,P5},并在颈部区域使用了 ODSSBlock。这种配置在精度与复杂度之间取得了更好的平衡,更适用于高效执行实例分割任务。结果如表 4 所示。

4 结论

本文提出了一种基于 SSM 并结合 YOLO 扩展的检测器设计。其训练过程显著简化,无需在大规模数据集上进行预训练。我们重新分析了传统 MLP 的局限性,并提出了 RG 模块——该模块通过门控机制和深度卷积残差连接设计,使模型能够在层级结构中传递关键特征。我们的目标是建立 YOLO 的新基准,证明 MambaYOLO 具有高度竞争力。本研究首次将 Mamba 架构应用于实时目标检测任务,同时希望为该领域研究者带来新思路。

目录

  1. MambaYOLO: 一种基于状态空间模型的简单目标检测基线
  2. 1 摘要&相关工作&贡献
  3. 1.1 摘要
  4. 1.2 相关工作
  5. 1.3 贡献
  6. 2 方法
  7. 2.1 前言
  8. 2.2 综述
  9. 2.3 simple stem
  10. 2.4 Vision Clue Merge
  11. 2.5 ODSSBlock
  12. 2.6 RG Block
  13. 3 实验
  14. 3.1 对比实验
  15. 3.2 消融实验
  16. 3.3 变体消融
  17. 4 结论
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Linux 远程连接 Windows 桌面配置指南
  • Python 爬虫实战:爬取 BOSS 直聘与智联招聘岗位信息
  • Double DQN 算法详解与 Python 实现
  • 基于 Spring Boot 的家庭财务管理系统设计与实现
  • AI 辅助生成前端原型:从需求到交互的自动化流程
  • 2026 年前端、后端及算法岗位 AI 核心技能清单
  • 五大经典排序算法详解:插入、希尔、冒泡、选择与堆排序
  • 基于 Segment Anything 模型的图像分割部署与测试
  • Neo4j 图数据库安装与操作指南 (Mac)
  • Git LFS 跨平台安装与配置实战指南
  • 主流免费 AI IDE 工具盘点与使用指南
  • Linux 进程管理:创建、终止与回收全流程解析
  • Spring Boot Web 三大核心交互实战:表单、AJAX 与 JSON
  • 前端流式输出实战:从原理到框架落地
  • Java 22 密封类(Sealed Classes)增强详解
  • 并发限流的常见实现方案与架构实践
  • 大型语言模型:概念、技术与应用
  • VLM 经典论文综述:An Introduction to Vision-Language Modeling
  • 链表算法实战:相交节点查找与回文结构判断
  • GLM-5 大模型代码生成能力深度评测与实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online