MambaYOLO: 一种基于状态空间模型的简单目标检测基线

一种名为 MambaYOLO 的目标检测基线模型，基于状态空间模型（SSM）构建。该方法无需大规模数据集预训练，具有线性内存复杂度。核心贡献包括提出 ODSSBlock 模块以增强局部建模能力，以及设计 RG Block 融合门控聚合与卷积思想。实验表明，在 MSCOCO 数据集上，MambaYOLO 在参数量、计算量及推理延迟方面优于现有 SOTA 模型如 YOLOv8 和 Gold-YOLO，实现了精度与效率的平衡。

草莓泡芙发布于 2026/4/6更新于 2026/7/2354 浏览

MambaYOLO: 一种基于状态空间模型的简单目标检测基线

1 摘要&相关工作&贡献

1.1 摘要

在深度学习技术飞速发展的推动下，YOLO 系列为实时目标检测器树立了新标杆。此外，基于 Transformer 的架构已成为该领域最强大的解决方案，通过大幅扩展模型的感受野实现了显著性能提升。然而这种改进也带来了代价——自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题，论文提出了一种简单却有效的基线方法 Mamba YOLO。

1.2 相关工作

实时目标检测器 YOLO 的早期性能提升主要得益于其骨干网络的改进，这推动了 DarkNet 的广泛应用。YOLOv7 提出了 EELAN 结构，在保持原有模型特性的同时提升了性能。YOLO8 将前几代 YOLO 的特点结合起来，采用 CSPDarknet53 与 2 阶段 FPN（C2f）结构相结合，通过更丰富的梯度流实现轻量级且适应不同场景，同时兼顾精度。最近，Gold YOLO 引入了一种名为 Gather-and-Distribute（GD）的新机制，机制通过自注意力操作解决传统特征金字塔网络和 Rep PAN 的信息融合问题，并成功实现了 SOTA。
端到端目标检测器 DETR 首次将 Transformer 引入目标检测领域，采用 Transformer 编码器 - 解码器架构，绕过了锚点生成和非极大值抑制等传统手工设计组件，将检测视为直接的集成预测问题。可变形 DETR 提出可变形注意力机制，作为 Transformer 注意力的变体，用于在参考位置周围采样稀疏关键点集，解决了 DETR 处理高分辨率特征图的局限性。DINO 整合了混合查询选择策略、可变形注意力，并通过注入噪声进行训练，经查询优化后性能提升。RT-DETR 提出混合编码器，通过解耦尺度内交互与跨尺度融合实现高效的多尺度特征处理。然而，DETRs 的优异性能高度依赖于大规模数据集的预训练操作，而由于训练收敛性、计算成本以及小目标检测等挑战，YOLOs 在小规模建模领域仍以准确性和速度 SOTA。
视觉状态空间模型基于 SSM 的研究，在输入规模上展现出线性复杂度，并解决了 Transformer 在建模状态空间长序列时的计算效率问题。在广义视觉骨干领域，Vision Mamba 提出了基于选择性 SSM 的纯视觉骨干模型，标志着 Mamba 首次被引入视觉领域。VMamba 引入了 Cross-Scan 模块，使模型能够对二维图像进行选择性扫描，这种扫描方式增强了视觉处理能力，并在图像分类任务中展现出优越性。LocalMamba 专注于视觉空间模型的窗口扫描策略，优化视觉信息以捕捉局部依赖关系，并引入动态扫描方法为不同层寻找最优选择。受 VMamba 在视觉任务领域取得的显著成果启发，本文首次提出 Mamba YOLO——一种新型 SSM 模型，与传统基于 SSM 的视觉骨干不同，它无需在大规模数据集上进行预训练。该方法旨在考虑全局感知域，同时展示其在目标检测中的潜力。

1.3 贡献

提出的基于 SSM 的 MambaYOLO 具有简单高效的结构，内存复杂度为线性，且无需在大规模数据集上进行预训练，为目标检测领域的 YOLO（目标检测）设定了新的基准。
提出 ODSSBlock 来弥补 SSM 的局部建模能力。通过重新设计 MLP 层，我们引入了 RGBlock，该模块融合了门控聚合、有效卷积和残差连接的思想，能有效捕捉局部依赖关系，从而提升模型鲁棒性。
设计了一套 MambaYOLO 模型（Tiny/Base/Large），支持不同尺度的任务部署。如图 1 所示，MSCOCO 实验表明，与现有最先进方法相比，我们的 MambaYOLO 实现了显著的性能提升。

2 方法

2.1 前言

结构化状态空间序列模型 S4 和 Mamba，其根植于 SSM，两者均源自一个连续系统，该系统通过隐式潜在中间状态 h(t) ∈ R 将单变量序列 x(t) ∈ R 映射到输出序列 y(t)。该设计不仅建立了输入与输出之间的关系，还封装了时间动态。该系统可数学定义如下：

$$h'(t) = \mathbf{A}h(t) + \mathbf{B}x(t) \tag{1}$$

$$y(t) = \mathbf{C}h(t) \tag{2}$$

在公式 (1) 中，A ∈ R 表示状态转移矩阵，它控制隐藏状态随时间的演变；而 B ∈ R 则表示输入空间与隐藏状态相关的权重矩阵。此外，C ∈ R 是观测矩阵，它将隐藏中间状态映射到输出。Mamba 通过采用固定离散化规则，将转换参数 A 和 B 为它们的离散对应物 $\overline{\mathbf{A}}$ 和 $\overline{\mathbf{B}}$，从而更好地将该连续系统整合到深度学习架构中。为此目的常用的一种离散化方法是零阶保持（ZOH）。离散化版本可定义如下：

$$\overline{\mathbf{A}}=\operatorname{exp}(\mathbf{\Delta A}) \tag{3}$$

$$\overline{\mathbf{B}}=(\mathbf{\Delta A})^{-1}(\operatorname{exp}(\mathbf{\Delta A})-\mathbf{I})\mathbf{\Delta B} \tag{4}$$

在公式 (4) 中，∆表示一个时间尺度参数，用于调整模型的时间分辨率，∆A 和∆B 分别表示给定时间区间内连续参数的离散时间对应量。此处 I 表示单位矩阵。经过变换后，模型通过线性递归形式进行计算，其定义如下：

MambaYOLO: 一种基于状态空间模型的简单目标检测基线