1.摘要&&引言
跨模态融合能够有效整合不同模态的互补信息,提升目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。
现有融合策略通过精心设计的神经网络模块组合不同类型的图像或融合不同骨干网络特征,但这些方法忽略了模态差异对跨模态融合性能的影响。
本文基于改进的曼巴(Mamba)模型,引入门控机制,通过在隐藏状态空间中关联跨模态特征,探索跨模态融合的新范式。
[图 1]
图 1. 热力图可视化。(a)和(b)为初始 RGB 和 IR 输入图像;(c)和(d)为使用 YOLOv8 单模态生成的热力图;(e)为基于 CNN 融合模块的 YOLO-MS 热力图;(f)和(g)为基于 Transformer 融合模块的 ICAFusion 和 CFT 热力图;(h)为我们的 FMB 热力图,其定位效果更佳。
[图 2]
图 2. 所提出的 Fusion-Mamba 方法架构。检测网络包含双流特征提取网络和三个 Fusion-Mamba 模块(FMB),其颈部和头部与 YOLOv8 相同。顶部是我们的检测框架,φi 和 φi 分别是 RGB 和 IR 分支的卷积模块,用于生成 FRi 和 FIRi 特征;FRi 和 FIRi 是通过 FMB 增强的特征图;P3、P4 和 P5 是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了 FMB 的设计细节。
本文提出 Fusion-Mamba 方法,旨在通过隐藏状态空间实现特征融合,为跨模态特征融合开辟新范式。
Fusion-Mamba 的核心创新在于融合 - 曼巴块(FMB),如图 2 所示:其中,状态空间通道交换(SSCS)模块用于浅层特征融合,提升跨模态特征的交互能力;双状态空间融合(DSSF)模块构建隐藏状态空间,实现跨模态特征的关联与互补。这两个模块共同减小了融合过程中的模态差异,如图 1(h)所示,其热力图表明本文方法能更有效地融合特征,使检测器更聚焦于目标。
本文的主要贡献如下:
- 提出 Fusion-Mamba 方法,探索了曼巴(Mamba)在跨模态融合中的应用潜力,增强了融合特征的表示一致性。基于改进的门控曼巴模型,构建了跨模态交互的隐藏状态空间,以减小跨模态特征差异。
- 设计了包含两个模块的融合 - 曼巴块(FMB):状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块实现隐藏状态空间中的深层融合。
- 在三个公开 RGB-红外目标检测数据集上的大量实验表明,所提方法达到了现有最优性能,为跨模态目标检测方法建立了新基准。
2.方法
2.1 预备知识
2.1.1 状态空间模型 (SSM)
状态空间模型(State Space Models, SSMs)常用于表示线性时不变系统,其通过一维输入序列 x(t)∈R,经中间隐状态 h(t)∈RN 处理后生成输出 y(t)∈R。数学上,SSMs 通常表示为线性常微分方程(ODEs):
$$ h'(t) = Ah(t) + Bx(t) \ y(t) = Ch(t) + Dx(t) $$
其中,系统行为由一组参数定义,包括状态转移矩阵 A∈RN×N、投影参数 B、C∈RN×1 以及跳跃连接 D∈R。为简化说明,一般通过设置 D=0 移除 Dx(t) 项。
2.1.2 离散化
考虑到计算机易于处理离散数据,因此通过离散化操作将 ODEs 离散化:
$$ \overline{h}k = \overline{A} h{k-1} + \overline{B} x_k, \ y(t) = \overline{C} h_k + D x_k, \ \overline{A} = e^{\Delta A}, \ \overline{B} = (\Delta A)^{-1} (e^{\Delta A} - I) \Delta B, \ \overline{C} = C $$
其中,B、C∈RD,I 为单位矩阵,B̄ 和 C̄ 分别为 B,C 的离散化表达,Δ 为时间尺度参数,即离散化后的时间步长。离散化后,SSMs 通过结构化卷积核 K̃∈RD 的全局卷积计算:
$$ y = x * \overline{K}, \quad K = (C\overline{B}, C\overline{A}\overline{B}, \cdots, C\overline{A}^{L-1}B) $$
2.1.3 二维选择性扫描 (SS2D)
二维视觉数据与一维语言序列的不兼容性导致曼巴(Mamba)无法直接应用于视觉任务。为解决这一问题,提出了二维选择性扫描(2D Selective Scan, SS2D)机制,其流程如图 3 所示。
SS2D 首先将图像块向四个不同方向扩展,生成四个独立序列;这种四向扫描策略确保特征图中的每个元素都包含来自不同方向所有其他位置的信息,从而在不增加线性计算复杂度的前提下构建全面的全局感受野。
随后,每个特征序列通过选择性扫描状态空间序列模型(S6)进行处理,最后通过聚合特征序列重构二维特征图。
[图 3]


