【论文阅读 | CVPR 2024 | Fusion-Mamba :用于跨模态目标检测】
论文阅读 | CVPR 2024 |Fusion-Mamba :用于跨模态目标检测

题目:Fusion-Mamba for Cross-modality Object Detection
会议: Computer Vision and Pattern Recognition(CVPR)
论文:https://arxiv.org/abs/2404.09146
代码:未公开
年份:2024
1.摘要&&引言
跨模态融合能够有效整合不同模态的互补信息,提升目标检测性能,使其在更广泛的应用场景中更具实用性和鲁棒性。
现有融合策略通过精心设计的神经网络模块组合不同类型的图像或融合不同骨干网络特征,但这些方法忽略了模态差异对跨模态融合性能的影响。
本文基于改进的曼巴(Mamba)模型,引入门控机制,通过在隐藏状态空间中关联跨模态特征,探索跨模态融合的新范式。

图1. 热力图可视化。(a)和(b)为初始RGB和IR输入图像;©和(d)为使用YOLOv8单模态生成的热力图;(e)为基于CNN融合模块的YOLO-MS热力图;(f)和(g)为基于Transformer融合模块的ICAFusion和CFT热力图;(h)为我们的FMB热力图,其定位效果更佳。

图2. 所提出的Fusion-Mamba方法架构。检测网络包含双流特征提取网络和三个Fusion-Mamba模块(FMB),其颈部和头部与YOLOv8相同。顶部是我们的检测框架, ϕ i \phi_{i} ϕi和 φ i \varphi_{i} φi分别是RGB和IR分支的卷积模块,用于生成 F R i F_{R_{i}} FRi和 F I R i F_{IR_{i}} FIRi特征; F ^ R i \hat{F}_{R_{i}} F^Ri和 F ^ I R i \hat{F}_{IR_{i}} F^IRi是通过FMB增强的特征图; P 3 P_{3} P3、 P 4 P_{4} P4和 P 5 P_{5} P5是增强特征图的求和输出,作为颈部最后三个阶段的特征金字塔输入。底部展示了FMB的设计细节。
本文提出 Fusion-Mamba 方法,旨在通过隐藏状态空间实现特征融合,为跨模态特征融合开辟新范式。
Fusion-Mamba 的核心创新在于融合 - 曼巴块(FMB),如图 2 所示:其中,状态空间通道交换(SSCS)模块用于浅层特征融合,提升跨模态特征的交互能力;双状态空间融合(DSSF)模块构建隐藏状态空间,实现跨模态特征的关联与互补。这两个模块共同减小了融合过程中的模态差异,如图 1(h)所示,其热力图表明本文方法能更有效地融合特征,使检测器更聚焦于目标。
本文的主要贡献如下:
- 提出 Fusion-Mamba 方法,探索了曼巴(Mamba)在跨模态融合中的应用潜力,增强了融合特征的表示一致性。基于改进的门控曼巴模型,构建了跨模态交互的隐藏状态空间,以减小跨模态特征差异。
- 设计了包含两个模块的融合 - 曼巴块(FMB):状态空间通道交换(SSCS)模块促进浅层特征融合,双状态空间融合(DSSF)模块实现隐藏状态空间中的深层融合。
- 在三个公开 RGB - 红外目标检测数据集上的大量实验表明,所提方法达到了现有最优性能,为跨模态目标检测方法建立了新基准。
2.方法
2.1预备知识
2.1.1状态空间模型(SSM)
状态空间模型(State Space Models, SSMs)常用于表示线性时不变系统,其通过一维输入序列 x ( t ) ∈ R x (t)∈R x(t)∈R,经中间隐状态 h ( t ) ∈ R N h (t)∈Rᴺ h(t)∈RN 处理后生成输出 y ( t ) ∈ R y (t)∈R y(t)∈R 。数学上,SSMs 通常表示为线性常微分方程(ODEs):
h ′ ( t ) = A h ( t ) + B x ( t ) h'(t)=A h(t)+B x(t) h′(t)=Ah(t)+Bx(t) y ( t ) = C h ( t ) + D x ( t ) y(t)=C h(t)+D x(t) y(t)=Ch(t)+Dx(t)
其中,系统行为由一组参数定义,包括状态转移矩阵 A ∈ R N x N A∈Rᴺˣᴺ A∈RNxN、投影参数 B 、 C ∈ R N x 1 B、C∈Rᴺˣ¹ B、C∈RNx1 以及跳跃连接 D ∈ R D∈R D∈R。为简化说明,一般通过设置 D = 0 D=0 D=0 移除 D x ( t ) D x (t) Dx(t) 项。
2.1.2离散化
考虑到计算机易于处理离散数据,因此通过离散化操作将ODEs离散化:
h ‾ k = A ‾ h k − 1 + B ‾ x k , y ( t ) = C ‾ h k + D x k , A ‾ = e Δ A , B ‾ = ( Δ A ) − 1 ( e Δ A − I ) Δ B , C ‾ = C \begin{array}{ll} \overline{h}_{k} = \overline{A} h_{k-1} + \overline{B} x_{k}, \\ y(t) = \overline{C} h_{k} + D x_{k}, \\ \overline{A} = e^{\Delta A}, \\ \overline{B} = (\Delta A)^{-1} \left(e^{\Delta A} - I\right) \Delta B, \\ \overline{C} = C \end{array} hk=Ahk−1+Bxk,y(t)=Chk+Dxk,A=eΔA,B=(ΔA)−1(eΔA−I)ΔB,C=C
其中, B 、 C ∈ R D B、C∈Rᴰ B、C∈RD, I I I 为单位矩阵, B ‾ 和 C ‾ \overline{B}和\overline{C} B和C分别为 B , C B,C B,C的离散化表达, Δ Δ Δ为时间尺度参数,即离散化后的时间步长。离散化后,SSMs 通过结构化卷积核 K ~ ∈ R D K̃∈Rᴰ K~∈RD 的全局卷积计算:
y = x ∗ K ‾ , K = ( C B ‾ , C A ‾ B ‾ , ⋯ , C A ‾ L − 1 B ‾ ) y = x * \overline{K}, \quad K = \left(C \overline{B}, C \overline{A} \overline{B}, \cdots, C \overline{A}^{L-1} \overline{B}\right) y=x∗K,K=(CB,CAB,⋯,CAL−1B)
2.1.3二维选择性扫描(SS2D)
二维视觉数据与一维语言序列的不兼容性导致曼巴(Mamba)无法直接应用于视觉任务。为解决这一问题,提出了二维选择性扫描(2D Selective Scan, SS2D)机制,其流程如图 3 所示。
SS2D 首先将图像块向四个不同方向扩展,生成四个独立序列;这种四向扫描策略确保特征图中的每个元素都包含来自不同方向所有其他位置的信息,从而在不增加线性计算复杂度的前提下构建全面的全局感受野。
随后,每个特征序列通过选择性扫描状态空间序列模型(S6)进行处理,最后通过聚合特征序列重构二维特征图。
首先,图像经扫描扩展生成四个不同的特征序列;随后,每个序列通过 S6 块独立处理;最后,聚合 S6 块的输出,生成最终的二维特征图。
2.2 Fusion Mamba
2.2.1 架构
本文模型架构如图 2 所示,其检测骨干网络由双流特征提取网络和三个 融合 - 曼巴块(FMB) 组成,特征提取网络从 RGB 和红外图像中提取局部特征,分别记为 F r i Fᵣᵢ Fri 和 F i r i Fᵢᵣᵢ Firi ;随后,将这两个特征输入 FMB,通过在隐藏状态空间中关联跨模态特征,减小跨模态特征差异并增强融合特征的表示一致性。

本文中,FMB 仅添加到最后三个阶段,生成融合特征 P 3 、 P 4 和 P 5 P₃、P₄和 P₅ P3、P4和P5 ,这些特征作为 YOLOv8 颈部和头部的输入,最终生成检测结果
2.2.2 核心组件
2.2.2.1 卷积块
给定输入 RGB 图像 I r Iᵣ Ir 和红外图像 I i r Iᵢᵣ Iir ,将其输入一系列卷积块以提取局部特征:
F R i = ϕ i ⋯ ( ϕ 2 ( ϕ 1 ( I R ) ) ) F_{R_{i}}=\phi_{i} \cdots\left(\phi_{2}\left(\phi_{1}\left(I_{R}\right)\right)\right) FRi=ϕi⋯(ϕ2(ϕ1(IR))) F I R i = φ i ⋯ ( φ 2 ( φ 1 ( I I R ) ) ) \quad F_{I R_{i}}=\varphi_{i} \cdots\left(\varphi_{2}\left(\varphi_{1}\left(I_{I R}\right)\right)\right) FIRi=φi⋯(φ2(φ1(IIR)))其中, ϕ i \phi_i ϕi 和 φ i \varphi_i φi 分别表示 RGB 和 红外分支在第 i i i 阶段的卷积块。
2.2.2.2 SSCS 模块
该模块通过 通道交换 操作和 VSS 块,增强跨模态特征交互以实现 浅层融合 。通过整合不同通道的信息构建跨模态特征关联,丰富通道特征的多样性,提升融合性能。
1.通道交换
采用通道交换操作生成 RGB 和红外的新局部特征 T r i Tᵣᵢ Tri 和 T i r i Tᵢᵣᵢ Tiri,其公式为: T R i = C S ( F R i , F I R i ) , T I R i = C S ( F I R i , F R i ) T_{R_{i}}=CS(F_{R_{i}},F_{IR_{i}}), \quad T_{IR_{i}}=CS(F_{IR_{i}},F_{R_{i}}) TRi=CS(FRi,FIRi),TIRi=CS(FIRi,FRi)其中, C S ( ・ , ・ ) CS (・,・) CS(・,・) 为通道交换操作,通过通道分割和拼接实现:首先将局部特征 F r i Fᵣᵢ Fri 和 F i r i Fᵢᵣᵢ Firi 沿通道维度均分为四等份;然后,从 F r i Fᵣᵢ Fri 中选取第 1 和第 3 部分,从 F i r i Fᵢᵣᵢ Firi 中选取第 2 和第 4 部分,按顺序拼接生成 RGB 新局部特征 T r i Tᵣᵢ Tri ;同理生成红外新局部特征 T i r i Tᵢᵣᵢ Tiri 。
2.跨模态交互
对 T r i Tᵣᵢ Tri 和 T i r i Tᵢᵣᵢ Tiri 应用 VSS 块,从浅层特征增强跨模态交互: F ~ R i = V S S ( T R i ) , F ~ I R i = V S S ( T I R i ) \tilde{F}_{R_{i}}=V S S\left(T_{R_{i}}\right), \quad \tilde{F}_{I R_{i}}=V S S\left(T_{I R_{i}}\right) F~Ri=VSS(TRi),F~IRi=VSS(TIRi) 其中,VSS (・) 表示图 2 中的 VSS 块 ; F ~ r i F̃ᵣᵢ F~ri 和 F ~ i r i F̃ᵢᵣᵢ F~iri 分别为 RGB 和红外模态的浅层融合特征输出。
2.2.2.3 DSSF 模块
为进一步减小模态差异,构建用于跨模态特征关联与互补的隐藏状态空间。
DSSF 模块通过建模跨模态目标关联,促进特征融合。具体而言,采用 VSS 块将两种模态的特征投影到隐藏状态空间,并利用 门控 机制构建双向隐状态转换,实现跨模态深层特征融合。
1.投影到隐藏状态空间
得到浅层融合特征 F ~ r i F̃ᵣᵢ F~ri 和 F ~ i r i F̃ᵢᵣᵢ F~iri 后,首先通过 无门控 的 VSS 块 将其投影到隐藏状态空间:
y R i = P i n ( F ~ R i ) , y I R i = P i n ( F ~ I R i ) y_{R_{i}}=P_{in}(\tilde{F}_{R_{i}}), \quad y_{I R_{i}}=P_{in}(\tilde{F}_{I R_{i}}) yRi=Pin(F~Ri),yIRi=Pin(F~IRi)其中, P i n ( ・ ) Pᵢₙ(・) Pin(・) 表示将特征投影到隐藏状态空间的操作(详细实现见算法 1 第 13-17 行); y r i yᵣᵢ yri 和 y i r i yᵢᵣᵢ yiri 表示 隐状态特征。
2.生成门控参数
对 F ~ r i F̃ᵣᵢ F~ri 和 F ~ i r i F̃ᵢᵣᵢ F~iri 进行投影,得到门控参数 z r i zᵣᵢ zri 和 z i r i zᵢᵣᵢ ziri : z R i = f θ i ( F ~ R i ) , z I R i = g ω i ( F ~ I R i ) z_{R_{i}}=f_{\theta_{i}}\left(\tilde{F}_{R_{i}}\right), \quad z_{I R_{i}}=g_{\omega_{i}}\left(\tilde{F}_{I R_{i}}\right) zRi=fθi(F~Ri),zIRi=gωi(F~IRi) 其中, f i ( ・ ) f_θᵢ(・) fi(・) 和 g i ( ・ ) g_ωᵢ(・) gi(・) 分别表示双流中带有参数 θ i θᵢ θi和 ω i ωᵢ ωi 的门控操作。
3.隐状态特征融合
利用式中的门控输出 z r i zᵣᵢ zri 和 z i r i zᵢᵣᵢ ziri 对 y r i yᵣᵢ yri 和 y i r i yᵢᵣᵢ yiri 进行调制,实现隐状态特征融合: y R i ′ = y R i ⋅ z R i + z R i ⋅ y I R i y_{R_{i}}'=y_{R_{i}} \cdot z_{R_{i}}+z_{R_{i}} \cdot y_{I R_{i}} yRi′=yRi⋅zRi+zRi⋅yIRi y I R i ′ = y I R i ⋅ z I R i + z I R i ⋅ y R i y_{I R_{i}}'=y_{I R_{i}} \cdot z_{I R_{i}}+z_{I R_{i}} \cdot y_{R_{i}} yIRi′=yIRi⋅zIRi+zIRi⋅yRi 其中, y r i ′ yᵣᵢ' yri′ 和 y i r i ′ yᵢᵣᵢ' yiri′ 分别表示融合后的 RGB 和红外隐状态特征;“・” 表示按元素乘积。
4.残差连接与特征增强
将 y r i ′ yᵣᵢ' yri′ 和 y i r i ′ yᵢᵣᵢ' yiri′ 投影回原始空间,并通过残差连接得到互补特征 F ˉ r i F̄ᵣᵢ Fˉri 和 F ˉ i r i F̄ᵢᵣᵢ Fˉiri: F ‾ R i = P o u t ( y R i ′ ) + F ~ R i \overline{F}_{R_{i}}=P_{out }\left(y_{R_{i}}'\right)+\tilde{F}_{R_{i}} FRi=Pout(yRi′)+F~Ri F ‾ I R i = P o u t ( y I R i ′ ) + F ~ I R i \overline{F}_{I R_{i}}=P_{out }\left(y_{I R_{i}}'\right)+\tilde{F}_{I R_{i}} FIRi=Pout(yIRi′)+F~IRi 其中, P o u t ( ・ ) Pₒᵤₜ(・) Pout(・) 表示带有线性变换的投影操作
增强特征表示: F ^ R i = F R i + F ‾ R i , F ^ I R i = F I R i + F ‾ I R i \hat{F}_{R_{i}}=F_{R_{i}}+\overline{F}_{R_{i}}, \quad \hat{F}_{I R_{i}}=F_{I R_{i}}+\overline{F}_{I R_{i}} F^Ri=FRi+FRi,F^IRi=FIRi+FIRi
2.2.2.4 FMB算法(算法1)
2.2.2.5 损失函数
经 FMB 处理后,RGB 和红外的增强特征(即 F ^ r i F̂ᵣᵢ F^ri 和 F ^ i r i F̂ᵢᵣᵢ F^iri )通过加法进一步融合,生成融合特征 P i Pᵢ Pi 作为颈部输入,以提升检测性能。
总损失函数定义为: L = λ c o o r d L c o o r d + L c o n f + L c l a s s \mathcal{L}=\lambda_{coord } \mathcal{L}_{coord }+\mathcal{L}_{conf }+\mathcal{L}_{class } L=λcoordLcoord+Lconf+Lclass 其中, λ c o o r d s λ_{coords} λcoords 为调节定位损失 L c o o r d s L_{coords} Lcoords 权重的超参数, L c o n f L_{conf} Lconf 为置信度损失, L c l a s s L_{class} Lclass 为分类损失。
2.2.3 与基于 Transformer 的融合方法对比
现有基于 Transformer 的跨模态融合方法通过卷积对特征进行展平与拼接,生成中间融合特征,再通过多头交叉注意力进一步融合得到最终特征。这些方法仅通过空间交互无法有效减小模态差异,因为难以建模跨模态特征的目标关联。本文的 FMB 块通过四向扫描特征获得四组图像块,有效保留特征的局部信息;同时,将这些图像块映射到隐藏空间进行特征融合,这种基于映射的深层特征融合方法通过双向门控注意力有效减小了空间差异,进一步抑制冗余特征并捕捉模态间的互补信息。因此,所提 FMB 块减小了跨模态特征差异,增强了融合特征的表示一致性。
此外,Transformer 全局注意力的时间复杂度为 O ( N 2 ) O (N²) O(N2),而曼巴(Mamba)的时间复杂度仅为 O ( N ) O (N) O(N)( N N N 为序列长度)。从实验角度来看,在相同的检测模型架构下,用 Fusion-Mamba 块替换基于 Transformer 的融合模块,对单对图像的推理时间可节省 7-19ms(实验部分将详细讨论)。
3. 实验
3.1 实验设置
3.1.1 数据集
实验在三个广泛使用的可见光-红外(RGB-IR)基准数据集上进行评估,覆盖低光、多场景及昼夜环境,具体信息如下:
- LLVIP:低光环境下的行人检测数据集,包含15,488对对齐的RGB-IR图像。数据采集于夜间低光照条件,聚焦行人目标检测。遵循官方划分,使用12,025对图像训练,3,463对测试。
- M³FD:多模态多场景数据集,包含4,200对对齐的RGB-IR图像,覆盖不同光照(如强光、弱光)、季节(春、夏、秋、冬)和天气(晴、雨、雾)场景。数据涵盖自动驾驶和道路监控中常见的6个类别(行人、车辆、自行车等)。由于无官方划分,采用文献[18]的训练/测试分割。
- FLIR:昼夜场景数据集,包含5个类别(人、汽车、自行车、狗、其他车辆)。遵循文献[38],使用FLIR-Aligned子集,其中4,129对训练,1,013对测试。
3.1.2 评估指标
采用目标检测领域最常用的两个指标:
- mAP₅₀:IoU阈值为0.50时的平均精度(Average Precision),反映模型对目标定位和分类的基础能力;
- mAP:IoU阈值在0.50到0.95(步长0.05)范围内的平均精度,综合评估模型在不同重叠度下的鲁棒性。
此外,报告在A800 GPU上对输入尺寸为640×640的图像进行5次运行评估的平均推理时间(单位:ms),衡量模型的计算效率。
3.1.3 实现细节
所有实验基于双流框架[6],在单张A800 GPU上完成。默认使用YOLOv5-l或YOLOv8-l作为主干网络(Backbone),颈部(Neck)和头部(Head)结构与对应YOLO版本保持一致。训练超参数设置如下:
- 批量大小(Batch Size):4;
- 优化器:SGD,动量(Momentum)0.9,权重衰减(Weight Decay)0.001;
- 输入尺寸:640×640;
- 训练轮次(Epochs):150;
- 初始学习率(Initial LR):0.01;
- Fusion-Mamba模块参数:SSCS模块数量1,DSSF模块数量8;
- 定位损失权重: λ coord = 7.5 \lambda_{\text{coord}} = 7.5 λcoord=7.5(其他超参数与YOLOv8默认配置一致)。
3.2 与现有最优方法的对比
3.2.1 LLVIP数据集
为验证Fusion-Mamba的有效性,我们在LLVIP数据集上与两类方法对比:单模态检测方法(仅RGB或仅IR)和多光谱融合方法(同时利用RGB-IR特征)。实验结果如表1所示(此处假设表1为对比数据)。

LLVIP作为低光行人检测数据集,单模态检测中IR模态因对光照不敏感,性能普遍优于RGB模态(如仅IR的Cascade R-CNN mAP为58.4%)。融合方法通过跨模态信息互补,理论上应优于单模态检测。
- 与单模态方法对比:基于ResNet50主干的RSDet(融合方法)在LLVIP上mAP为62.9%,较仅IR的Cascade R-CNN(58.4%)提升4.5%;而仅IR的简单YOLOv5框架(无融合)已达到61.9% mAP,显著优于部分融合方法(如DIVFusion仅9.9% mAP),说明低质量融合可能破坏IR模态的固有优势。
- 与多光谱融合方法对比:在相同YOLOv5主干下,Fusion-Mamba的mAP为62.8%(较仅IR的YOLOv5提升0.9%),较RSDet(61.3%)提升1.5%。核心优势源于SSCS模块的浅层通道交换(增强跨模态信息交互)和DSSF模块的深层门控融合(抑制冗余特征并捕捉互补信息),有效减少了模态差异,提升了融合特征的表示一致性。
- 与YOLOv8主干对比:基于YOLOv8-l的Fusion-Mamba进一步优化了性能,达到mAP₅₀=97.0%、mAP=64.3%,为当前LLVIP上的最优结果。
3.2.2 M³FD 数据集
我们将我们的方法与 7 种基于 YOLOv5 的现有最优检测器和 1 种基于 YOLOv7 的现有最优检测器进行比较。如表 2 所示,与基于相同 YOLOv5 主干的现有最优方法相比,我们的 Fusion-Mamba 在所有类别上使用 mAP₅₀和 mAP 指标均表现最佳;基于 YOLOv8 主干的方法在 People、Bus、Motorcycle 和 Truck 类别上实现了新的现有最优结果,同时 mAP₅₀和 mAP 指标进一步提升了 3% 和 4.4%。此外,尽管 YOLOv5 的特征表示能力低于 YOLOv7,我们使用 YOLOv5 主干的方法仍比基于 YOLOv7 的 SuperFusion 高出 1.5% mAP 和 mAP₅₀,这得益于我们 FMB 的有效性,提升了跨模态特征的固有互补性。

3.2.3 FLIR-Aligned 数据集
如表 3 所示,Fusion-Mamba 在 Aligned-FLIR 数据集上也表现最佳。与基于双流 YOLOv5 主干的 CrossFormer 相比,我们基于 YOLOv8 和 YOLOv5 的方法在 mAP₅₀上分别超越它们 5.6% 和 5%,在 mAP 上分别超越 4.9% 和 2.3%。我们还比 RSDet 高出 3.8% mAP₅₀和 5.6% mAP。在速度方面,我们使用 YOLOv5 的方法实现了最快速度,与基于 Transformer 的 CFT 和 CrossFormer 方法相比,一对图像的检测分别节省 7ms 和 19ms。在参数方面,我们基于 YOLOv5 的方法比 CrossFormer 方法节省约 100M 参数。尽管我们基于 YOLOv8 的方法比 YOLOv5 增加了约 40M 参数,但 mAP 显著提升了 2.6%。该结果表明,我们基于隐藏空间建模的方法更好地整合了不同模态之间的特征,抑制了模态差异,以最佳的性能和计算成本权衡增强了融合特征的表示能力。

3.2.4 热力图可视化
为直观展示我们模型的高性能,我们从三个实验数据集中各随机选择一对图像,可视化 P₅热力图,并与其他融合方法进行比较。如图 5 所示,与其他方法相比,我们的模型更聚焦于目标,而非分散或聚焦于无关部分。更多示例见补充材料。我们还在补充材料中可视化了目标检测结果,以评估我们方法的有效性。

3.3 消融实验
我们使用 FLIR-Aligned 数据集进行消融实验,以分别验证 SSCS 和 DSSF 模块的有效性,并进一步探索 DSSF 模块数量和位置的影响。特别地,我们还评估了 DSSF 模块双向注意力的效果。所有实验均基于 YOLOv8 主干进行。
3.3.1 SSCS 和 DSSF 模块的影响
FMB 中移除 SSCS 和 DSSF 的结果汇总于表 4。

移除 SSCS 模块后(表 4 第二行),检测器性能在 mAP₅₀和 mAP 上分别下降 2% 和 1.1%。原因在于,没有两模态特征的初始交换和浅层映射融合,在后续深层融合中特征差异未得到有效减少。同时,没有 DSSF(表 4 第三行),仅浅层融合交互无法在特征融合过程中有效抑制冗余特征并激活有效特征,导致检测器性能在 mAP₅₀和 mAP 上分别下降 2.5% 和 2.4%。同时移除 SSCS 和 DSSF,直接通过两局部模态特征相加获得融合特征(表 4 第四行),其性能在 mAP₅₀和 mAP 上分别显著下降 4.8% 和 7.6%。这些结果表明,FMB 的这两个组件对跨模态目标检测有效。
3.3.2 FMB 位置的影响。
遵循 [6,14] 的工作,我们也设置三个 FMB 用于特征融合。在此,我们进一步探索 FMB 位置的影响,即应在哪些阶段添加 FMB。我们选择三组多级特征: P 2 , P 3 , P 5 {P₂, P₃, P₅} P2,P3,P5、 P 2 , P 4 , P 5 {P₂, P₄, P₅} P2,P4,P5 和 P 3 , P 4 , P 5 {P₃, P₄, P₅} P3,P4,P5 进行消融实验,其中 P i Pᵢ Pi是使用 FMB 在第 i i i 阶段的融合特征。如表 5 所示,位置 P 3 , P 4 , P 5 {P₃, P₄, P₅} P3,P4,P5 在性能和计算复杂度之间实现了最佳权衡,因此我们默认选择此位置进行实验。

表 5. FLIR-Aligned 数据集上 FMB 位置的影响。
3.3.3 DSSF 模块数量的影响。
我们已在表 4 中验证了 DSSF 的有效性,在此进一步评估 DSSF 模块数量的影响,结果汇总于表 6。

我们选择四种 DSSF 数量(即 2、4、8、16),并保持其他模型设置与上述实验一致。可以看出,模块数量设置为 8 时实现最佳性能,8 个 DSSF 模块将达到饱和,增加数量会导致互补特征漂移,从而降低融合性能。
3.3.4 DSSF 模块双向注意力的影响

为进一步探索我们门控机制中 DSSF 模块双向注意力的有效性,我们分别移除 RGB 分支中的 IR 注意力(即式 9 中的 z I R i ・ y R i z_{IRᵢ}・y_{Rᵢ} zIRi・yRi)、IR 分支中的 RGB 注意力(即式 10 中的 z I R i ・ y R i z_{IRᵢ}・y_{Rᵢ} zIRi・yRi)以及双向注意力。结果如表 7 所示。移除 IR 注意力或 RGB 注意力后,由于减少了两特征间的注意力交互,mAP₅₀分别下降 1.6% 或 1.1%;当移除双向注意力时,DSSF 模块变为 VSS 块的堆叠,mAP₅₀下降 2%。值得注意的是,IR 和 RGB 注意力分支与其他分支共享权重,与移除双向注意力相比,这相当于仅添加激活函数和特征加法操作。因此,双向注意力的使用对模型参数和运行时间没有显著影响,但显著提升了检测性能。
4. 结论
本文提出了一种新颖的 Fusion-Mamba 方法,通过精心设计的 SSCS 模块和 DSSF 模块实现多模态特征融合。具体而言,SSCS 交换红外和可见光通道特征以实现浅层特征融合;随后,DSSF 进一步设计用于在基于 Mamba 的隐藏状态空间中实现更深层的多模态特征交互,门控注意力用于抑制冗余特征以增强特征融合的有效性。在三个公共 RGB-IR 数据集上进行的大量实验表明,我们的方法实现了现有最优性能,且推理效率高于 Transformer。我们的工作证实了 Mamba 在跨模态融合中的潜力,相信我们的工作能为 Mamba 在跨模态任务中的应用激发更多研究。