MambaRefine-YOLO:无人机影像双模态小目标检测器
摘要
无人机影像中的小目标检测是一个持续的挑战,受到低分辨率和背景杂波的阻碍。虽然融合 RGB 和红外数据提供了一种有前景的解决方案,但现有方法常常在有效的跨模态交互和计算效率之间难以取舍。在本文中,我们介绍了 MambaRefine-YOLO。其核心贡献在于一个双门控互补 Mamba 融合模块,该模块通过光照感知和差异感知的门控机制自适应地平衡 RGB 和 IR 模态;以及一个分层特征聚合颈部,它使用'先优化后融合'的策略来增强多尺度特征。我们全面的实验验证了这种双管齐下的方法。在双模态 DroneVehicle 数据集上,完整模型实现了最先进的 83.2% mAP,比基线提高了 7.9%。在单模态 VisDrone 数据集上,仅使用 HFAN 的变体也显示出显著增益,证明了其普遍适用性。我们的工作在准确性和速度之间展现了优越的平衡,使其非常适合现实世界的无人机应用。
引言
使用无人机的目标检测是一项关键技术,应用范围从精准农业到灾难响应 [li2024sod]。然而,从空中平台检测目标带来了独特且重大的挑战。由于飞行高度高,感兴趣的目标通常表现为小型、低分辨率的目标,使其难以与复杂背景区分开来 [nikouei2025_small_object_detection, liu2020uav]。这些问题,加上剧烈的尺度变化和具有挑战性的光照条件,常常导致标准检测器漏检。
为了克服这些限制,融合来自 RGB 和红外传感器的数据已成为一种有效的策略 [fusion2024survey]。虽然基于深度学习的融合方法已显示出潜力 [improving2024coarse],但设计一个能有效合并这两种数据流的架构仍然是一个关键挑战。许多基于卷积神经网络的融合方法受限于卷积的局部性 [efficient2023inductive]。虽然视觉 Transformer 擅长捕获全局关系 [dosovitskiy2021image],但其二次计算成本使其不适合实时处理高分辨率无人机影像 [du2025evit]。这就产生了一个紧迫的权衡:我们如何才能在不牺牲实时性能的情况下实现全局跨模态交互?
为了打破这种僵局,我们转向 Mamba,这是一种最近开发的状态空间模型,它实现了 Transformer 的长程建模能力,但具有线性计算复杂度 [gu2023mamba]。其选择性扫描机制是在不增加计算开销的情况下融合来自不同模态的互补信息的理想候选者 [zhu2024vision]。
在本文中,我们提出了 MambaRefine-YOLO。我们的关键创新是双重的。首先,我们引入了一个双门控互补 Mamba 融合模块,用于高效且有效的特征融合。其次,我们设计了一个分层特征聚合颈部,它采用'先优化后融合'的策略来增强多尺度特征。我们的贡献是:
- 一个双门控互补 Mamba 融合模块,它采用光照感知和差异感知的门控机制来自适应地融合 RGB 和 IR 特征,同时保持线性计算复杂度。
- 一个分层特征聚合颈部,它在融合前优化特征以改进小目标的多尺度表示。
- 在双模态和单模态数据集上进行全面的实验验证,证明了融合模块的有效性以及 HFAN 的普遍适用性。
提出的方法
我们提出的 MambaRefine-YOLO 是一个端到端网络,旨在解决双模态无人机目标检测中的两个主要挑战:1) 实现有效的跨模态融合,以及 2) 增强多尺度特征以提高对小目标的敏感性。整体架构如图 1 所示。它由两个关键组件组成:一个基于 Mamba 的双流骨干网用于特征提取和融合,以及一个分层特征聚合颈部用于特征优化。

图 1:MambaRefine-YOLO 的整体架构。它包含一个双流骨干网,其中双门控互补 Mamba 融合模块应用于四个不同的尺度(C2 到 C5)。融合后的特征随后由分层特征聚合颈部处理,该颈部包含若干个自适应尺度融合块。最后,一个多尺度检测头产生输出。
基于 Mamba 的双流骨干网
我们采用双流骨干网来整合 RGB 和 IR 信息。为了实现长程跨模态交互,同时避免 CNN 的高计算开销或受限的感受野,我们引入了双门控互补 Mamba 融合模块,如图 2 所示。该模块应用于四个特征尺度(C2 到 C5)。给定特征图 F_rgb, F_ir ∈ ℝ^(B×C×H×W),DGC-MFM 操作如下。
- 光照门控(IG)。受光照感知加权策略 [guan2019illumination] 的启发,我们引入了一个光照门控来根据光照条件调整模态权重。我们首先使用一个卷积接全局平均池化来估计每个模态的亮度,产生标量估计 L_rgb 和 L_ir。然后通过比较这些亮度水平来计算光照权重:W_light = σ( γ (L_rgb - L_ir) ), (1)其中 σ(⋅) 是 Sigmoid 函数,γ 是一个可学习的温度参数。标量 W_light 被广播到特征图维度,在光线充足的环境中优先考虑 RGB 特征,在低光场景中优先考虑 IR 特征。
- 差异门控(DG)。为了捕获互补信息 [jang2025mcor],我们提出了一个差异门控。它通过计算特征图之间的绝对差来建模内容级别的差异:F_diff = |F_rgb - F_ir|。 (2)然后通过 GAP 导出一个通道注意力向量 A_diff 来识别信息丰富的通道:A_diff = Softmax( W_2 δ( W_1 GAP(F_diff) ) ), (3)其中 W_1 ∈ ℝ^(d×C) 和 W_2 ∈ ℝ^(C×d) 是可学习参数,δ(⋅) 是非线性激活函数。使用 A_diff,该模块生成模态特定的权重 W_diff-rgb 和 W_diff-ir。最终的双门控融合结合了光照和差异线索:F_fused = (W_light ⊗ W_diff-rgb) ⊙ F_rgb + ( (1 - W_light) ⊗ W_diff-ir) ⊙ F_ir, (4)其中 ⊗ 表示广播乘法。这个公式将光照和内容级别的差异都整合到融合表示中,该表示作为后续双向 Mamba 块的输入以建模全局依赖关系。



