融合满足多种条件:基于无人机的多模态目标检测的高多样性基准和基线
大家读完觉得有帮助记得关注和点赞!!!
摘要 (Abstract)
基于无人机(UAV)的可见光(RGB)与红外(IR)图像融合目标检测,借助深度学习技术的进步和高质量数据集的推动,实现了全天候的鲁棒检测。然而,现有数据集难以充分捕捉真实世界的复杂性,因其成像条件受限。为此,我们提出了一个高多样性数据集 ATR-UMOD,覆盖多样场景,飞行高度从 80m 到 300m,相机角度从 0° 到 75°,并包含全天候、全年份的时间变化,涵盖丰富的天气和光照条件。此外,每对 RGB-IR 图像标注了 6 个条件属性,提供有价值的高层上下文信息。
为应对如此多样条件带来的挑战,我们提出了一种新颖的 提示引导的条件感知动态融合(PCDF) 方法,利用标注的条件线索自适应地重新分配多模态贡献。通过将成像条件编码为文本提示,PCDF 通过任务特定的软门控变换,有效建模了条件与多模态贡献之间的关系。一个提示引导的条件解耦模块进一步确保了在无标注条件下的实际可用性。在 ATR-UMOD 数据集上的实验验证了 PCDF 的有效性。

图 1: ATR-UMOD 中的高多样性成像条件。每种条件展示了一些代表性示例。(a) 宽高度范围:涵盖 80m 至 300m 的高度范围,为多尺度目标分析提供丰富资源。(b) 广角度覆盖:近乎全覆盖的 0° 至 75° 角度确保从不同视角获得全面的目标外观。(c) 全时段跨度:全天数据采集捕捉光线、阴影和热特性随时间的变化。(d) 挑战性天气:包含 7 种典型及极端天气条件,增强实际应用中的鲁棒性。(e) 丰富光照变化:覆盖从无光到强光的 6 种光照水平,提高对不同图像质量的适应性。(f) 多样化场景类型:考虑跨场景泛化,涵盖 11 种具有复杂背景的场景类型。这些条件额外标注在每对图像中,提供有价值的高层上下文洞察,并为特定条件性能评估建立全面基准。
1 引言 (1 Introduction)
基于无人机(UAV)的可见光(RGB)和红外(IR)图像目标检测(简称 RGB-IR UOD)为交通监控、军事侦察等应用提供了有前景的解决方案 [3, 7, 16, 23]。其发展高度依赖于全面的数据集,因为现代计算机视觉技术主要依赖数据驱动方式。DroneVehicle [30] 作为 RGB-IR UOD 的先驱数据集,具有推动该领域进展的巨大潜力。然而,它在高度、角度、时间、天气、光照和场景等成像条件上种类有限,难以充分代表真实场景的复杂性。
为解决此问题,我们提出了 ATR-UMOD,一个新颖的数据集,为 RGB-IR UOD 提供更全面的数据支持,并提高模型在复杂真实世界条件下的鲁棒性。相比现有数据集,它在以下方面表现突出:(1) 多样化的成像条件。如图 1 所示,其构建覆盖飞行高度 80m 至 300m,相机角度 0° 至 75°,包含全天候和全年份条件。它还跨越多种场景,具有更丰富的天气和光照变化,紧密反映真实世界的复杂性。(2) 更丰富的目标类型。我们提供 11 个细粒度目标类别,覆盖实际应用中的典型目标,支持从无人机视角进行细粒度检测。(3) 额外的条件标注。我们额外为每对图像标注了 6 个条件属性,如图 2a 所示,提供有价值的高层上下文洞察,并为条件敏感的性能评估建立全面基准。
ATR-UMOD 捕捉了真实世界条件的复杂性,但也引入了新挑战。如图 2b 所示,大多数现有方法在 ATR-UMOD 上表现不佳,可能源于此类复杂条件下的视觉信息瓶颈 [42]。为此,一些研究探索了成像条件线索(如光照)作为辅助信息 [44, 40]。受此启发,我们尝试利用条件作为辅助上下文提示,以提升跨多样条件的检测性能。
该领域的研究基于成像条件动态重新分配多模态贡献以实现可信融合 [37, 43]。它们建模了条件表示与多模态贡献之间的关系以实现动态融合 [11, 18, 31],增强从高贡献模态有效利用信息,同时抑制次要模态的噪声。尽管有这些进展,仍存在两个挑战:(1) 条件表示不足。它们通常仅关注单一条件属性(如光照),忽略了其他同样影响多模态可靠性的属性 [4]。此外,条件表示通常源自条件预测模型 [18, 31]。在此情况下,多样化的条件表示需要先进的多标签预测技术,这因条件属性的多样性和相互依赖性而具有挑战性 [25]。(2) 任务无关的条件引导流程。现有方法通常依赖代理任务(pretext task)来建模条件与多模态贡献之间的关系,例如利用光照预测任务将光照值分配为 RGB 贡献度 [11]。代理任务与检测任务优化目标的不匹配导致次优的多模态贡献,最终损害性能。

图 2: 我们数据集的优势与挑战。(a) 标注示例。(b) ATR-UMOD 上的性能下降。
数据集 | 类别数 | 条件 | 条件标注 | 发布 |
|---|---|---|---|---|
DroneVehicle | 5 | 高度:80m, 100m, 120m | ✘ | TCSVT 2022 |
ATR-UMOD | 11 | 高度:80m ~ 300m | ✔ | ICCV 2025 |
表 1:与现有 RGB-IR UOD 数据集的比较。
为此,我们提出 提示引导的条件感知动态融合(PCDF),一种新颖的方法,基于条件提示自适应地重新分配多模态贡献,提高检测在多样条件下的鲁棒性。利用 CLIP 强大的文本语义表示能力 [24],我们将多标签条件编码为文本提示,以获得表达力强且鲁棒的条件表示。考虑到不同条件属性对每个样本中多模态贡献的敏感性各异,采用 样本特定条件提示学习(SCPL) 策略以确保构建相关提示。为建立条件与多模态贡献之间的任务特定关系,我们引入 条件感知动态融合(CDF) 模块,通过面向检测的归一化软门控变换细化特征重加权。此外,由于实践中缺乏显式条件标签,我们设计了 提示引导的条件解耦(PCD) 模块,其中条件特定特征生成提示以动态调制条件不变特征。在 ATR-UMOD 数据集上的大量实验验证了 PCDF 在多样条件下的有效性和鲁棒性。
2 相关工作 (2 Related Work)
2.1 RGB-IR UOD 数据集
RGB-IR UOD 是一个有前景的新兴领域,但其数据集仍然稀缺,仅有 DroneVehicle [30] 在推动研究方面发挥了重要作用。尽管贡献显著,但其成像条件受限于固定飞行高度和相机角度、有限成像时间、仅限晴朗天气、受限光照变化和简单场景,无法充分捕捉目标尺度、视角和外观的动态变化以及背景的复杂性。此外,仅 5 个目标类别限制了潜在应用范围并削弱了检测模型的泛化能力。最后,缺乏条件标注阻碍了对条件影响多模态融合的探索,也阻碍了在多样条件下进行全面评估。为解决这些问题,我们的数据集标注了 11 个目标类别 和 6 个额外条件属性,覆盖更广的成像条件维度,详见表 1,更好地反映真实世界的复杂性,并为无人机视角下的条件敏感细粒度检测提供全面基准。
2.2 条件表示方法
利用条件表示作为附加信息在计算机视觉任务中已被证明有效 [8, 33, 22, 1, 11, 31]。例如,Chu 等人 [8] 开创性地使用全连接网络建模地理位置表示以进行细粒度分类,但由于缺乏显式约束,可能无法捕捉丰富的条件语义。为解决此问题,Guan 等人 [11] 从昼夜预测网络中提取光照表示用于 RGB-IR 融合。Wu 等人 [31] 引入了区域级光照预测以获得更精细的表示。然而,它们仅关注单一条件,忽略了其他有效条件属性。此外,使用此类预测网络进行多条件表示仍具挑战性,因为条件属性具有多样性和相互依赖性。为此,我们提出一种多条件引导的融合方法,利用 CLIP 鲁棒且灵活的语义表示能力将多条件编码为文本提示以实现有效条件表示。
2.3 条件引导融合方法
由于成像条件极大地影响多模态可靠性(例如,IR 在低光条件下优于 RGB)[38],条件引导融合方法日益受到关注 [11, 40, 18, 6]。它们旨在基于条件敏感的模态可靠性动态重新分配多模态贡献以实现可信融合。Guan 等人 [11] 开创了光照引导融合,通过昼夜预测网络直接将白天概率视为 RGB 可靠性。为防止极端光照下的模态失衡,Zhang 等人 [40] 引入了线性门函数优化可靠性。IAF R-CNN [18] 和 IGT [6] 进一步使用 Sigmoid 函数建模非线性可靠性。然而,它们都依赖于与检测目标错位的条件预测任务,导致次优的模态可靠性。相比之下,我们提出一种面向检测的软门控变换,利用富含语义的条件表示学习任务特定的多模态可靠性。
3 ATR-UMOD 数据集 (3 ATR-UMOD Dataset)

图 3: ATR-UMOD 数据集的目标和属性统计。注意:CR, SV, VN, BS, FC, TK, ME, TR, ER, CE, TT 分别代表轿车、SUV、厢式货车、巴士、货运车、卡车、摩托车、挂车、挖掘机、起重机、罐车类别。
3.1 数据集构建
- 数据采集与目标标注: ATR-UMOD 构建覆盖飞行高度、相机角度、拍摄时间、天气、光照和场景等多样成像条件。受硬件限制,原始 RGB-IR 图像因成像空间和时间差异存在不可避免的跨模态错位 [35]。为此,我们采用单应性变换 [41] 和区域裁剪进行空间校准,时间戳对齐进行时间校准。标注方面,RGB 和 IR 目标分别用有向边界框标注。
- 属性标注: 我们为 ATR-UMOD 添加了详细的条件标注,为解决视觉瓶颈提供必要上下文,并促进对条件影响多模态融合的深入分析。具体而言,我们为每对图像标注了 6 个关键条件属性:高度 (Altitude)、角度 (Angle)、时间 (Time)、天气 (Weather)、光照 (Illumination)、场景 (Scenario)。
- 训练与测试集: 数据集分为训练集(11,850 对图像)和测试集(1,503 对图像)。为确保严格评估,子集源自不重叠的场景。此外,如图 3a 所示,各子集的目标分布经过精心平衡以最小化数据偏差。
3.2 数据集统计
- 目标统计: 包含 13,353 对良好对齐的 RGB-IR 图像(分辨率 640×512),涵盖 161,799 个 RGB 目标和 162,253 个 IR 目标,共 11 个类别。如图 3a 所示,呈现显著的长尾分布 [39],轿车占主导地位。此分布紧密反映现实情况,但也为检测模型带来重大挑战。
- 高度统计: 无人机飞行高度显著影响目标尺度。根据图 3b,数据集跨越 80m 至 300m 高度,捕捉了显著的尺度变化。此宽广高度范围促进了不同目标尺度下的检测泛化。
- 角度统计: 角度指相机俯仰角(0° 至 90°),影响目标尺度和视角变化。如图 3c 所示,数据集跨越 0° 至 75° 角度,实现近乎全覆盖(极端情况除外)。此广泛范围丰富了数据集的多视角目标信息。
- 时间统计: 记录图像采集时间戳(年、月、日、时、分)。如图 3d 所示,数据集跨越从黎明到夜晚的广阔时间范围,覆盖所有季节,捕捉全天候、全年份条件下的各种目标特征。
- 天气统计: RGB 图像中的纹理和 IR 图像中的热辐射通常因不同天气条件而改变。如图 3e 所示,数据集包含 7 种典型及极端天气类型,促进实际应用中检测可用性的提升。
- 光照统计: 如图 3f 所示,图像跨越从无光到强光的 6 种光照水平。由于目标特征和图像质量对光照敏感(尤其在 RGB 模态),此多样光照提升了模型在真实场景中的鲁棒性。
- 场景统计: 如图 3g 所示,图像采集自城市、郊区、乡村内的 11 种场景类型,涵盖道路、街区、建筑工地、停车场等广泛环境。场景的高度多样性带来了杂乱背景的复杂干扰。
3.3 ATR-UMOD 数据集的优势

图 4: 提出的 PCDF 方法概述结构。
与现有 RGB-IR UOD 数据集相比,我们的 ATR-UMOD 具有几项独特优势:
- 更多样化的数据分布: 考虑到有限的成像条件,我们的数据集在多个维度显著增强了条件多样性,包括更宽的高度范围、更广的角度覆盖、更全面的时间跨度、更具挑战性的天气条件、更丰富的光照变化和更复杂的背景。这些改进使数据集能更好地反映真实世界数据分布的复杂性,成为数据驱动 RGB-IR UOD 的更全面数据集。
- 更丰富的目标类型: ATR-UMOD 包含 11 个目标类别,而现有数据集仅限 5 个类别。目标类型多样性的增加不仅有助于模型捕捉细微特征,还增强了其识别更广泛目标的能力,适用于更复杂的实际应用。
- 额外的条件信息: 由于不同条件下多模态图像质量和目标特征存在差异,条件信息对检测模型的有效性至关重要。为此,ATR-UMOD 首次为每对图像标注 6 个关键条件属性,支持更深入探索条件对多模态目标检测的影响,并使其成为条件特定性能评估的全面基准。
4 方法 (4 Method)
4.1 概述
我们的方法基于多条件提示动态重新分配多模态贡献。如图 4 所示,RGB-IR 图像对通过双分支编码器处理以提取单模态原始特征。同时,条件文本输入 SCPL 以学习相关条件提示。为解决实践中条件信息不可访问的问题,单模态原始特征被解耦为条件特定特征和条件不变特征。条件特定特征与条件嵌入对齐以获得条件引导。最终,通过此引导获得多模态权重,动态重新分配条件无关特征对检测的贡献。
4.2 样本特定条件提示学习 (SCPL)
利用 CLIP 强大的文本表示能力和丰富的文本信息,我们通过提示学习编码条件语义。然而,不同条件属性对单个样本的影响程度各异 [26],有些可能可忽略甚至有害(例如,在夜晚光照下场景通常无关)。因此,不加区分地将所有属性用作可靠性线索是不合理的。为解决此问题,SCPL 为每个样本学习相关且有效的属性。
样本特定条件提示调优 (SCPT): 为消除无关属性的影响,我们引入基于硬门控掩码的样本特定提示调优机制。受专家通过观察每个样本中的特定模式评估条件属性对多模态可靠性的影响启发 [21],我们将 ℐ_i与多模态特征输入条件硬门控网络以生成可学习的样本特定条件提示。具体而言,多模态特征 ℱ_{rgb}_i, ℱ_{ir}_i ∈ ℝ^{C×H×W}通过非线性层 𝑭_c和 Softmax 函数 σ融合以产生属性可用性概率。硬门控掩码 𝒢_i = {g₁_i, g₂_i, …, g_N_i}通过指示函数 𝟙和预定义阈值 τ获得:

其中 (·,·)是拼接,Pool 是最大池化,τ设为 0.15(见补充材料 G 节)。g_n_i ∈ {0,1}决定是否包含第 n个属性。调整后的条件块 o_n_i'定义为:

此门控掩码应用于初始提示以获得样本特定条件提示 P_i:

最后,我们用 CLIP 将 P_i转换为条件嵌入 ℱ_t_i。注意 SCPL 仅在训练中使用。
初始提示构建 (IPC): 给定一组条件属性 𝔸 = {𝒜₁, 𝒜₂, …, 𝒜_N},其中 N是条件属性数,每个属性 𝒜_n包含 M_n个不同类别,表示为 𝒜_n = {a_n¹, a_n², …, a_n^{M_n}}。我们通过将这些属性格式化为固定模板创建初始条件提示。该模板包含一个主体描述 s和若干条件前缀 v_n(详见补充材料 B.1 节)。取一个带条件属性的条件前缀作为一个条件块 𝒪_i = {o₁_i, o₂_i, …, o_N_i},样本 i的初始提示 I_i可表示为:

将 I_i输入 CLIP [24] 的冻结文本编码器获得初始条件嵌入 ℐ_i。
4.3 提示引导的条件解耦 (PCD)
由于 ℱ_t_i在实践中不可访问,条件引导必须从视觉特征中推导。然而,直接从原始特征建模可能引入条件与目标信息间的干扰。因此,我们将原始特征解耦为条件特定和条件不变组件:条件特定特征与条件语义绑定,而条件不变特征专注于鲁棒的目标判别表示。
对于属性 (2),我们引入判别损失 ℒ_{dc},通过检测器确保 ℱ_{m_v,i}的判别能力:

其中 ℒ_{cls}, ℒ_{reg}, ℒ_{obj}分别是分类、回归和目标性损失。最终,解耦损失 ℒ_{dec}可表示为:

其中 λ_i是权衡参数,本研究实验分别设为 0.01, 0.003, 0.01。
对于 ℱ_{m_v,i},必须满足以下属性:(1) 对变化条件保持不变;(2) 表现出足够的判别力以进行有效目标检测。由于条件引导已从 ℱ_{s,i}建模,我们提出无关损失 ℒ_{irr} 用于属性 (1),强调 ℱ_{m_v,i}和 ℱ_{s,i}之间的相异性。通过平方 Frobenius 范数 ∥·∥_F²实现:

对于 ℱ_{s,i},必须确保其与预期条件提示 ℱ_t_i的语义一致性。为此,我们采用提示引导蒸馏损失 ℒ_{dt} 最小化 ℱ_{s,i}和 ℱ_t_i之间的距离,使用广泛使用的距离度量 CMD [36]:

其中 𝑬(·)是经验期望向量,𝑪_k(·)是 k阶样本中心矩向量,[a, b]是随机变量 ℱ_{s,i}和 ℱ_t_i的边界。
为此,我们引入一个三分支解耦网络。具体地,第一分支是条件特定编码器 𝑺,从视觉特征中提取条件特定特征 ℱ_{s,i}。其他分支包含条件不变编码器 𝑽_m,独立地从单模态特征 ℱ_m_i (m ∈ {rgb, ir})中提取条件不变特征 ℱ_{m_v,i}。公式化为:

其中 θ_{m_v}和 θ_s是可学习参数,F(·,·)表示多模态融合函数。
4.4 条件感知动态融合 (CDF)
多模态可靠性由条件引导 ℱ_{s,i}决定。鉴于不同通道捕获不同的语义方面 [28],我们引入通道级归一化软门控变换以增强模型适应性。具体地,它通过非线性投影函数 𝑭_t后接通道级归一化操作,自适应地将 ℱ_{s,i}映射到多模态权重 𝒲_m_i ∈ ℝ^{1×C},确保融合特征中的信息保留同时将权重约束在 [0,1]内:

其中 [·]_m代表模态 m的通道。这些权重应用于条件不变特征 ℱ_{m_v,i}以动态调整多模态贡献。值得注意的是,仅 ℱ_{m_v,i}在融合过程中被重新分配,减轻了条件引起噪声的干扰。最终融合特征 ℱ_f_i通过简单拼接操作获得:
其中 ⊙表示逐元素乘法。ℱ_f_i输入检测头进行面向任务的可靠性学习。此动态融合自适应地利用主导模态的判别信息,同时抑制次优模态的贡献。
5 实验 (5 Experiments)
5.1 实现细节
我们的方法在 NVIDIA RTX 4090 GPU 上使用 PyTorch 实现。网络参数使用 SGD [2] 优化器更新,初始学习率 0.01 并指数衰减。动量和权重衰减分别设为 0.937 和 0.0005。我们使用 CLIP 的 ViT-B/16 [10] 预训练模型作为文本编码器。模型包含两个可训练过程:带 SCPL 的融合网络和完整流程,均在 640×512 图像大小和批次大小 16 下训练 50 轮。所有基线方法均使用其原始参数设置训练以确保最佳性能。采用平均精度均值 (mAP) 评估检测性能,IoU 阈值为 0.5。
5.2 结果对比
我们在 ATR-UMOD 数据集上通过全面的定性和定量分析评估 PCDF,基准测试包括 7 个最先进 (SOTA) 的单模态检测器(RetinaNet [19], S²A-Net [13], Faster R-CNN [27], ReDet [12], RoITransformer [9], Oriented R-CNN [32], YOLOv5s [17])和 8 个多模态检测器(IAF R-CNN [18], Halfway Fusion [20], UA-CMDet [30], C²Former [34], TINet [40], CALNet [14], OAFA [5], YOLOrs [29])。其中 IAF R-CNN 和 TINet 是光照引导融合方法。我们的基线是一个单阶段双流检测器,通过拼接融合整合两种模态。注意多模态检测器均使用 IR 标签训练。
- 定量对比: 定量对比见表 2。mAP 结果表明 PCDF 显著优于 SOTA 单模态和多模态方法,超越次优方法 3.1%。此外,PCDF 在多个类别上持续表现出色,在大多数情况下取得最佳或次佳性能,其余情况也保持竞争力。这证明了我们的方法在动态利用 RGB 和 IR 模态可靠信息以提升检测性能方面的有效性。
- 定性对比: 图 5 提供了在典型条件下 SOTA 单模态模型、SOTA 多模态模型和 PCDF 的定性对比。在过曝(第一行)、夜晚(第二行)和雪天(第三行)条件下,RGB 和 IR 模态表现出不同的可靠性。单模态方法在 RGB 图像中难以处理过度曝光、低可见度和遮挡,在 IR 图像中信息不足,导致检测失败。融合方法也因其僵化的融合策略无法有效处理这些挑战性条件。相比之下,我们的方法动态利用 RGB 和 IR 模态的互补性,实现了卓越的检测性能。
5.3 不同条件下的结果
为评估我们方法在不同条件下的有效性,我们在 ATR-UMOD 数据集上进行了全面实验。表 3 展示了 SOTA 多模态方法和我们的 PCDF 在不同条件下的检测结果。由于条件数量过多,每个条件的样本量通常不足,导致过拟合并损害模型训练。因此,表 3 中条件被适当合并(详见补充材料 B.2 节)。结果表明 PCDF 在几乎所有条件下均取得最优性能,证明了其在多样条件下的鲁棒性和适应性。“雾天”条件下的次优性能可能归因于雾浓度和可见度的不一致性,未来可通过精细分类更好地解决。
5.4 消融研究
- SCPL 的有效性: 此模块旨在自适应构建包含相关条件的有效提示。为评估其影响,我们进行了两项消融实验:(1)
w/o SCPT:仅使用初始提示构建提示。表 4 中的性能下降表明,无 SCPT 时模型捕获了不必要的条件语义,同时稀释了有意义语义的影响,导致不可靠的条件表示。(2)w/o SCPL:由于 SCPL 是 PCD 的基础,我们通过应用通道注意力 [15] 进行动态融合,用数据引导替换条件引导。性能相对于基线的提升突显了动态融合的重要性。然而,其性能仍低于 PCDF,强调了基于条件的信息在缓解多模态依赖偏差中的关键作用。 - PCD 的有效性: 它使 PCDF 能在无条件标签情况下使用条件信息进行测试。表 4 显示移除 PCD 时 mAP 下降 1.2%。原因在于 PCD 通过解耦条件无关特征减轻了条件引起噪声的干扰,提高了跨变化条件的泛化能力。此外,在 PCD 中移除
ℒ_{dt},ℒ_{irr}或ℒ_{dc}也导致不同程度的性能下降,突显了它们在保持条件引导与条件特定特征间语义一致性、分离条件无关与特定特征、以及增强条件无关特征判别力方面的作用。 - CDF 的有效性: 它旨在响应条件变化动态重新分配多模态贡献。通过用简单融合(通过加法或拼接将条件特征整合到多模态视觉特征中)替换 CDF 进行消融研究。结果显示显著性能下降,可归因于缺乏对条件与多模态贡献之间直接关系的感知,同时在融合过程中引入了条件噪声。
6 结论 (6 Conclusion)
本文构建了一个高多样性的 RGB-IR UOD 数据集 ATR-UMOD,具有细粒度目标类型、宽广高度范围、广泛角度覆盖、全面时间跨度、挑战性天气条件、丰富光照变化、多样场景类型和额外条件标注。认识到在此类多样条件下的视觉信息瓶颈,我们引入条件作为上下文提示,以动态重新分配多模态特征。利用 CLIP 强大的语义表示能力,我们构建样本特定条件提示,并设计软门控变换以建立提示与多模态贡献之间的任务特定关系。条件解耦机制使得在无条件标注情况下也能进行测试。在 ATR-UMOD 数据集上的实验验证了我们方法的 SOTA 性能。