基于无人机的多模态目标检测：高多样性基准与提示引导融合

提出高多样性无人机 RGB-IR 目标检测数据集 ATR-UMOD，覆盖多样高度、角度、天气及光照条件，并标注 6 个属性。针对复杂条件下的检测挑战，提出提示引导的条件感知动态融合（PCDF）方法，利用 CLIP 文本提示编码条件信息，通过样本特定条件提示学习（SCPL）和解耦模块自适应分配多模态贡献。实验表明该方法在 ATR-UMOD 上优于现有 SOTA 单模态及多模态检测器，具有更强的鲁棒性。

信号故障发布于 2026/4/5更新于 2026/5/2329 浏览

摘要

基于无人机（UAV）的可见光（RGB）与红外（IR）图像融合目标检测，借助深度学习技术的进步和高质量数据集的推动，实现了全天候的鲁棒检测。然而，现有数据集难以充分捕捉真实世界的复杂性，因其成像条件受限。为此，我们提出了一个高多样性数据集 ATR-UMOD，覆盖多样场景，飞行高度从 80m 到 300m，相机角度从 0° 到 75°，并包含全天候、全年份的时间变化，涵盖丰富的天气和光照条件。此外，每对 RGB-IR 图像标注了 6 个条件属性，提供有价值的高层上下文信息。

为应对如此多样条件带来的挑战，我们提出了一种新颖的提示引导的条件感知动态融合（PCDF）方法，利用标注的条件线索自适应地重新分配多模态贡献。通过将成像条件编码为文本提示，PCDF 通过任务特定的软门控变换，有效建模了条件与多模态贡献之间的关系。一个提示引导的条件解耦模块进一步确保了在无标注条件下的实际可用性。在 ATR-UMOD 数据集上的实验验证了 PCDF 的有效性。

文章配图

图 1：ATR-UMOD 中的高多样性成像条件。每种条件展示了一些代表性示例。(a) 宽高度范围：涵盖 80m 至 300m 的高度范围，为多尺度目标分析提供丰富资源。(b) 广角度覆盖：近乎全覆盖的 0° 至 75° 角度确保从不同视角获得全面的目标外观。(c) 全时段跨度：全天数据采集捕捉光线、阴影和热特性随时间的变化。(d) 挑战性天气：包含 7 种典型及极端天气条件，增强实际应用中的鲁棒性。(e) 丰富光照变化：覆盖从无光到强光的 6 种光照水平，提高对不同图像质量的适应性。(f) 多样化场景类型：考虑跨场景泛化，涵盖 11 种具有复杂背景的场景类型。这些条件额外标注在每对图像中，提供有价值的高层上下文洞察，并为特定条件性能评估建立全面基准。

1 引言

基于无人机（UAV）的可见光（RGB）和红外（IR）图像目标检测（简称 RGB-IR UOD）为交通监控、军事侦察等应用提供了有前景的解决方案 [3, 7, 16, 23]。其发展高度依赖于全面的数据集，因为现代计算机视觉技术主要依赖数据驱动方式。DroneVehicle [30] 作为 RGB-IR UOD 的先驱数据集，具有推动该领域进展的巨大潜力。然而，它在高度、角度、时间、天气、光照和场景等成像条件上种类有限，难以充分代表真实场景的复杂性。

为解决此问题，我们提出了 ATR-UMOD，一个新颖的数据集，为 RGB-IR UOD 提供更全面的数据支持，并提高模型在复杂真实世界条件下的鲁棒性。相比现有数据集，它在以下方面表现突出：(1) 多样化的成像条件。如图 1 所示，其构建覆盖飞行高度 80m 至 300m，相机角度 0° 至 75°，包含全天候和全年份条件。它还跨越多种场景，具有更丰富的天气和光照变化，紧密反映真实世界的复杂性。(2) 更丰富的目标类型。我们提供 11 个细粒度目标类别，覆盖实际应用中的典型目标，支持从无人机视角进行细粒度检测。(3) 额外的条件标注。我们额外为每对图像标注了 6 个条件属性，如图 2a 所示，提供有价值的高层上下文洞察，并为条件敏感的性能评估建立全面基准。

ATR-UMOD 捕捉了真实世界条件的复杂性，但也引入了新挑战。如图 2b 所示，大多数现有方法在 ATR-UMOD 上表现不佳，可能源于此类复杂条件下的视觉信息瓶颈 [42]。为此，一些研究探索了成像条件线索（如光照）作为辅助信息 [44, 40]。受此启发，我们尝试利用条件作为辅助上下文提示，以提升跨多样条件的检测性能。

该领域的研究基于成像条件动态重新分配多模态贡献以实现可信融合 [37, 43]。它们建模了条件表示与多模态贡献之间的关系以实现动态融合 [11, 18, 31]，增强从高贡献模态有效利用信息，同时抑制次要模态的噪声。尽管有这些进展，仍存在两个挑战：(1) 条件表示不足。它们通常仅关注单一条件属性（如光照），忽略了其他同样影响多模态可靠性的属性 [4]。此外，条件表示通常源自条件预测模型 [18, 31]。在此情况下，多样化的条件表示需要先进的多标签预测技术，这因条件属性的多样性和相互依赖性而具有挑战性 [25]。(2) 任务无关的条件引导流程。现有方法通常依赖代理任务（pretext task）来建模条件与多模态贡献之间的关系，例如利用光照预测任务将光照值分配为 RGB 贡献度 [11]。代理任务与检测任务优化目标的不匹配导致次优的多模态贡献，最终损害性能。

文章配图

图 2：我们数据集的优势与挑战。(a) 标注示例。(b) ATR-UMOD 上的性能下降。

数据集	类别数	条件	条件标注	发布

DroneVehicle	5	高度：80m, 100m, 120m 角度：15°, 30°, 45° 时间：早晨，下午，夜晚天气：晴天，多云，雾天，夜晚光照：白天，夜晚，黑夜场景：城市	✘	TCSVT 2022
ATR-UMOD	11	高度：80m ~ 300m 角度：0° ~ 75° 时间：黎明，早晨，正午，下午，近夜，夜晚天气：晴天，多云，雨天，雨后，雪天，雾天，夜晚光照：过曝，正常，昏暗，黄昏，近夜，夜晚场景：城市，郊区，乡村	✔	ICCV 2025

基于无人机的多模态目标检测：高多样性基准与提示引导融合

摘要

1 引言

更多推荐文章

相关免费在线工具

2 相关工作

2.1 RGB-IR UOD 数据集

2.2 条件表示方法

2.3 条件引导融合方法

3 ATR-UMOD 数据集

3.1 数据集构建

3.2 数据集统计

3.3 ATR-UMOD 数据集的优势

4 方法

4.1 概述

4.2 样本特定条件提示学习 (SCPL)

4.3 提示引导的条件解耦 (PCD)

4.4 条件感知动态融合 (CDF)

5 实验

5.1 实现细节

5.2 结果对比

5.3 不同条件下的结果

5.4 消融研究

6 结论

更多推荐文章

相关免费在线工具

基于无人机的多模态目标检测：高多样性基准与提示引导融合

摘要

1 引言

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2 相关工作

2.1 RGB-IR UOD 数据集

2.2 条件表示方法

2.3 条件引导融合方法

3 ATR-UMOD 数据集

3.1 数据集构建

3.2 数据集统计

3.3 ATR-UMOD 数据集的优势

4 方法

4.1 概述

4.2 样本特定条件提示学习 (SCPL)

4.3 提示引导的条件解耦 (PCD)

4.4 条件感知动态融合 (CDF)

5 实验

5.1 实现细节

5.2 结果对比

5.3 不同条件下的结果

5.4 消融研究

6 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具