概述
将 YOLOv8 等标准检测器应用于无人机航拍影像时,会面临尺度差异大、目标微小、背景复杂等显著挑战。其通用的特征融合架构易产生假阳性结果或遗漏小目标。为解决这些局限,我们提出一种基于 YOLOv8 改进的 MFDA-YOLO 模型。

该模型在骨干网络中引入注意力驱动的尺度内特征交互(AIF)模块,增强对多尺度目标的适应性并强化特征表示;在颈部网络中,设计无人机影像检测金字塔(DIDP)网络,整合空间转深度卷积模块,实现多尺度特征从浅层到深层的高效传递;通过在跨阶段局部网络中引入全核模块,恢复图像的全局上下文感知能力,同时消除计算负担,扩展传统的 P2 检测层。
针对检测头中定位与分类任务协同不足的问题,我们设计动态对齐检测头(DADH)——通过多尺度特征交互学习与动态特征选择机制,实现跨任务表示优化,大幅降低模型复杂度并保持检测精度。此外,我们采用 WLoUv3 损失函数,动态调整聚焦系数,增强模型对小目标的区分能力。
大量实验结果表明,MFDA-YOLO 在 VisDrone2019、HIT-UAV 和 NWPU VHR-10 等数据集上,性能优于 YOLOv11、YOLOv13 等现有主流方法。特别是在 VisDrone 数据集上,MFDA-YOLO 超越基准模型 YOLOv8n:mAP0.5 提升 4.4 个百分点,mAP0.5:0.95 提升 2.7 个百分点;同时参数量减少 17.2%,有效降低了假阴性与假阳性率。
背景
随着科技的飞速发展,无人机(UAV)已广泛应用于农业、灾害救援、运输等领域。其灵活性、低成本与易操作性的优势显著,但无人机目标检测常面临尺度变化、动态视角、复杂背景、密集目标重叠等挑战,导致传统检测框架效果不佳。因此,研发适用于复杂环境的轻量化、高精度无人机小目标检测算法,具有重要的研究价值与应用潜力。
目标检测算法的精度与效率已随深度学习(尤其是卷积神经网络)的广泛应用得到显著提升,超越了传统方法。基于深度学习的检测算法大致分为两类:单阶段算法(如 YOLO 系列)与两阶段算法(如 R-CNN 系列)。
综上,研发兼顾精度、效率与轻量化设计的无人机检测算法仍是核心挑战。由于无人机对实时性有要求,更高效的单阶段检测器是更有前景的研究方向。因此,本研究选择 YOLOv8 作为基准模型——它在速度与精度之间实现了出色的平衡,但在无人机检测常见的小目标、复杂背景场景中仍表现不佳,体现了单阶段检测器的固有局限。为解决这一问题,我们提出 MFDA-YOLO,旨在大幅增强模型的多尺度特征能力,同时严格控制计算复杂度。本文的主要贡献如下:
- 无人机航拍中密集小目标的检测依赖精准的空间细节,而空间金字塔池化快速(SPPF)模块恰好容易模糊这些细节,导致漏检。为此,我们采用注意力驱动的尺度内特征交互(AIF)模块替代骨干网络中的 SPPF 模块——该模块通过单尺度注意力机制捕捉同尺度特征间的依赖关系,增强网络的聚焦能力。
- 无人机小目标检测需要 P2 层的细节信息,但这会带来较高的计算成本。为此,我们提出无人机影像检测金字塔(DIDP):模型采用 SPD 卷积对 P2 层进行无损下采样,将空间结构信息重组到通道维度;同时设计 C-OKM 模块恢复遗漏的图像细节,为后续特征融合提供更丰富的特征。
- 为进一步缓解 P2 检测层引入的参数复杂度问题,我们提出动态对齐检测头(DADH):该模块先通过共享卷积提取特征,最大限度控制模型参数量;再通过任务分解为每个任务提取对应特征;结合可变形卷积与动态权重选择机制实现自适应处理,有效缓解任务间的冲突。
- 考虑到轻量化检测器在处理大量低质量样本时收敛困难,我们将基准的 CIOU 损失函数替换为 WLoUv3 损失函数——它通过动态系数引导模型关注难以区分的小目标,并通过自适应归一化有效缓解振荡问题。
本节全面分析 YOLOv8 的网络架构,并阐释其组件模块的功能。在此基础上,探讨该模型应用于特定任务时存在的固有局限。与前代 YOLO 模型相比,YOLOv8 优化了网络结构,如图 1 所示,其核心架构包含三个模块:骨干网络(Backbone)、颈部网络(Neck)与检测头(Head)。

图 1
新算法框架解析
本研究基于 YOLOv8 提出面向无人机目标检测的 MFDA-YOLO 模型,有效解决了无人机场景中的两个核心问题:小目标特征丢失,以及边缘设备的计算约束。MFDA-YOLO 的整体网络架构如图 2 所示,核心改进覆盖骨干网络、颈部网络与检测头。















