MFDA-YOLO：面向无人机小目标检测的多尺度特征融合与动态对齐网络

MFDA-YOLO 模型针对无人机航拍影像中小目标检测面临的尺度差异大、背景复杂等挑战提出改进方案。该模型在骨干网络引入注意力驱动的尺度内特征交互（AIFI）模块增强特征表示；在颈部设计无人机影像检测金字塔（DIDP）整合空间转深度卷积实现高效传递；通过动态对齐检测头（DADH）优化定位与分类任务协同；采用 WLoUv3 损失函数提升小目标区分能力。实验表明在 VisDrone2019 等数据集上，mAP0.5 较 YOLOv8n 提升 4.4%，参数量减少 17.2%，有效降低假阴性与假阳性率，适用于实时无人机检测场景。

静心发布于 2026/4/8更新于 2026/7/2246 浏览

概述

将 YOLOv8 等标准检测器应用于无人机航拍影像时，会面临尺度差异大、目标微小、背景复杂等显著挑战。其通用的特征融合架构易产生假阳性结果或遗漏小目标。为解决这些局限，我们提出一种基于 YOLOv8 改进的 MFDA-YOLO 模型。

文章配图

该模型在骨干网络中引入注意力驱动的尺度内特征交互（AIF）模块，增强对多尺度目标的适应性并强化特征表示；在颈部网络中，设计无人机影像检测金字塔（DIDP）网络，整合空间转深度卷积模块，实现多尺度特征从浅层到深层的高效传递；通过在跨阶段局部网络中引入全核模块，恢复图像的全局上下文感知能力，同时消除计算负担，扩展传统的 P2 检测层。

针对检测头中定位与分类任务协同不足的问题，我们设计动态对齐检测头（DADH）——通过多尺度特征交互学习与动态特征选择机制，实现跨任务表示优化，大幅降低模型复杂度并保持检测精度。此外，我们采用 WLoUv3 损失函数，动态调整聚焦系数，增强模型对小目标的区分能力。

大量实验结果表明，MFDA-YOLO 在 VisDrone2019、HIT-UAV 和 NWPU VHR-10 等数据集上，性能优于 YOLOv11、YOLOv13 等现有主流方法。特别是在 VisDrone 数据集上，MFDA-YOLO 超越基准模型 YOLOv8n：mAP0.5 提升 4.4 个百分点，mAP0.5:0.95 提升 2.7 个百分点；同时参数量减少 17.2%，有效降低了假阴性与假阳性率。

背景

随着科技的飞速发展，无人机（UAV）已广泛应用于农业、灾害救援、运输等领域。其灵活性、低成本与易操作性的优势显著，但无人机目标检测常面临尺度变化、动态视角、复杂背景、密集目标重叠等挑战，导致传统检测框架效果不佳。因此，研发适用于复杂环境的轻量化、高精度无人机小目标检测算法，具有重要的研究价值与应用潜力。

目标检测算法的精度与效率已随深度学习（尤其是卷积神经网络）的广泛应用得到显著提升，超越了传统方法。基于深度学习的检测算法大致分为两类：单阶段算法（如 YOLO 系列）与两阶段算法（如 R-CNN 系列）。

综上，研发兼顾精度、效率与轻量化设计的无人机检测算法仍是核心挑战。由于无人机对实时性有要求，更高效的单阶段检测器是更有前景的研究方向。因此，本研究选择 YOLOv8 作为基准模型——它在速度与精度之间实现了出色的平衡，但在无人机检测常见的小目标、复杂背景场景中仍表现不佳，体现了单阶段检测器的固有局限。为解决这一问题，我们提出 MFDA-YOLO，旨在大幅增强模型的多尺度特征能力，同时严格控制计算复杂度。本文的主要贡献如下：

无人机航拍中密集小目标的检测依赖精准的空间细节，而空间金字塔池化快速（SPPF）模块恰好容易模糊这些细节，导致漏检。为此，我们采用注意力驱动的尺度内特征交互（AIF）模块替代骨干网络中的 SPPF 模块——该模块通过单尺度注意力机制捕捉同尺度特征间的依赖关系，增强网络的聚焦能力。
无人机小目标检测需要 P2 层的细节信息，但这会带来较高的计算成本。为此，我们提出无人机影像检测金字塔（DIDP）：模型采用 SPD 卷积对 P2 层进行无损下采样，将空间结构信息重组到通道维度；同时设计 C-OKM 模块恢复遗漏的图像细节，为后续特征融合提供更丰富的特征。
为进一步缓解 P2 检测层引入的参数复杂度问题，我们提出动态对齐检测头（DADH）：该模块先通过共享卷积提取特征，最大限度控制模型参数量；再通过任务分解为每个任务提取对应特征；结合可变形卷积与动态权重选择机制实现自适应处理，有效缓解任务间的冲突。
考虑到轻量化检测器在处理大量低质量样本时收敛困难，我们将基准的 CIOU 损失函数替换为 WLoUv3 损失函数——它通过动态系数引导模型关注难以区分的小目标，并通过自适应归一化有效缓解振荡问题。

本节全面分析 YOLOv8 的网络架构，并阐释其组件模块的功能。在此基础上，探讨该模型应用于特定任务时存在的固有局限。与前代 YOLO 模型相比，YOLOv8 优化了网络结构，如图 1 所示，其核心架构包含三个模块：骨干网络（Backbone）、颈部网络（Neck）与检测头（Head）。

文章配图