背景与挑战
在无人机红外巡检的实际应用中,目标往往尺度很小,且图像对比度低、边界模糊。这导致常规模型容易出现漏检或定位不准的情况。为了解决这些问题,我们对 YOLOv11n 进行了针对性的架构优化。
核心改进方案
增强小目标感知能力
原生的 YOLOv11n 在处理极小目标时存在短板。我们在颈部网络前增加了一个 P2 小目标检测层(特征图分辨率提升至 160 × 160),让模型能捕获更细微的细节,显著提升召回率。

双向多分支特征融合
为了强化浅层细节与高层语义的协同,我们构建了双向多分支辅助特征金字塔网络(BIMAFPN)。通过自顶向下和自底向上的双向交互,配合并行多分支横向连接,利用可学习权重自适应融合各层特征。这种设计增强了模型在复杂背景下的特征分离能力和鲁棒性。


动态注意力检测头
检测头阶段常出现'尺度选择不准'的问题。引入动态注意力检测头(DyHead)后,模型能从尺度、空间与通道三个维度协同建模。它自适应地重加权不同信息,形成统一高效的表示,在控制推理开销的同时有效降低误检。

组合损失函数
针对低重叠区域回归梯度稀疏的问题,我们采用了 NWD-Inner-MPDIoU 组合损失函数。它在低交并比条件下提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框,提高了训练稳定性和收敛速度。
实验环境与结果
实验基于哈尔滨工业大学发布的 HIT-UAV 数据集,使用 PyTorch 框架在 NVIDIA GeForce RTX 4090 上进行加速。系统环境为 Ubuntu 22.04,Python 3.10.15,CUDA 12.1。训练参数设置为总轮数 300,批量大小 16,初始学习率 0.01。
消融实验显示,随着 P2 层、BIMAFPN、组合损失及 DyHead 的逐步加入,模型性能稳步提升。最终方案在 HIT-UAV 数据集上的 mAP50 达到 92.8%,相比基线模型提升了 2.2%。召回率和准确率分别提高了 1.6% 和 0.6%。参数量与计算量虽有小幅增加,但整体仍保持在轻量级范畴,适合部署。




