基于改进YOLOv11n的无人机红外目标检测算法

基于改进YOLOv11n的无人机红外目标检测算法

导读:

面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出NWD-Inner-MPDIoU组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估,结果表明:所提方法mAP50达92.8%,相比基线模型提升2.2%,且召回率与准确率分别提高1.6%和0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。

作者信息:

康泽韬董智红*王孜心:北京印刷学院信息工程学院,北京

论文详情

YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:

(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;

(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;

(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;

(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。

改进后的网络架构如图2所示。

本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。网络结构如图3所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。其整体结构如图4所示。

本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。

本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。

为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。

为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。

为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。

基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。

尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。

基金项目:

本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。

原文链接:

https://doi.org/10.12677/airr.2025.146137

Read more

美团前端要转全栈?后端可能要失眠了,别笑话前端了,你们的饭碗也要被抢了

说个真实的事。 我现在的公司,没有产品经理,没有UI设计师,没有前端工程师。 只有全栈。 每个人配一套AI工具链,一个人干完以前整个小组的活。 一人顶十人,不是夸张,是正在发生的现实。 你可能觉得这是个例。 不是。 美团履约团队已经开始要求前端转全栈了。 注意,不是转Node,是转Java。 老员工必须转,新员工只招全栈。 菜鸟国际更狠,直接让后端去写前端和测试。 大厂是风向标。 美团、阿里动了,中小公司马上就会跟进。 为什么会这样? 因为AI把“沟通成本”这个遮羞布扯掉了。 以前前后端分离,看起来是技术架构的进步。 实际上呢? 接口扯皮能扯一天,联调能调一周,一个需求三个人传话,信息损耗巨大。 老板们以前忍了,因为没办法。 现在AI来了,代码生成效率提升了10倍不止。 老板们突然发现:最贵的不是写代码的时间,是人和人之间的沟通成本。 一个会用AI的全栈,从需求到上线一个人搞定。 不用开会,不用对接口,不用等联调。 你说老板选谁? 纯前端和纯后端,

【n8n教程】:Webhook节点,构建自动化触发器

【n8n教程】:Webhook节点,构建自动化触发器

【n8n教程】:Webhook节点,构建自动化触发器 什么是Webhook? Webhook 是一个能让外部服务与 n8n 进行实时通信的神奇工具。简单来说,当某个事件发生时,外部服务会立即将数据推送到你的 n8n 工作流,触发自动化流程。 相比传统的"轮询"方式(不断询问是否有新数据),Webhook 更高效、更实时。一旦事件发生,数据就被立即发送给 n8n,n8n 立刻开始处理。 🎯 Webhook的应用场景 * 表单提交处理:用户提交网页表单 → Webhook 接收数据 → n8n 验证并保存 * 支付确认通知:支付平台发送支付成功通知 → 触发订单更新、发票生成 * 第三方系统集成:Shopify 订单、Slack 消息、GitHub 推送等 * 监控和告警:监控系统发送警报 → n8n 通知团队并执行应对措施

什么是weblogic?一文带你了解

什么是weblogic?一文带你了解

Weblogic 简介 WebLogic 是 Oracle 公司开发的一款企业级 Java EE(Java Platform, Enterprise Edition)应用服务器,广泛用于构建、部署和管理分布式应用。它支持高可用性、可扩展性和安全性,适用于大型企业环境。WebLogic 提供了完整的 Java EE 标准实现,包括 Servlet、JSP、EJB、JMS 等技术,同时集成了多种管理工具和监控功能。 Weblogic 核心功能 * Java EE 支持:完全兼容 Java EE 标准,支持企业级应用开发。 * 集群与负载均衡:支持多服务器集群,提供高可用性和故障转移能力。 * 安全性:集成身份认证、授权和加密功能,保障企业数据安全。 * 管理控制台:提供基于 Web