基于改进YOLOv11n的无人机红外目标检测算法

基于改进YOLOv11n的无人机红外目标检测算法

导读:

面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题,本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先,在引入小目标检测层的基础上,融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络,通过可学习权重自适应融合各层特征,增强微小目标表征。其次,在检测头侧采用动态注意力检测头,从尺度、空间与通道三方面进行协同建模,提升关键区域聚焦与特征利用效率。最后,提出NWD-Inner-MPDIoU组合损失函数,协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估,结果表明:所提方法mAP50达92.8%,相比基线模型提升2.2%,且召回率与准确率分别提高1.6%和0.6%。同时,模型仅小幅增加复杂度,整体仍保持轻量化与可部署性。综上,本文方法在保证效率的同时有效提升了无人机红外目标的检测质量,为后续扩展研究提供了可靠的技术基础。

作者信息:

康泽韬董智红*王孜心:北京印刷学院信息工程学院,北京

论文详情

YOLOv11n的网络架构如图1所示,由骨干网络、颈部网络、检测头三部分组成。

针对红外无人机图像中目标尺度小、对比度低、边界模糊且在低重叠区域易出现回归梯度稀疏、致使YOLOv11n存在漏检与定位不稳的问题,本文提出如下改进创新:

(1) 新增P2小目标检测层,以更高分辨率捕获微小目标细节提升召回率;

(2) 在颈部构建双向多分支辅助特征金字塔网络(Bi-directional Multi-branch Auxiliary Feature Pyramid Network, BIMAFPN),实现多路径跨层与双向融合,强化浅层细节与高层语义的协同表征,提升复杂背景下的可分离性与鲁棒性;

(3) 提出NWD-Inner-MPDIoU (Normalized Wasserstein Distance-Inner Scaling-Minimum Point Distance Intersection over Union)组合损失函数,在低交并时提供连续且尺度稳健的几何度量,按重叠程度自适应缩放边界框并以最小点距离增强对位置与尺寸偏差的辨识,提高训练稳定性与收敛速度;

(4) 引入动态注意力检测头(Dynamic Head, DyHead),自适应重加权不同尺度、空间位置与通道信息,形成统一高效的检测头表示,在控制推理开销的同时降低漏检与误检。

改进后的网络架构如图2所示。

本文在原有多尺度检测头的基础上增加P2小目标检测层(特征图为160 × 160),本文参考并扩展多分支辅助特征金字塔的设计思路,构建由自顶向下与自底向上两路信息交互、并行多分支横向连接组成的BIMAFPN。网络结构如图3所示。

为应对红外无人机目标在低对比、尺度跨度大及轻微位移等条件下,检测头阶段易出现的“尺度选择不准、空间错位与通道利用不足”问题,本文在颈部输出之后引入动态注意力检测头DyHead。其整体结构如图4所示。

本文采用哈尔滨工业大学发布的HIT-UAV无人机红外目标检测数据集。

本文实验使用PyTorch框架,采用GPU加速完成。实验软硬件环境为:Ubuntu 22.04操作系统,32 GB内存,NVIDIA GeForce RTX 4090。软件配置为Python 3.10.15、PyTorch 2.3、CUDA 12.1与cuDNN 8.9.0。训练基本参数设置如下:总轮数300,批量大小16,初始学习率0.01。

为全面衡量模型的检测性能与计算代价,本文选取精准率(Precision, P)、召回率(Recall, R)、平均精度(mAP)、参数量(Params)和GFLOPs五项指标。

为直观评估各改进环节的贡献,按“P2 → BIMAFPN → NWD-Inner-MPDIoU → DyHead”的顺序逐步叠加,构建模型A、B、C、D,与基线YOLOv11n在相同设置下对比,结果如表1所示。

为进一步评估所提出方法,在HIT-UAV数据集上与主流目标检测算法进行了对比,结果如表2所示。

基于HIT-UAV数据集的对比与消融实验表明,该方案在精度与稳定性上均取得了较好效果:相较基线YOLOv11n,mAP50提升约2.2%,召回率提升约1.6%,准确率同步提高;参数量与计算量仅小幅增加,整体仍处于轻量级范畴,消融结果进一步验证了各模块的互补性。

尽管如此,方法在极端杂波背景、较强热噪声或剧烈运动模糊条件下仍有改进空间。后续工作仍可从两方面展开:其一,开展剪枝、量化与蒸馏以压缩模型、降低推理开销。其二,结合时间一致性与多模态信息以增强在复杂场景下的稳健性与泛化能力。综上,本文为无人机红外小目标检测提供了一种兼顾精度与效率的可行方法,可为安防监控、应急搜救与信息采集等应用提供解决思路。

基金项目:

本研究得到北京印刷学院科研平台建设项目(KYCPT202509)的支持。

原文链接:

https://doi.org/10.12677/airr.2025.146137

Read more

智能家居本地化部署终极指南:Home Assistant小米设备接入实战攻略

智能家居本地化部署终极指南:Home Assistant小米设备接入实战攻略 【免费下载链接】ha_xiaomi_homeXiaomi Home Integration for Home Assistant 项目地址: https://gitcode.com/GitHub_Trending/ha/ha_xiaomi_home 您是否正面临智能家居设备响应延迟、状态同步异常或功能缺失的困扰?在智能家居本地化部署过程中,设备连接稳定性、控制延迟和版本兼容性是用户最常遇到的三大痛点。本文将以"准备-实施-优化"三阶段框架,为您提供从环境检查到性能调优的完整解决方案,帮助您实现小米智能家居与Home Assistant的无缝集成,打造低延迟、高可靠的本地化控制中心。 准备阶段:兼容性预检与环境配置 在开始部署前,确保您的系统环境满足以下关键条件,这是实现稳定运行的基础: 检查硬件与软件兼容性 网关要求: * 小米多模网关固件版本需≥v3.3.0_0023,低于此版本将无法支持本地控制模式

【异常】飞书OpenClaw机器人 HTTP 401: Invalid Authentication 报错排查与解决方案

【异常】飞书OpenClaw机器人 HTTP 401: Invalid Authentication 报错排查与解决方案

飞书OpenClaw机器人 HTTP 401: Invalid Authentication 报错排查与解决方案 一、报错内容 在飞书客户端会话场景中,用户向企业OpenClaw机器人发送交互消息后,OpenClaw无预期业务响应,会话内持续返回标准化报错信息:HTTP 401: Invalid Authentication。 该报错可稳定复现于单聊、群聊等所有机器人交互场景,表现为用户每触发一次机器人交互,就会同步返回该报错信息,无正常业务逻辑执行结果返回。 二、报错说明 2.1 报错本质定义 HTTP 401 是HTTP协议标准定义的未授权(Unauthorized) 状态码,核心含义为请求方身份认证无效,服务端拒绝执行本次请求。 在飞书开放平台的机器人场景中,该报错的本质是:飞书开放平台服务端对自建机器人的全链路鉴权校验失败。无论是机器人接收飞书事件推送的上行请求,还是机器人主动调用飞书开放平台API的下行请求,只要身份凭证无效、鉴权逻辑校验不通过,飞书服务端就会返回该报错,并最终透传到飞书客户端会话窗口中。

一文告诉你 Windows 彻底卸载 OpenClaw+ClawHub+飞书机器人 完整版指南 : 删干净、不留痕迹、无后门 让疯狂燃烧的 token停下来

一文告诉你 Windows 彻底卸载 OpenClaw+ClawHub+飞书机器人 完整版指南 : 删干净、不留痕迹、无后门 让疯狂燃烧的 token停下来

🚀 个人主页 极客小俊 ✍🏻 作者简介:程序猿、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注 最近全网都在卸载OpenClaw,那我们也跟着卸就完了,不多废话。 Windows 用户别纠结,别问原因,别留后患,直接卸载清干净。 Windows卸载龙虾完整步骤 OpenClaw 是通过 npm 全局安装的CLI工具,卸载需清理npm包、残留配置及进程,确保彻底无残留! 之前我们是用Windows安装的,所以今天在这里我们也以Windows系统为例~ 停止运行中的网关服务 首先停止运行中的网关服务,也就是先终止OpenClaw后台进程,避免卸载时文件被占用! 从管理员方式打开Windows中的PowerShell, 如下以下命令 openclaw gateway stop 如图 如果网关无响应,强制结束 Node.js 进程, taskkill /f /im node.

AI绘画工作台:Z-Image-Turbo云端协作方案

AI绘画工作台:Z-Image-Turbo云端协作方案实践指南 对于设计团队而言,共享AI绘画工具资源常面临两大难题:本地部署复杂且需要专业IT支持,而云端协作又难以保证生成速度与质量。Z-Image-Turbo作为阿里通义团队开源的创新模型,通过8步蒸馏技术实现亚秒级图像生成,配合云端部署方案,可快速搭建团队协作环境。本文将手把手演示如何利用预置镜像实现高效协作。 提示:该方案需要GPU环境支持,ZEEKLOG算力平台等提供包含Z-Image-Turbo的预置镜像,可免去环境配置烦恼。 为什么选择Z-Image-Turbo协作方案 * 性能突破:仅需8步推理即可生成512x512高清图像,实测单张生成时间0.8-1.2秒 * 资源友好:61.5亿参数实现200亿级模型的视觉效果,显存占用降低60% * 中文优化:对复杂提示词理解准确,文本渲染稳定性优于多数开源模型 * 协作适配:支持标准API接口,多用户并发请求时仍保持稳定响应 典型应用场景包括: - 团队共享提示词库与生成结果 - 批量生成设计素材初稿 - 实时反馈调整图像细节 快速部署云端工作台 1.