跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
Python

基于深度学习的无人机航拍小目标检测算法研究

综述由AI生成本项目针对无人机航拍场景下的小目标检测问题,基于 YOLO11 系列模型,在 VisDrone 2019 数据集上进行训练与优化,并提供了完整的检测系统桌面应用,支持图片、视频、摄像头的实时检测与训练指标可视化。 * * 一、项目概述 无人机航拍图像具有目标尺度小、密集分布、多尺度混合等特点,传统检测算法难以取得理想效果。本项目采用 Ultralytics YOLO11 框架,结合 VisDron…

林间仙子发布于 2026/4/6更新于 2026/5/2295K 浏览
基于深度学习的无人机航拍小目标检测算法研究

本项目针对无人机航拍场景下的小目标检测问题,基于 YOLO11 系列模型,在 VisDrone 2019 数据集上进行训练与优化,并提供了完整的检测系统桌面应用,支持图片、视频、摄像头的实时检测与训练指标可视化。


一、项目概述

无人机航拍图像具有目标尺度小、密集分布、多尺度混合等特点,传统检测算法难以取得理想效果。本项目采用 Ultralytics YOLO11 框架,结合 VisDrone 数据集进行训练,实现了对行人、车辆等 10 类交通相关目标的高效检测,并配套开发了基于 PyQt6 的桌面应用,便于模型验证与日常使用。


二、数据集

2.1 数据集简介

本项目使用 VisDrone 2019-DET 数据集,由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布,对应 ICCV 2019 "Vision Meets Drone" 挑战赛,是面向无人机视角目标检测的大规模基准数据集。

2.2 数据规模
子集图像数量说明
训练集 (train)6,471 张用于模型训练
验证集 (val)548 张用于超参数调优与模型选择
测试集 (test-dev)1,610 张含标注,可进行论文实验与结果发布
  • 总标注框数量:超过 260 万个边界框
  • 图像来源:288 个视频片段 + 10,209 张静态图像
  • 图像格式:JPEG (.jpg)
2.3 目标类别

数据集包含 10 个预定义类别:

类别ID英文名称中文名称
0pedestrian行人
1people人群
2bicycle自行车
3car小汽车
4van面包车
5truck卡车
6tricycle三轮车
7awning-tricycle带篷三轮车
8bus公交车
9motor摩托车
2.4 数据集特点
  • 地理位置:中国 14 个不同城市,相距数千公里
  • 场景类型:城市、乡村等多种环境
  • 小目标特性:无人机航拍高度较高,目标在图像中占据像素较少,大量目标归一化后宽度或高度小于 2%
  • 密集分布:交通路口、人行道等场景中目标密集,遮挡严重
  • 多尺度混合:同一张图像中存在近大远小现象
  • 2.5 目录结构
    dataset_visdrone/ ├── data.yaml # YOLO 数据集配置文件 ├── data_local.yaml # 自动生成,含本机绝对路径 ├── 数据集介绍.md # 数据集说明文档 ├── VisDrone2019-DET-train/ │ ├── images/ # 训练图像 │ └── labels/ # YOLO 格式标签 (.txt) ├── VisDrone2019-DET-val/ │ ├── images/ │ └── labels/ └── VisDrone2019-DET-test-dev/ ├── images/ └── labels/ 
    
    2.6 标注格式

    采用 YOLO 标准格式,每行一个目标:<class_id> <x_center> <y_center> <width> <height>,坐标均为归一化值 [0, 1]。


    三、训练过程

    3.1 训练脚本

    训练脚本为项目根目录下的 train_yolo11.py,支持三种运行模式:

    • train:训练模式(默认)
    • val:验证模式,需指定权重路径
    • predict:推理模式,需指定权重与输入路径
    3.2 基本流程
    1. 检查 dataset_visdrone/data.yaml 是否存在
    2. 调用 fix_data_yaml() 自动生成 data_local.yaml(含本机绝对路径)
    3. 加载 YOLO 预训练模型
    4. 调用 Ultralytics 训练流程进行训练
    5. 结果保存在 runs/train/<实验名称>/ 或 --project 指定目录
    3.3 使用示例
    python train_yolo11.py # 默认配置训练 python train_yolo11.py --model yolo11m # 指定模型大小 python train_yolo11.py --epochs 200 # 指定训练轮数 python train_yolo11.py --imgsz 1280 # 更大分辨率(小目标更佳) python train_yolo11.py --multi_scale # 开启多尺度训练 python train_yolo11.py --mode val --weights runs/train/exp/weights/best.pt python train_yolo11.py --mode predict --weights runs/train/exp/weights/best.pt --source path/to/image 
    
    3.4 训练注意事项
    • 图像尺寸建议 ≥ 640,推荐 1280(小目标分辨率更高)
    • batch 建议 16–32(显存不足时降低)
    • epochs 建议 200–300(VisDrone 收敛较慢)
    • 默认开启 mosaic 数据增强,最后 10 个 epoch 关闭以稳定收敛
    • 可使用 --multi_scale 多尺度训练提升小目标性能

    四、训练参数

    4.1 主要训练参数
    参数默认值说明
    --modelyolo11s模型:yolo11n/s/m/l/x
    --epochs300训练轮数
    --imgsz640输入图像尺寸(小目标建议 1280)
    --batch16批大小
    --lr00.01初始学习率
    --lrf0.01最终学习率比例
    --patience100Early stopping 等待轮数
    --device""GPU 编号或 cpu
    --workers4DataLoader 工作进程数
    --projectruns/train实验保存目录
    --nameyolo11_visdrone实验名称
    --multi_scaleFalse多尺度训练
    --copy_paste0.0Copy-paste 数据增强概率
    4.2 模型与优化器
    • 优化器:SGD
    • 损失权重:box=7.5, cls=0.5, dfl=1.5
    • 数据增强:mosaic=1.0, randaugment, erasing=0.4, close_mosaic=10
    4.3 检测参数(应用配置)
    参数默认值说明
    conf_threshold0.25置信度阈值
    iou_threshold0.70NMS IoU 阈值
    max_det300单张图像最大检测数量

    五、可视化图含义

    训练完成后,Ultralytics 会在实验目录下生成以下可视化文件,用于分析模型表现:

    5.1 训练过程图表
    文件含义
    results.csv每 epoch 的损失与指标(训练/验证 loss、mAP、精确率、召回率等)
    results.png训练曲线概览,包含损失、mAP、学习率等随 epoch 变化
    train_batch*.jpg训练 batch 样本可视化,展示数据增强后的输入图像与标签
    val_batch*_labels.jpg验证 batch 的标签可视化
    val_batch*_pred.jpg验证 batch 的预测结果可视化
    5.2 标签与类别分析
    文件含义
    labels.jpg标签分布图,展示各类别目标在图像中的位置与数量分布
    labels_correlogram.jpg标签关联图,展示类别间相关性
    5.3 评估指标曲线
    文件含义
    confusion_matrix_normalized.png归一化混淆矩阵,展示各类别的预测与真实标签对应关系
    P_curve.png精确率–置信度曲线,随置信度阈值变化的精确率
    R_curve.png召回率–置信度曲线,随置信度阈值变化的召回率
    F1_curve.pngF1 分数–置信度曲线
    PR_curve.png精确率–召回率曲线(PR 曲线)
    5.4 results.csv 主要列说明

    epoch、time、train/box_loss、train/cls_loss、train/dfl_loss、metrics/precision(B)、metrics/recall(B)、metrics/mAP50(B)、metrics/mAP50-95(B)、val/box_loss、val/cls_loss、val/dfl_loss、lr/pg0、lr/pg1、lr/pg2


    六、系统功能

    本项目提供基于 PyQt6 的桌面应用 「无人机航拍小目标检测系统」,主要功能如下:

    6.1 功能模块
    模块功能说明
    图片识别支持 JPG/PNG/BMP 等格式,上传图片后点击开始检测,支持拖拽导入,可导出检测结果图片与 CSV
    视频识别支持 MP4/AVI/MOV 等格式,加载视频后逐帧检测,显示进度
    摄像头识别实时调用本地摄像头进行目标检测
    检测历史查看所有历史检测记录,支持筛选与导出
    模型管理管理检测模型文件路径,调整置信度、IoU 阈值等检测参数,验证模型加载
    指标展示展示模型训练过程的各项可视化指标,包括训练曲线、指标汇总、可视化图表
    6.2 入口与流程
    • 入口:detection_app/main.py,启动后进入登录窗口
    • 默认账号:admin / admin123
    • 检测流程:通过 utils/detector.py 中的 ImageDetectWorker、VideoDetectWorker、CameraDetectWorker 调用 Ultralytics YOLO 进行推理
    6.3 配置与存储
    • config.json:模型路径、指标目录、检测参数等
    • data/users.json:用户信息
    • data/history.json:检测历史记录

    七、项目技术栈

    类别技术
    GUI 框架PyQt6
    深度学习框架Ultralytics (YOLO11)
    检测模型YOLO11s + EMBSFPN + TADDH + C3K2 + PMSFA(改进模型)
    后端PyTorch (ultralytics)
    图像处理OpenCV, Pillow
    可视化matplotlib, pandas
    数据处理numpy, pandas
    依赖包(detection_app/requirements.txt)
    PyQt6>=6.4.0 ultralytics>=8.0.0 opencv-python>=4.7.0 Pillow>=9.0.0 matplotlib>=3.7.0 numpy>=1.23.0 pandas>=1.5.0 
    

    训练脚本还需:pyyaml


    八、项目结构

    c124/ ├── train_yolo11.py # YOLO11 训练脚本 ├── README.md # 项目说明文档 │ ├── dataset_visdrone/ # 数据集目录 │ ├── data.yaml # 数据集配置 │ ├── data_local.yaml # 自动生成(本机路径) │ ├── 数据集介绍.md # 数据集说明 │ ├── VisDrone2019-DET-train/ │ ├── VisDrone2019-DET-val/ │ └── VisDrone2019-DET-test-dev/ │ ├── detection_app/ # 检测系统应用 │ ├── main.py # 应用入口 │ ├── login_window.py # 登录窗口 │ ├── main_window.py # 主窗口 │ ├── config.json # 应用配置 │ ├── requirements.txt # 依赖列表 │ ├── data/ │ │ ├── users.json # 用户数据 │ │ └── history.json # 检测历史 │ ├── pages/ │ │ ├── image_page.py # 图片识别页 │ │ ├── video_page.py # 视频识别页 │ │ ├── camera_page.py # 摄像头识别页 │ │ ├── history_page.py # 检测历史页 │ │ ├── model_page.py # 模型管理页 │ │ └── metrics_page.py # 指标展示页 │ └── utils/ │ ├── detector.py # 检测逻辑 │ ├── storage.py # 配置与存储 │ └── styles.py # 界面样式 │ ├── 训练文件1/ # 训练输出示例 │ └── exp-yolo11s-EMBSFPN-TADDH-C3K2_PMSFA/ │ ├── args.yaml # 训练参数快照 │ ├── results.csv # 训练指标 │ ├── results.png # 训练曲线 │ ├── weights/ │ │ ├── best.pt # 最佳权重 │ │ └── last.pt # 最后一轮权重 │ └── 其他可视化图表... │ └── runs/ # 训练输出目录(默认) └── detect/runs/train/yolo11_visdrone/ 
    

    九、参考文献

    如在论文中使用 VisDrone 数据集,建议引用:

    @article{zhu2021detection, title={Detection and tracking meet drones challenge}, author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, volume={44}, number={11}, pages={7380--7399}, year={2021}, publisher={IEEE} } 
    

    十、相关链接

    • VisDrone 数据集官网:https://aiskyeye.com/
    • VisDrone GitHub:https://github.com/VisDrone/VisDrone-Dataset
    • ICCV 2019 挑战赛:Vision Meets Drone Object Detection in Image Challenge

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    文章配图

    目录

    1. 一、项目概述
    2. 二、数据集
    3. 2.1 数据集简介
    4. 2.2 数据规模
    5. 2.3 目标类别
    6. 2.4 数据集特点
    7. 2.5 目录结构
    8. 2.6 标注格式
    9. 三、训练过程
    10. 3.1 训练脚本
    11. 3.2 基本流程
    12. 3.3 使用示例
    13. 3.4 训练注意事项
    14. 四、训练参数
    15. 4.1 主要训练参数
    16. 4.2 模型与优化器
    17. 4.3 检测参数(应用配置)
    18. 五、可视化图含义
    19. 5.1 训练过程图表
    20. 5.2 标签与类别分析
    21. 5.3 评估指标曲线
    22. 5.4 results.csv 主要列说明
    23. 六、系统功能
    24. 6.1 功能模块
    25. 6.2 入口与流程
    26. 6.3 配置与存储
    27. 七、项目技术栈
    28. 依赖包(detection\_app/requirements.txt)
    29. 八、项目结构
    30. 九、参考文献
    31. 十、相关链接
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 91n 边缘计算设备部署轻量 TensorFlow 模型全流程
    • C++ Web 编程
    • GitHub Copilot 接入第三方模型 API 配置指南
    • CSS 盒子模型详解:边框、内边距、外边距及美化技巧
    • UI UX Pro Max:AI 驱动的多平台专业 UI/UX 设计技能
    • Clawdbot 直连 Qwen3-32B:Webhook 事件通知与外部系统自动触发
    • Linux 基础:冯诺依曼架构与进程管理
    • 行星减速器原理、计算公式与 C++ 实现
    • 二叉树深度计算与先序排列重构实战
    • WebFlux 使用 Java 8 流式 API 更新 List 中的 Bean 对象
    • SDXL Prompt Styler 提示词风格增强工具使用指南
    • 使用 Gradio 快速构建对话式 AI 应用
    • 前端核心知识点梳理与面试复习指南
    • 基于 DeepSeek 和 Cursor 构建智能代码审查工具
    • 基于 DeepSeek 与腾讯云 HAI 快速构建个人网页
    • Git 恢复到上一次提交版本的操作指南
    • 构建企业级 AI 大模型的关键步骤与框架
    • 基于 Python 的外卖餐饮平台可视化数据分析系统
    • GitHub Copilot 学生认证申请流程与材料准备
    • MySQL 事务隔离级别详解与设置

    相关免费在线工具

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

    • Base64 文件转换器

      将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

    • Markdown转HTML

      将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online

    • HTML转Markdown

      将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online

    • JSON 压缩

      通过删除不必要的空白来缩小和压缩JSON。 在线工具,JSON 压缩在线工具,online