跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

无人机航拍小目标检测:基于 YOLO11 的实战方案

本项目针对无人机航拍场景下的小目标检测难题,采用 Ultralytics YOLO11 框架在 VisDrone 2019 数据集上进行训练优化。实现了行人、车辆等 10 类交通目标的检测,并配套开发了基于 PyQt6 的桌面应用,支持图片、视频及摄像头实时检测与指标可视化。重点解决了图像尺度小、密集分布及遮挡问题,通过调整输入分辨率、多尺度训练及数据增强策略提升模型性能,提供完整的训练脚本与系统架构参考。

战神发布于 2026/3/22更新于 2026/6/2126 浏览
无人机航拍小目标检测:基于 YOLO11 的实战方案

本项目针对无人机航拍场景下的小目标检测问题,采用 Ultralytics YOLO11 框架,在 VisDrone 2019 数据集上进行训练与优化,并配套开发了基于 PyQt6 的桌面应用,支持图片、视频及摄像头的实时检测与训练指标可视化。

项目背景

无人机航拍图像通常具有目标尺度小、密集分布、多尺度混合等特点,传统检测算法往往难以取得理想效果。本项目实现了行人、车辆等 10 类交通相关目标的高效检测,并通过桌面应用便于模型验证与日常使用。

数据集说明

数据概况

本项目使用 VisDrone 2019-DET 数据集,由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布,是面向无人机视角目标检测的大规模基准数据集。

子集图像数量说明
训练集 (train)6,471 张用于模型训练
验证集 (val)548 张用于超参数调优与模型选择
测试集 (test-dev)1,610 张含标注,可进行论文实验与结果发布
  • 总标注框数量:超过 260 万个边界框
  • 图像来源:288 个视频片段 + 10,209 张静态图像
  • 图像格式:JPEG (.jpg)
目标类别

数据集包含 10 个预定义类别:

类别 ID英文名称中文名称
0pedestrian行人
1people人群
2bicycle自行车
3car小汽车
4van面包车
5truck卡车
6tricycle三轮车
7awning-tricycle带篷三轮车
8bus公交车
9motor摩托车
数据特点
  • 地理位置:覆盖中国 14 个不同城市,相距数千公里
  • 场景类型:涵盖城市、乡村等多种环境
  • 小目标特性:无人机航拍高度较高,大量目标归一化后宽度或高度小于 2%
  • 密集分布:交通路口、人行道等场景中目标密集,遮挡严重
  • 多尺度混合:同一张图像中存在近大远小现象
目录结构
dataset_visdrone/
├── data.yaml                    # YOLO 数据集配置文件
├── data_local.yaml              # 自动生成,含本机绝对路径
├── 数据集介绍.md                # 数据集说明文档
├── VisDrone2019-DET-train/      
│   ├── images/                  # 训练图像
│   └── labels/                  # YOLO 格式标签 (.txt)
├── VisDrone2019-DET-val/        
│   ├── images/                  
│   └── labels/                  
└── VisDrone2019-DET-test-dev/   
    ├── images/                  
    └── labels/                  
标注格式

采用 YOLO 标准格式,每行一个目标:<class_id> <x_center> <y_center> <width> <height>,坐标均为归一化值 [0, 1]。

训练流程

训练脚本

训练脚本位于项目根目录下的 train_yolo11.py,支持三种运行模式:

  • train:训练模式(默认)
  • val:验证模式,需指定权重路径
  • predict:推理模式,需指定权重与输入路径
基本步骤
  1. 检查 dataset_visdrone/data.yaml 是否存在
  2. 调用 fix_data_yaml() 自动生成 data_local.yaml(含本机绝对路径)
  3. 加载 YOLO 预训练模型
  4. 调用 Ultralytics 训练流程进行训练
  5. 结果保存在 runs/train/<实验名称>/ 或 --project 指定目录
使用示例
python train_yolo11.py                 # 默认配置训练
python train_yolo11.py --model yolo11m # 指定模型大小
python train_yolo11.py --epochs 200    # 指定训练轮数
python train_yolo11.py --imgsz 1280    # 更大分辨率(小目标更佳)
python train_yolo11.py --multi_scale   # 开启多尺度训练
python train_yolo11.py --mode val --weights runs/train/exp/weights/best.pt
python train_yolo11.py --mode predict --weights runs/train/exp/weights/best.pt --source path/to/image
训练建议
  • 图像尺寸:建议 ≥ 640,推荐 1280(小目标分辨率更高)
  • Batch Size:建议 16–32(显存不足时降低)
  • Epochs:建议 200–300(VisDrone 收敛较慢)
  • 数据增强:默认开启 mosaic,最后 10 个 epoch 关闭以稳定收敛
  • 多尺度训练:可使用 --multi_scale 提升小目标性能

关键参数

主要训练参数
参数默认值说明
--modelyolo11s模型:yolo11n/s/m/l/x
--epochs300训练轮数
--imgsz640输入图像尺寸(小目标建议 1280)
--batch16批大小
--lr00.01初始学习率
--lrf0.01最终学习率比例
--patience100Early stopping 等待轮数
--device""GPU 编号或 cpu
--workers4DataLoader 工作进程数
--projectruns/train实验保存目录
--nameyolo11_visdrone实验名称
--multi_scaleFalse多尺度训练
--copy_paste0.0Copy-paste 数据增强概率
模型与优化器
  • 优化器:SGD
  • 损失权重:box=7.5, cls=0.5, dfl=1.5
  • 数据增强:mosaic=1.0, randaugment, erasing=0.4, close_mosaic=10
检测参数(应用配置)
参数默认值说明
conf_threshold0.25置信度阈值
iou_threshold0.70NMS IoU 阈值
max_det300单张图像最大检测数量

可视化分析

训练完成后,Ultralytics 会在实验目录下生成以下可视化文件,用于分析模型表现:

训练过程图表
文件含义
results.csv每 epoch 的损失与指标(训练/验证 loss、mAP、精确率、召回率等)
results.png训练曲线概览,包含损失、mAP、学习率等随 epoch 变化
train_batch*.jpg训练 batch 样本可视化,展示数据增强后的输入图像与标签
val_batch*_labels.jpg验证 batch 的标签可视化
val_batch*_pred.jpg验证 batch 的预测结果可视化
标签与类别分析
文件含义
labels.jpg标签分布图,展示各类别目标在图像中的位置与数量分布
labels_correlogram.jpg标签关联图,展示类别间相关性
评估指标曲线
文件含义
confusion_matrix_normalized.png归一化混淆矩阵,展示各类别的预测与真实标签对应关系
P_curve.png精确率–置信度曲线
R_curve.png召回率–置信度曲线
F1_curve.pngF1 分数–置信度曲线
PR_curve.png精确率–召回率曲线
results.csv 主要列说明

epoch、time、train/box_loss、train/cls_loss、train/dfl_loss、metrics/precision(B)、metrics/recall(B)、metrics/mAP50(B)、metrics/mAP50-95(B)、val/box_loss、val/cls_loss、val/dfl_loss、lr/pg0、lr/pg1、lr/pg2

系统功能

本项目提供基于 PyQt6 的桌面应用 「无人机航拍小目标检测系统」,主要功能如下:

功能模块
模块功能说明
图片识别支持 JPG/PNG/BMP 等格式,上传图片后点击开始检测,支持拖拽导入,可导出检测结果图片与 CSV
视频识别支持 MP4/AVI/MOV 等格式,加载视频后逐帧检测,显示进度
摄像头识别实时调用本地摄像头进行目标检测
检测历史查看所有历史检测记录,支持筛选与导出
模型管理管理检测模型文件路径,调整置信度、IoU 阈值等检测参数,验证模型加载
指标展示展示模型训练过程的各项可视化指标,包括训练曲线、指标汇总、可视化图表
入口与流程
  • 入口:detection_app/main.py,启动后进入登录窗口
  • 默认账号:admin / admin123
  • 检测流程:通过 utils/detector.py 中的 ImageDetectWorker、VideoDetectWorker、CameraDetectWorker 调用 Ultralytics YOLO 进行推理
配置与存储
  • config.json:模型路径、指标目录、检测参数等
  • data/users.json:用户信息
  • data/history.json:检测历史记录

技术栈

类别技术
GUI 框架PyQt6
深度学习框架Ultralytics (YOLO11)
检测模型YOLO11s + EMBSFPN + TADDH + C3K2 + PMSFA(改进模型)
后端PyTorch (ultralytics)
图像处理OpenCV, Pillow
可视化matplotlib, pandas
数据处理numpy, pandas
依赖包(detection_app/requirements.txt)
PyQt6>=6.4.0
ultralytics>=8.0.0
opencv-python>=4.7.0
Pillow>=9.0.0
matplotlib>=3.7.0
numpy>=1.23.0
pandas>=1.5.0

训练脚本还需:pyyaml

项目结构

c124/
├── train_yolo11.py          # YOLO11 训练脚本
├── README.md                # 项目说明文档
├── dataset_visdrone/        # 数据集目录
│   ├── data.yaml            # 数据集配置
│   ├── data_local.yaml      # 自动生成(本机路径)
│   ├── 数据集介绍.md        # 数据集说明
│   ├── VisDrone2019-DET-train/
│   ├── VisDrone2019-DET-val/
│   └── VisDrone2019-DET-test-dev/
├── detection_app/           # 检测系统应用
│   ├── main.py              # 应用入口
│   ├── login_window.py      # 登录窗口
│   ├── main_window.py       # 主窗口
│   ├── config.json          # 应用配置
│   ├── requirements.txt     # 依赖列表
│   ├── data/
│   │   ├── users.json       # 用户数据
│   │   └── history.json     # 检测历史
│   ├── pages/
│   │   ├── image_page.py    # 图片识别页
│   │   ├── video_page.py    # 视频识别页
│   │   ├── camera_page.py   # 摄像头识别页
│   │   ├── history_page.py  # 检测历史页
│   │   ├── model_page.py    # 模型管理页
│   │   └── metrics_page.py  # 指标展示页
│   └── utils/
│       ├── detector.py      # 检测逻辑
│       ├── storage.py       # 配置与存储
│       └── styles.py        # 界面样式
├── 训练文件 1/                # 训练输出示例
│   └── exp-yolo11s-EMBSFPN-TADDH-C3K2_PMSFA/
│       ├── args.yaml        # 训练参数快照
│       ├── results.csv      # 训练指标
│       ├── results.png      # 训练曲线
│       └── weights/
│           ├── best.pt      # 最佳权重
│           └── last.pt      # 最后一轮权重
└── runs/                    # 训练输出目录(默认)
    └── detect/runs/train/yolo11_visdrone/

参考文献

如在论文中使用 VisDrone 数据集,建议引用:

@article{zhu2021detection,
  title={Detection and tracking meet drones challenge},
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  volume={44},
  number={11},
  pages={7380--7399},
  year={2021},
  publisher={IEEE}
}

相关链接

  • VisDrone 数据集官网:https://aiskyeye.com/
  • VisDrone GitHub:https://github.com/VisDrone/VisDrone-Dataset
  • ICCV 2019 挑战赛:Vision Meets Drone Object Detection in Image Challenge

目录

  1. 项目背景
  2. 数据集说明
  3. 数据概况
  4. 目标类别
  5. 数据特点
  6. 目录结构
  7. 标注格式
  8. 训练流程
  9. 训练脚本
  10. 基本步骤
  11. 使用示例
  12. 训练建议
  13. 关键参数
  14. 主要训练参数
  15. 模型与优化器
  16. 检测参数(应用配置)
  17. 可视化分析
  18. 训练过程图表
  19. 标签与类别分析
  20. 评估指标曲线
  21. results.csv 主要列说明
  22. 系统功能
  23. 功能模块
  24. 入口与流程
  25. 配置与存储
  26. 技术栈
  27. 依赖包(detection_app/requirements.txt)
  28. 项目结构
  29. 参考文献
  30. 相关链接
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Qwen3-VL 法律场景长文档 OCR 结构化解析教程
  • OpenClaw 新手指南:AI 机器人搭建与配置详解
  • VSCode 开发 STM32:配置 C/C++ 扩展头文件路径
  • 医疗领域自然语言处理(NLP)应用与实战指南
  • 现代 C++ 编程的 10 个核心技巧:更安全、高效与优雅
  • Qwen-Image-Edit-2511:AI 图像编辑的几何推理升级实战
  • PyWebIO 表单在企业级项目中的 5 种高阶用法
  • 大语言模型(LLM)原理与 LoRA 微调实战
  • Spring Web MVC 入门:从概念到实战(上)
  • 滑动窗口算法:最大连续 1 的个数 III 与将 x 减到 0 的最小操作数
  • 自然语言处理在医疗领域的应用与实战
  • Python 日常高频写法与内置函数速查
  • WebPShop 插件指南:在 Photoshop 中完美支持 WebP 格式
  • Windows WSL Ubuntu 部署 OpenClaw 接入飞书与百炼模型实战
  • 二分答案专题实战:木材加工与砍树问题解析
  • 5 款主流 AI 编程工具深度评测与选型指南
  • Docker Network 命令:容器网络管理的完整指南
  • Tomcat 核心参数详解:maxConnections、maxThreads 与 acceptCount
  • 拆解机器人底盘 DDSM400 钕强磁外转子 65mm 伺服轮毂电机
  • Python + Agent 入门实战:从零搭建可复用 AI 智能体

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online