无人机航拍小目标检测：基于 YOLO11 的实战方案

本项目针对无人机航拍场景下的小目标检测问题，采用 Ultralytics YOLO11 框架，在 VisDrone 2019 数据集上进行训练与优化，并配套开发了基于 PyQt6 的桌面应用，支持图片、视频及摄像头的实时检测与训练指标可视化。

项目背景

无人机航拍图像通常具有目标尺度小、密集分布、多尺度混合等特点，传统检测算法往往难以取得理想效果。本项目实现了行人、车辆等 10 类交通相关目标的高效检测，并通过桌面应用便于模型验证与日常使用。

数据集说明

数据概况

本项目使用 VisDrone 2019-DET 数据集，由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布，是面向无人机视角目标检测的大规模基准数据集。

子集	图像数量	说明
训练集 (train)	6,471 张	用于模型训练
验证集 (val)	548 张	用于超参数调优与模型选择
测试集 (test-dev)	1,610 张	含标注，可进行论文实验与结果发布

总标注框数量：超过 260 万个边界框
图像来源：288 个视频片段 + 10,209 张静态图像
图像格式：JPEG (.jpg)

目标类别

数据集包含 10 个预定义类别：

类别 ID	英文名称	中文名称
0	pedestrian	行人
1	people	人群
2	bicycle	自行车
3	car	小汽车
4	van	面包车
5	truck	卡车
6	tricycle	三轮车
7	awning-tricycle	带篷三轮车
8	bus	公交车
9	motor	摩托车

数据特点

地理位置：覆盖中国 14 个不同城市，相距数千公里
场景类型：涵盖城市、乡村等多种环境
小目标特性：无人机航拍高度较高，大量目标归一化后宽度或高度小于 2%
密集分布：交通路口、人行道等场景中目标密集，遮挡严重
多尺度混合：同一张图像中存在近大远小现象

目录结构

dataset_visdrone/
├── data.yaml                    # YOLO 数据集配置文件
├── data_local.yaml              # 自动生成，含本机绝对路径
├── 数据集介绍.md                # 数据集说明文档
├── VisDrone2019-DET-train/      
│   ├── images/                  # 训练图像
│   └── labels/                  # YOLO 格式标签 (.txt)
├── VisDrone2019-DET-val/        
│   ├── images/                  
│   └── labels/                  
└── VisDrone2019-DET-test-dev/   
    ├── images/                  
    └── labels/

标注格式

采用 YOLO 标准格式，每行一个目标：<class_id> <x_center> <y_center> <width> <height>，坐标均为归一化值 [0, 1]。

训练流程

训练脚本

训练脚本位于项目根目录下的 train_yolo11.py，支持三种运行模式：

train：训练模式（默认）
val：验证模式，需指定权重路径
predict：推理模式，需指定权重与输入路径

基本步骤

检查 dataset_visdrone/data.yaml 是否存在
调用 fix_data_yaml() 自动生成 data_local.yaml（含本机绝对路径）
加载 YOLO 预训练模型
调用 Ultralytics 训练流程进行训练
结果保存在 runs/train/<实验名称>/ 或 --project 指定目录

使用示例

python train_yolo11.py                 # 默认配置训练
python train_yolo11.py --model yolo11m # 指定模型大小
python train_yolo11.py --epochs 200    # 指定训练轮数
python train_yolo11.py --imgsz 1280    # 更大分辨率（小目标更佳）
python train_yolo11.py --multi_scale   # 开启多尺度训练
python train_yolo11.py --mode val --weights runs/train/exp/weights/best.pt
python train_yolo11.py --mode predict --weights runs/train/exp/weights/best.pt --source path/to/image

训练建议

图像尺寸：建议 ≥ 640，推荐 1280（小目标分辨率更高）
Batch Size：建议 16–32（显存不足时降低）
Epochs：建议 200–300（VisDrone 收敛较慢）
数据增强：默认开启 mosaic，最后 10 个 epoch 关闭以稳定收敛
多尺度训练：可使用 --multi_scale 提升小目标性能

关键参数

主要训练参数

参数	默认值	说明
`--model`	yolo11s	模型：yolo11n/s/m/l/x
`--epochs`	300	训练轮数
`--imgsz`	640	输入图像尺寸（小目标建议 1280）
`--batch`	16	批大小
`--lr0`	0.01	初始学习率
`--lrf`	0.01	最终学习率比例
`--patience`	100	Early stopping 等待轮数
`--device`	""	GPU 编号或 cpu
`--workers`	4	DataLoader 工作进程数
`--project`	runs/train	实验保存目录
`--name`	yolo11_visdrone	实验名称
`--multi_scale`	False	多尺度训练
`--copy_paste`	0.0	Copy-paste 数据增强概率

模型与优化器

优化器：SGD
损失权重：box=7.5, cls=0.5, dfl=1.5
数据增强：mosaic=1.0, randaugment, erasing=0.4, close_mosaic=10

检测参数（应用配置）

参数	默认值	说明
`conf_threshold`	0.25	置信度阈值
`iou_threshold`	0.70	NMS IoU 阈值
`max_det`	300	单张图像最大检测数量

可视化分析

训练完成后，Ultralytics 会在实验目录下生成以下可视化文件，用于分析模型表现：

训练过程图表

文件	含义
`results.csv`	每 epoch 的损失与指标（训练/验证 loss、mAP、精确率、召回率等）
`results.png`	训练曲线概览，包含损失、mAP、学习率等随 epoch 变化
`train_batch*.jpg`	训练 batch 样本可视化，展示数据增强后的输入图像与标签
`val_batch*_labels.jpg`	验证 batch 的标签可视化
`val_batch*_pred.jpg`	验证 batch 的预测结果可视化

标签与类别分析

文件	含义
`labels.jpg`	标签分布图，展示各类别目标在图像中的位置与数量分布
`labels_correlogram.jpg`	标签关联图，展示类别间相关性

评估指标曲线

文件	含义
`confusion_matrix_normalized.png`	归一化混淆矩阵，展示各类别的预测与真实标签对应关系
`P_curve.png`	精确率–置信度曲线
`R_curve.png`	召回率–置信度曲线
`F1_curve.png`	F1 分数–置信度曲线
`PR_curve.png`	精确率–召回率曲线

results.csv 主要列说明

epoch、time、train/box_loss、train/cls_loss、train/dfl_loss、metrics/precision(B)、metrics/recall(B)、metrics/mAP50(B)、metrics/mAP50-95(B)、val/box_loss、val/cls_loss、val/dfl_loss、lr/pg0、lr/pg1、lr/pg2

系统功能

本项目提供基于 PyQt6 的桌面应用 「无人机航拍小目标检测系统」，主要功能如下：

功能模块

模块	功能说明
图片识别	支持 JPG/PNG/BMP 等格式，上传图片后点击开始检测，支持拖拽导入，可导出检测结果图片与 CSV
视频识别	支持 MP4/AVI/MOV 等格式，加载视频后逐帧检测，显示进度
摄像头识别	实时调用本地摄像头进行目标检测
检测历史	查看所有历史检测记录，支持筛选与导出
模型管理	管理检测模型文件路径，调整置信度、IoU 阈值等检测参数，验证模型加载
指标展示	展示模型训练过程的各项可视化指标，包括训练曲线、指标汇总、可视化图表

入口与流程

入口：detection_app/main.py，启动后进入登录窗口
默认账号：admin / admin123
检测流程：通过 utils/detector.py 中的 ImageDetectWorker、VideoDetectWorker、CameraDetectWorker 调用 Ultralytics YOLO 进行推理

配置与存储

config.json：模型路径、指标目录、检测参数等
data/users.json：用户信息
data/history.json：检测历史记录

技术栈

类别	技术
GUI 框架	PyQt6
深度学习框架	Ultralytics (YOLO11)
检测模型	YOLO11s + EMBSFPN + TADDH + C3K2 + PMSFA（改进模型）
后端	PyTorch (ultralytics)
图像处理	OpenCV, Pillow
可视化	matplotlib, pandas
数据处理	numpy, pandas

依赖包（detection_app/requirements.txt）

PyQt6>=6.4.0
ultralytics>=8.0.0
opencv-python>=4.7.0
Pillow>=9.0.0
matplotlib>=3.7.0
numpy>=1.23.0
pandas>=1.5.0

训练脚本还需：pyyaml

项目结构

c124/
├── train_yolo11.py          # YOLO11 训练脚本
├── README.md                # 项目说明文档
├── dataset_visdrone/        # 数据集目录
│   ├── data.yaml            # 数据集配置
│   ├── data_local.yaml      # 自动生成（本机路径）
│   ├── 数据集介绍.md        # 数据集说明
│   ├── VisDrone2019-DET-train/
│   ├── VisDrone2019-DET-val/
│   └── VisDrone2019-DET-test-dev/
├── detection_app/           # 检测系统应用
│   ├── main.py              # 应用入口
│   ├── login_window.py      # 登录窗口
│   ├── main_window.py       # 主窗口
│   ├── config.json          # 应用配置
│   ├── requirements.txt     # 依赖列表
│   ├── data/
│   │   ├── users.json       # 用户数据
│   │   └── history.json     # 检测历史
│   ├── pages/
│   │   ├── image_page.py    # 图片识别页
│   │   ├── video_page.py    # 视频识别页
│   │   ├── camera_page.py   # 摄像头识别页
│   │   ├── history_page.py  # 检测历史页
│   │   ├── model_page.py    # 模型管理页
│   │   └── metrics_page.py  # 指标展示页
│   └── utils/
│       ├── detector.py      # 检测逻辑
│       ├── storage.py       # 配置与存储
│       └── styles.py        # 界面样式
├── 训练文件 1/                # 训练输出示例
│   └── exp-yolo11s-EMBSFPN-TADDH-C3K2_PMSFA/
│       ├── args.yaml        # 训练参数快照
│       ├── results.csv      # 训练指标
│       ├── results.png      # 训练曲线
│       └── weights/
│           ├── best.pt      # 最佳权重
│           └── last.pt      # 最后一轮权重
└── runs/                    # 训练输出目录（默认）
    └── detect/runs/train/yolo11_visdrone/

参考文献

如在论文中使用 VisDrone 数据集，建议引用：

@article{zhu2021detection,
  title={Detection and tracking meet drones challenge},
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  volume={44},
  number={11},
  pages={7380--7399},
  year={2021},
  publisher={IEEE}
}

项目背景

数据集说明

数据概况

本项目使用 VisDrone 2019-DET 数据集，由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布，是面向无人机视角目标检测的大规模基准数据集。

子集	图像数量	说明
训练集 (train)	6,471 张	用于模型训练
验证集 (val)	548 张	用于超参数调优与模型选择
测试集 (test-dev)	1,610 张	含标注，可进行论文实验与结果发布

总标注框数量：超过 260 万个边界框
图像来源：288 个视频片段 + 10,209 张静态图像
图像格式：JPEG (.jpg)

目标类别

数据集包含 10 个预定义类别：

类别 ID	英文名称	中文名称
0	pedestrian	行人
1	people	人群
2	bicycle	自行车
3	car	小汽车
4	van	面包车
5	truck	卡车
6	tricycle	三轮车
7	awning-tricycle	带篷三轮车
8	bus	公交车
9	motor	摩托车

数据特点

地理位置：覆盖中国 14 个不同城市，相距数千公里
场景类型：涵盖城市、乡村等多种环境
小目标特性：无人机航拍高度较高，大量目标归一化后宽度或高度小于 2%
密集分布：交通路口、人行道等场景中目标密集，遮挡严重
多尺度混合：同一张图像中存在近大远小现象

目录结构

dataset_visdrone/
├── data.yaml                    # YOLO 数据集配置文件
├── data_local.yaml              # 自动生成，含本机绝对路径
├── 数据集介绍.md                # 数据集说明文档
├── VisDrone2019-DET-train/      
│   ├── images/                  # 训练图像
│   └── labels/                  # YOLO 格式标签 (.txt)
├── VisDrone2019-DET-val/        
│   ├── images/                  
│   └── labels/                  
└── VisDrone2019-DET-test-dev/   
    ├── images/                  
    └── labels/

标注格式

采用 YOLO 标准格式，每行一个目标：<class_id> <x_center> <y_center> <width> <height>，坐标均为归一化值 [0, 1]。

训练流程

训练脚本

训练脚本位于项目根目录下的 train_yolo11.py，支持三种运行模式：

train：训练模式（默认）
val：验证模式，需指定权重路径
predict：推理模式，需指定权重与输入路径

基本步骤

检查 dataset_visdrone/data.yaml 是否存在
调用 fix_data_yaml() 自动生成 data_local.yaml（含本机绝对路径）
加载 YOLO 预训练模型
调用 Ultralytics 训练流程进行训练
结果保存在 runs/train/<实验名称>/ 或 --project 指定目录

使用示例

python train_yolo11.py                 # 默认配置训练
python train_yolo11.py --model yolo11m # 指定模型大小
python train_yolo11.py --epochs 200    # 指定训练轮数
python train_yolo11.py --imgsz 1280    # 更大分辨率（小目标更佳）
python train_yolo11.py --multi_scale   # 开启多尺度训练
python train_yolo11.py --mode val --weights runs/train/exp/weights/best.pt
python train_yolo11.py --mode predict --weights runs/train/exp/weights/best.pt --source path/to/image

训练建议

图像尺寸：建议 ≥ 640，推荐 1280（小目标分辨率更高）
Batch Size：建议 16–32（显存不足时降低）
Epochs：建议 200–300（VisDrone 收敛较慢）
数据增强：默认开启 mosaic，最后 10 个 epoch 关闭以稳定收敛
多尺度训练：可使用 --multi_scale 提升小目标性能

关键参数

主要训练参数

参数	默认值	说明
`--model`	yolo11s	模型：yolo11n/s/m/l/x
`--epochs`	300	训练轮数
`--imgsz`	640	输入图像尺寸（小目标建议 1280）
`--batch`	16	批大小
`--lr0`	0.01	初始学习率
`--lrf`	0.01	最终学习率比例
`--patience`	100	Early stopping 等待轮数
`--device`	""	GPU 编号或 cpu
`--workers`	4	DataLoader 工作进程数
`--project`	runs/train	实验保存目录
`--name`	yolo11_visdrone	实验名称
`--multi_scale`	False	多尺度训练
`--copy_paste`	0.0	Copy-paste 数据增强概率

模型与优化器

优化器：SGD
损失权重：box=7.5, cls=0.5, dfl=1.5
数据增强：mosaic=1.0, randaugment, erasing=0.4, close_mosaic=10

检测参数（应用配置）

参数	默认值	说明
`conf_threshold`	0.25	置信度阈值
`iou_threshold`	0.70	NMS IoU 阈值
`max_det`	300	单张图像最大检测数量

可视化分析

训练完成后，Ultralytics 会在实验目录下生成以下可视化文件，用于分析模型表现：

训练过程图表

文件	含义
`results.csv`	每 epoch 的损失与指标（训练/验证 loss、mAP、精确率、召回率等）
`results.png`	训练曲线概览，包含损失、mAP、学习率等随 epoch 变化
`train_batch*.jpg`	训练 batch 样本可视化，展示数据增强后的输入图像与标签
`val_batch*_labels.jpg`	验证 batch 的标签可视化
`val_batch*_pred.jpg`	验证 batch 的预测结果可视化

标签与类别分析

文件	含义
`labels.jpg`	标签分布图，展示各类别目标在图像中的位置与数量分布
`labels_correlogram.jpg`	标签关联图，展示类别间相关性

评估指标曲线

文件	含义
`confusion_matrix_normalized.png`	归一化混淆矩阵，展示各类别的预测与真实标签对应关系
`P_curve.png`	精确率–置信度曲线
`R_curve.png`	召回率–置信度曲线
`F1_curve.png`	F1 分数–置信度曲线
`PR_curve.png`	精确率–召回率曲线

results.csv 主要列说明

系统功能

本项目提供基于 PyQt6 的桌面应用 「无人机航拍小目标检测系统」，主要功能如下：

功能模块

模块	功能说明
图片识别	支持 JPG/PNG/BMP 等格式，上传图片后点击开始检测，支持拖拽导入，可导出检测结果图片与 CSV
视频识别	支持 MP4/AVI/MOV 等格式，加载视频后逐帧检测，显示进度
摄像头识别	实时调用本地摄像头进行目标检测
检测历史	查看所有历史检测记录，支持筛选与导出
模型管理	管理检测模型文件路径，调整置信度、IoU 阈值等检测参数，验证模型加载
指标展示	展示模型训练过程的各项可视化指标，包括训练曲线、指标汇总、可视化图表

入口与流程

入口：detection_app/main.py，启动后进入登录窗口
默认账号：admin / admin123
检测流程：通过 utils/detector.py 中的 ImageDetectWorker、VideoDetectWorker、CameraDetectWorker 调用 Ultralytics YOLO 进行推理

配置与存储

config.json：模型路径、指标目录、检测参数等
data/users.json：用户信息
data/history.json：检测历史记录

技术栈

类别	技术
GUI 框架	PyQt6
深度学习框架	Ultralytics (YOLO11)
检测模型	YOLO11s + EMBSFPN + TADDH + C3K2 + PMSFA（改进模型）
后端	PyTorch (ultralytics)
图像处理	OpenCV, Pillow
可视化	matplotlib, pandas
数据处理	numpy, pandas

依赖包（detection_app/requirements.txt）

PyQt6>=6.4.0
ultralytics>=8.0.0
opencv-python>=4.7.0
Pillow>=9.0.0
matplotlib>=3.7.0
numpy>=1.23.0
pandas>=1.5.0

训练脚本还需：pyyaml

项目结构

c124/
├── train_yolo11.py          # YOLO11 训练脚本
├── README.md                # 项目说明文档
├── dataset_visdrone/        # 数据集目录
│   ├── data.yaml            # 数据集配置
│   ├── data_local.yaml      # 自动生成（本机路径）
│   ├── 数据集介绍.md        # 数据集说明
│   ├── VisDrone2019-DET-train/
│   ├── VisDrone2019-DET-val/
│   └── VisDrone2019-DET-test-dev/
├── detection_app/           # 检测系统应用
│   ├── main.py              # 应用入口
│   ├── login_window.py      # 登录窗口
│   ├── main_window.py       # 主窗口
│   ├── config.json          # 应用配置
│   ├── requirements.txt     # 依赖列表
│   ├── data/
│   │   ├── users.json       # 用户数据
│   │   └── history.json     # 检测历史
│   ├── pages/
│   │   ├── image_page.py    # 图片识别页
│   │   ├── video_page.py    # 视频识别页
│   │   ├── camera_page.py   # 摄像头识别页
│   │   ├── history_page.py  # 检测历史页
│   │   ├── model_page.py    # 模型管理页
│   │   └── metrics_page.py  # 指标展示页
│   └── utils/
│       ├── detector.py      # 检测逻辑
│       ├── storage.py       # 配置与存储
│       └── styles.py        # 界面样式
├── 训练文件 1/                # 训练输出示例
│   └── exp-yolo11s-EMBSFPN-TADDH-C3K2_PMSFA/
│       ├── args.yaml        # 训练参数快照
│       ├── results.csv      # 训练指标
│       ├── results.png      # 训练曲线
│       └── weights/
│           ├── best.pt      # 最佳权重
│           └── last.pt      # 最后一轮权重
└── runs/                    # 训练输出目录（默认）
    └── detect/runs/train/yolo11_visdrone/

参考文献

如在论文中使用 VisDrone 数据集，建议引用：

@article{zhu2021detection,
  title={Detection and tracking meet drones challenge},
  author={Zhu, Pengfei and Wen, Longyin and Du, Dawei and Bian, Xiao and Fan, Heng and Hu, Qinghua and Ling, Haibin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  volume={44},
  number={11},
  pages={7380--7399},
  year={2021},
  publisher={IEEE}
}

无人机航拍小目标检测：基于 YOLO11 的实战方案

项目背景

数据集说明

数据概况

目标类别

数据特点

目录结构

标注格式

训练流程

训练脚本

基本步骤

使用示例

训练建议

关键参数

主要训练参数

模型与优化器

检测参数（应用配置）

可视化分析

训练过程图表

标签与类别分析

评估指标曲线

results.csv 主要列说明

系统功能

功能模块

入口与流程

配置与存储

技术栈

依赖包（detection_app/requirements.txt）

项目结构

参考文献

相关链接

无人机航拍小目标检测：基于 YOLO11 的实战方案

项目背景

数据集说明

数据概况

目标类别

数据特点

目录结构

标注格式

训练流程

训练脚本

基本步骤

使用示例

训练建议

关键参数

主要训练参数

模型与优化器

检测参数（应用配置）

可视化分析

训练过程图表

标签与类别分析

评估指标曲线

results.csv 主要列说明

系统功能

功能模块

入口与流程

配置与存储

技术栈

依赖包（detection_app/requirements.txt）

项目结构

参考文献

相关链接

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具