项目背景与概述
无人机航拍图像通常存在目标尺度小、密集分布及多尺度混合等特点,传统检测算法往往难以取得理想效果。本项目基于 Ultralytics YOLO11 框架,在 VisDrone 2019 数据集上进行训练与优化,实现了对行人、车辆等 10 类交通相关目标的高效检测。此外,我们还配套开发了基于 PyQt6 的桌面应用,支持图片、视频及摄像头的实时检测与训练指标可视化,便于模型验证与日常使用。
数据集准备
数据概况
我们选用 VisDrone 2019-DET 数据集,该数据集由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布,是面向无人机视角目标检测的大规模基准数据集。其包含超过 260 万个边界框,涵盖 288 个视频片段和 10,209 张静态图像,格式均为 JPEG。
| 子集 | 图像数量 | 说明 |
|---|---|---|
| 训练集 (train) | 6,471 张 | 用于模型训练 |
| 验证集 (val) | 548 张 | 用于超参数调优与模型选择 |
| 测试集 (test-dev) | 1,610 张 | 含标注,可进行论文实验与结果发布 |
目标类别
数据集预定义了 10 个类别,涵盖了常见的交通参与者:
| 类别 ID | 英文名称 | 中文名称 |
|---|---|---|
| 0 | pedestrian | 行人 |
| 1 | people | 人群 |
| 2 | bicycle | 自行车 |
| 3 | car | 小汽车 |
| 4 | van | 面包车 |
| 5 | truck | 卡车 |
| 6 | tricycle | 三轮车 |
| 7 | awning-tricycle | 带篷三轮车 |
| 8 | bus | 公交车 |
| 9 | motor | 摩托车 |
数据特点
- 地理位置:覆盖中国 14 个不同城市,场景跨度大。
- 小目标特性:航拍高度较高,大量目标归一化后宽度或高度小于 2%。
- 密集分布:交通路口、人行道等场景中目标密集,遮挡严重。
- 多尺度混合:同一张图像中存在近大远小现象。
目录结构
dataset_visdrone/
├── data.yaml # YOLO 数据集配置文件
├── data_local.yaml # 自动生成,含本机绝对路径
├── 数据集介绍.md # 数据集说明文档
├── VisDrone2019-DET-train/ # 训练集
│ ├── images/
│ └── labels/
├── VisDrone2019-DET-val/ # 验证集
│ ├── images/
│ └── labels/
└── VisDrone2019-DET-test-dev/ # 测试集
├── images/
└── labels/


