在无人机航拍场景中,小目标检测一直是计算机视觉领域的难点。传统算法往往难以应对目标尺度小、密集分布及多尺度混合等复杂情况。本项目基于 Ultralytics YOLO11 框架,结合 VisDrone 2019 数据集进行训练与优化,并配套开发了基于 PyQt6 的桌面应用,支持图片、视频及摄像头的实时检测与指标可视化。
项目概述
VisDrone 数据集是面向无人机视角目标检测的大规模基准数据集,由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队发布。本项目利用该数据集实现了对行人、车辆等 10 类交通相关目标的高效检测,并通过桌面应用便于模型验证与日常使用。
数据集说明
数据规模
| 子集 | 图像数量 | 说明 |
|---|---|---|
| 训练集 (train) | 6,471 张 | 用于模型训练 |
| 验证集 (val) | 548 张 | 用于超参数调优与模型选择 |
| 测试集 (test-dev) | 1,610 张 | 含标注,可进行论文实验与结果发布 |
- 总标注框数量:超过 260 万个边界框
- 图像来源:288 个视频片段 + 10,209 张静态图像
- 图像格式:JPEG (.jpg)
目标类别
数据集包含 10 个预定义类别:
| 类别 ID | 英文名称 | 中文名称 |
|---|---|---|
| 0 | pedestrian | 行人 |
| 1 | people | 人群 |
| 2 | bicycle | 自行车 |
| 3 | car | 小汽车 |
| 4 | van | 面包车 |
| 5 | truck | 卡车 |
| 6 | tricycle | 三轮车 |
| 7 | awning-tricycle | 带篷三轮车 |
| 8 | bus | 公交车 |
| 9 | motor | 摩托车 |
数据集特点
- 地理位置:覆盖中国 14 个不同城市,相距数千公里
- 场景类型:涵盖城市、乡村等多种环境
- 小目标特性:无人机航拍高度较高,大量目标归一化后宽度或高度小于 2%
- 密集分布:交通路口、人行道等场景中目标密集,遮挡严重
- 多尺度混合:同一张图像中存在近大远小现象
目录结构
project_root/
├── data.yaml # YOLO 数据集配置文件
├── data_local.yaml
├── 数据集介绍.md
├── VisDrone2019-DET-train/
│ ├── images/
│ └── labels/
├── VisDrone2019-DET-val/
│ ├── images/
│ └── labels/
└── VisDrone2019-DET-test-dev/
├── images/
└── labels/


