无人机视觉目标检测数据集——VisDrone
随着无人机技术的飞速发展,其在航拍、监控、农业及物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、跟踪和场景理解,已成为计算机视觉研究的热点。然而,相比传统地面视角,无人机图像具有高度变化、小目标密集、背景复杂等独特挑战,这对现有算法提出了更高要求。
数据集概述
为应对上述挑战,天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。这是一个大规模、标注精细的无人机视觉数据集,涵盖丰富场景和多样化目标类别,为学术界和工业界提供了极具挑战性的测试平台。
该数据集采集自中国 14 个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境。官方提供的数据包含以下部分:
- 训练集:6,471 张图像
- 验证集:548 张图像
- 测试集:1,610 张图像(含 test-dev 和 test-challenge)

原始下载的数据包中,VisDrone2019-DET-train、VisDrone2019-DET-val 和 VisDrone2019-DET-test-dev 均含有标注,而 test-challenge 不含标注。原始格式为 JPG 图片加 TXT 标注文件,但需注意,这里的 TXT 并非直接可用于 YOLO 训练的格式,通常需要进行格式转换。
类别定义与预处理
VisDrone 官方定义了 12 个分类。其中 ignored regions 表示忽略区域,这些区域通常包含密集且极小的目标,难以进行精确标注。在实际处理中,建议将这些区域从图片中用白色方块遮挡,以避免干扰模型训练。

经过处理后的标注框效果如下:

此外,others 类别通常也被忽略。因此,转换后的有效类别共有 10 类,顺序如下:
["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]
获取 YOLO 格式的类别索引时,应遵循上述顺序。
训练与评估
在训练过程中,使用原图进行训练的整体精度通常在 0.4 左右。若采用覆盖白色方块的预处理方式,实际精度表现需根据具体模型进行测试。
下图展示了训练过程中部分图像的可视化效果:

下图为验证过程中的部分图像展示:

资源获取
如需获取原始数据集,可访问官方 GitHub 仓库:
对于数据处理脚本或格式转换工具,建议参考社区通用的开源实现,以确保标注格式符合主流深度学习框架的要求。


