背景介绍
随着无人机技术的飞速发展,其在航拍、监控、农业、物流等领域的应用日益广泛。无人机视角下的视觉任务,如目标检测、目标跟踪和场景理解,已成为计算机视觉研究的热点。相比传统地面视角,无人机图像具有高度变化、小目标密集、背景复杂等挑战。
为应对这些挑战,天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。该数据集采集自中国 14 个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境,是学术界和工业界不可或缺的资源。

数据构成
官方提供以下数据集划分:
- 训练集(VisDrone2019-DET-train):6,471 张图像
- 验证集(VisDrone2019-DET-val):548 张图像
- 测试集(VisDrone2019-DET-test-dev):1610 张图像
注:VisDrone2019-DET-test-challenge 不含标注。
原始数据集包含 jpg 图片和 xml 标注文件,需转换为 YOLO 格式方可用于训练。处理后的文件通常包含原图及覆盖白色方块的图片两种版本,用户可根据需求选择使用。
类别说明
官方共有 12 个分类,其中 ignored regions 为忽略区域(包含密集微小目标无法标注),转换时将其从图片中覆盖白色方块遮挡,并从类别列表中移除。
["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]
去除忽略区域后,有效类别共 10 类,YOLO 格式类别顺序即为此顺序。

训练效果
下图展示了训练及验证过程中的部分图像示例。

使用原图进行训练,整体精度在 0.4 左右。覆盖白色方块的图片精度可结合实际任务自行测试。
下载地址
原始数据集可通过官方 Github 获取: https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file


