无人机视觉目标检测数据集 VisDrone 详解
随着无人机技术的飞速发展,无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、目标跟踪和场景理解,也成为了计算机视觉研究的热点。然而,相比传统的地面视角数据集,无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战,这对现有算法提出了更高的要求。
为了应对这些挑战并推动无人机视觉技术的发展,天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。作为一个大规模、标注精细的无人机视觉数据集,VisDrone 不仅涵盖了丰富的场景和多样化的目标类别,还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升,还是密集场景下的鲁棒性优化,VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国 14 个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

官方下载渠道
VisDrone 官方 Github 下载渠道:
https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file
下载的数据集包含 VisDrone2019-DET-train、VisDrone2019-DET-val、VisDrone2019-DET-test-dev(均含有标注),以及 VisDrone2019-DET-test-challenge(不含标注)。
- 训练集:6,471 张图像
- 验证集:548 张图像
- 测试集:1610 张图像
数据格式与处理
下载下来的原始数据集为 jpg+txt 文件,这里的 txt 不是 YOLO 训练可用的 txt 文件,需要对数据处理后才能使用。图片通常包含原图和覆盖白色方块的图,用户可根据需求选择使用。
官方共有 12 个分类,其中 ignored regions 为忽略的区域,有些区域包含了密集的很小的目标,无法进行标注,所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。

带有白色方块及标注框的效果如下图:

others 忽略掉,因此转换后的类别共有 10 类,分别为:
["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]
即获取的 YOLO 格式的类别顺序为上述顺序。
下图为训练过程中部分图像:




