无人机视觉目标检测数据集 VisDrone 介绍

随着无人机技术的飞速发展，其在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

数据集概述

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。该数据集采集自中国 14 个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

数据集统计

官方提供的数据集版本包括 VisDrone2019-DET-train、VisDrone2019-DET-val、VisDrone2019-DET-test-dev（均含有标注）以及 VisDrone2019-DET-test-challenge（不含标注）。具体数量如下：

训练集：6,471 张图像
验证集：548 张图像
测试集：1610 张图像

类别定义与处理

官方共有 12 个分类。其中 ignored regions 为忽略的区域，通常包含密集的很小的目标，无法进行标注，因此在处理时会将这部分区域从图片中覆盖白色方块进行遮挡。此外，others 类别也被忽略。因此对于实际训练，有效类别共有 10 类：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的 YOLO 格式的类别顺序为上述顺序。原始数据集为 jpg+txt 文件，这里的 txt 不是 yolo 训练可用的 txt 文件，需要对数据处理后才能使用。

训练与评估

训练使用原图进行训练，整体精度在 0.4 左右。覆盖了白色方块的图片可用于特定场景下的精度测试。

下载资源

下载数据集可以访问官网获取原始数据集：Github

无人机视觉目标检测数据集 VisDrone 介绍