无人机视觉目标检测数据集 VisDrone 详解与预处理

无人机视觉目标检测数据集——VisDrone

随着无人机技术的飞速发展，其在航拍、监控、农业及物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、跟踪和场景理解，已成为计算机视觉研究的热点。然而，相比传统地面视角，无人机图像具有高度变化、小目标密集、背景复杂等独特挑战，这对现有算法提出了更高要求。

数据集概述

为应对上述挑战，天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。这是一个大规模、标注精细的无人机视觉数据集，涵盖丰富场景和多样化目标类别，为学术界和工业界提供了极具挑战性的测试平台。

该数据集采集自中国 14 个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。官方提供的数据包含以下部分：

训练集：6,471 张图像
验证集：548 张图像
测试集：1,610 张图像（含 test-dev 和 test-challenge）

VisDrone 数据集概览

原始下载的数据包中，VisDrone2019-DET-train、VisDrone2019-DET-val 和 VisDrone2019-DET-test-dev 均含有标注，而 test-challenge 不含标注。原始格式为 JPG 图片加 TXT 标注文件，但需注意，这里的 TXT 并非直接可用于 YOLO 训练的格式，通常需要进行格式转换。

类别定义与预处理

VisDrone 官方定义了 12 个分类。其中 ignored regions 表示忽略区域，这些区域通常包含密集且极小的目标，难以进行精确标注。在实际处理中，建议将这些区域从图片中用白色方块遮挡，以避免干扰模型训练。

忽略区域遮挡效果

经过处理后的标注框效果如下：

带白色方块及标注框效果

此外，others 类别通常也被忽略。因此，转换后的有效类别共有 10 类，顺序如下：

["pedestrian", "people", "bicycle", "car", "van",

无人机视觉目标检测数据集 VisDrone 详解与预处理