无人机视觉目标检测数据集 VisDrone 详解与格式转换

随着无人机技术的普及，航拍、监控、农业及物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、跟踪和场景理解，已成为计算机视觉研究的热点。然而，相比传统地面视角，无人机图像具有高度变化快、小目标密集、背景复杂等独特挑战，这对现有算法的鲁棒性提出了更高要求。

为应对这些挑战，天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。这是一个大规模、标注精细的无人机视觉数据集，涵盖了丰富的城市场景、交通枢纽及密集人群环境。无论是提升小目标检测精度，还是优化密集场景下的模型表现，VisDrone 都成为了学术界和工业界不可或缺的资源。

文章配图

官方提供了多个数据子集，可通过 GitHub 获取原始资源：

其中包含以下主要部分（均含标注）：

注意：VisDrone2019-DET-test-challenge 不含标注，通常用于离线评测，不在常规训练处理范围内。

原始数据集共有 12 个分类。在实际应用中，部分区域因包含极度密集且难以标注的小目标，被标记为 ignored regions（忽略区域）。为了避免干扰模型学习，这部分内容通常通过覆盖白色方块进行遮挡处理。

文章配图

去除 ignored regions 及 others 后，有效类别缩减为 10 类。转换为 YOLO 格式时，类别顺序建议如下：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

下载下来的原始数据通常为 JPG 图片配合 TXT 标注文件，但原始 TXT 并非直接可用的 YOLO 格式，需经过坐标归一化及类别映射等预处理步骤。

在训练策略上，通常有两种选择：使用原图或覆盖白色方块的预处理图。实际经验表明，使用原图训练可获得基准精度（mAP 约 0.4 左右），而采用遮挡处理后的版本则可能进一步减少误检。具体效果需结合项目需求自行评估。

下图展示了训练过程中部分图像的可视化效果：

文章配图

更多推荐文章