无人机视觉挑战与 VisDrone 简介
随着无人机技术的普及,航拍、监控、农业及物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、跟踪和场景理解,已成为计算机视觉研究的热点。然而,相比传统地面视角,无人机图像具有高度变化快、小目标密集、背景复杂等独特挑战,这对现有算法的鲁棒性提出了更高要求。
为应对这些挑战,天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。这是一个大规模、标注精细的无人机视觉数据集,涵盖了丰富的城市场景、交通枢纽及密集人群环境。无论是提升小目标检测精度,还是优化密集场景下的模型表现,VisDrone 都成为了学术界和工业界不可或缺的资源。

数据集结构与统计
官方提供了多个数据子集,可通过 GitHub 获取原始资源:
https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file
其中包含以下主要部分(均含标注):
- 训练集:6,471 张图像
- 验证集:548 张图像
- 测试集:1,610 张图像
注意:VisDrone2019-DET-test-challenge 不含标注,通常用于离线评测,不在常规训练处理范围内。
类别定义与忽略区域处理
原始数据集共有 12 个分类。在实际应用中,部分区域因包含极度密集且难以标注的小目标,被标记为 ignored regions(忽略区域)。为了避免干扰模型学习,这部分内容通常通过覆盖白色方块进行遮挡处理。


去除 ignored regions 及 others 后,有效类别缩减为 10 类。转换为 YOLO 格式时,类别顺序建议如下:
["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]
格式转换与训练建议
下载下来的原始数据通常为 JPG 图片配合 TXT 标注文件,但原始 TXT 并非直接可用的 YOLO 格式,需经过坐标归一化及类别映射等预处理步骤。
在训练策略上,通常有两种选择:使用原图或覆盖白色方块的预处理图。实际经验表明,使用原图训练可获得基准精度(mAP 约 0.4 左右),而采用遮挡处理后的版本则可能进一步减少误检。具体效果需结合项目需求自行评估。
下图展示了训练过程中部分图像的可视化效果:




