无人机视觉目标检测数据集 VisDrone 详解

随着无人机技术的飞速发展，其在航拍、监控、农业、物流等领域的应用日益广泛。无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，已成为计算机视觉研究的热点。相比传统地面视角，无人机图像具有高度变化、小目标密集、背景复杂等挑战。

为应对这些挑战，天津大学机器学习与数据挖掘实验室推出了 VisDrone 数据集。该数据集采集自中国 14 个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境，是学术界和工业界不可或缺的资源。

文章配图

官方提供以下数据集划分：

注：VisDrone2019-DET-test-challenge 不含标注。

原始数据集包含 jpg 图片和 xml 标注文件，需转换为 YOLO 格式方可用于训练。处理后的文件通常包含原图及覆盖白色方块的图片两种版本，用户可根据需求选择使用。

官方共有 12 个分类，其中 ignored regions 为忽略区域（包含密集微小目标无法标注），转换时将其从图片中覆盖白色方块遮挡，并从类别列表中移除。

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

去除忽略区域后，有效类别共 10 类，YOLO 格式类别顺序即为此顺序。

文章配图

下图展示了训练及验证过程中的部分图像示例。

文章配图

使用原图进行训练，整体精度在 0.4 左右。覆盖白色方块的图片精度可结合实际任务自行测试。

更多推荐文章