目标检测数据集——无人机视觉VisDrone数据集

优质文章学习记录

10 Apr 2026 — 4 min read

随着无人机技术的飞速发展，无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时，无人机视角下的视觉任务，如目标检测、目标跟踪和场景理解，也成为了计算机视觉研究的热点。然而，相比传统的地面视角数据集，无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战，这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展，天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集，VisDrone 不仅涵盖了丰富的场景和多样化的目标类别，还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升，还是密集场景下的鲁棒性优化，VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市，覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问：

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train，VisDrone2019-DET-val，VisDrone2019-DET-test-dev均含有标注，VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

训练集：6,471张图像
验证集：548张图像
测试集：1610张图像

下载下来的原始数据集为jpg+txt文件，这里的txt不是yolo训练可用的txt文件，需要对数据处理后才能使用。这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹，分别为原图和覆盖白色方块的图，可自行选择使用。

官方共有12个分类，分别为：

其中ignored regions为忽略的区域，有些区域包含了密集的很小的目标，无法进行标注的，所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片，需要用哪个可自行选择使用。

others忽略掉，因此转换后的类别共有10类，分别为：

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练，整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集：Github

需要处理后的数据集可通过 V🔍：笑脸惹桃花获取。

机器人操作VLA模型的强化学习：综述

25年12月来自新加坡南洋理工、北邮和清华的论文“A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation”。构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉-语言-动作模型（VLA）得到显著推进。VLA利用大规模预训练，通过模仿学习获取通用的视觉运动先验知识。然而，目前的预训练VLA仍需微调才能适应实际部署，因为传统的模仿学习由于依赖于状态和动作覆盖范围有限的已收集数据集，难以实现分布外（OOD）泛化。强化学习（RL）利用自探索和结果驱动优化来增强VLA的OOD泛化能力。本文概述RL如何弥合预训练和实际部署之间的差距，并全面介绍RL-VLA的训练范式。分类体系围绕四个核心维度展开，反映从学习到部署的完整生命周期：RL-VLA架构、训练范式、实际部署以及基准测试和评估。首先，介绍RL-VLA组件的关键设计原则，包括动作、奖励和转换建模。其次，回顾在线、离线和测试时RL范式，分析它们在提升VLA泛化能力方面的有效性和挑战。第三，考察实际部署框架，从仿

74个低空无人机AI算法详解，总体精度达90%，公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

公安执法一、人员智能识别与管控聚焦人员相关的身份、行为、状态识别，核心服务于治安防控、人群管理、突发事件处置，是公安基层执法的核心应用方向： 1. 人员识别/计数：支持复杂场景（人群聚集、遮挡、移动）下的人员精准检测与数量统计，实时反馈人群密度，为大型活动安保、人群聚集风险管控提供数据支撑； 2. 人员异常聚焦识别：识别人员突然聚集、徘徊、逃窜、翻越护栏等异常行为，快速锁定可疑区域，触发执法预警； 3. 打架斗殴识别：精准检测肢体冲突、推搡、殴打等暴力行为，毫秒级触发预警并定位事发位置，助力执法人员快速处置，减少冲突升级； 4. 重点人员监控识别：对接公安重点人员数据库，通过人脸识别算法实现低空移动场景下的重点人员精准匹配与轨迹追踪，支持跨区域、动态化管控； 5. 人员属性识别：识别人员性别、年龄段、衣着特征、是否携带疑似管制器具 / 大件物品等属性信息，

2026年时序分类综述论文阅读

论文链接：A comprehensive review of time series classification: Traditional, deep learning, and few-shot learning Methods - ScienceDirect 时间序列分类的综合综述：传统、深度学习与少样本学习方法 [1] Wang P, Wu X, Song Yafei et al. A comprehensive review of time series classification: Traditional, deep learning, and few-shot learning methods[J]. Comput. Sci. Rev., 2026, 61: 100953.

机器人建模（URDF）与仿真配置

在我们搭建好了开发环境之后，下一步就是赋予机器人“身体”。URDF 就是这个身体的蓝图，而仿真配置则是让这个身体在虚拟世界中“活过来”的关键一步。 📝 第一部分：URDF——机器人的“骨骼”与“皮肤” URDF 的核心是描述机器人的运动学与动力学属性，它由一套 XML 标签构成。核心构成要素建模的两种主流方式 1. 从零编写（学习/简单模型）： * 使用文本编辑器或 VS Code 直接编写 URDF/Xacro 文件。 * 黄金教程：官方 urdf_tutorial 包提供了从视觉、碰撞属性到使用 Xacro 宏语言优化代码的完整指南。推荐按照 “视觉 -> 可动 -> 物理属性 ->

Read more

机器人操作VLA模型的强化学习：综述

74个低空无人机AI算法详解，总体精度达90%，公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

2026年时序分类综述论文阅读

机器人建模（URDF）与仿真配置