目标检测数据集——无人机视觉VisDrone数据集

目标检测数据集——无人机视觉VisDrone数据集

随着无人机技术的飞速发展,无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、目标跟踪和场景理解,也成为了计算机视觉研究的热点。然而,相比传统的地面视角数据集,无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战,这对现有算法提出了更高的要求。

为了应对这些挑战并推动无人机视觉技术的发展,天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集,VisDrone 不仅涵盖了丰富的场景和多样化的目标类别,还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升,还是密集场景下的鲁棒性优化,VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境。

VisDrone官方Github下载渠道可点击访问:

https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file

下载的数据集为VisDrone2019-DET-train,VisDrone2019-DET-val,VisDrone2019-DET-test-dev均含有标注,VisDrone2019-DET-test-challenge不含标注因此不在本文处理好的数据集中。

  • 训练集:6,471张图像
  • 验证集:548张图像
  • 测试集:1610张图像

下载下来的原始数据集为jpg+txt文件,这里的txt不是yolo训练可用的txt文件,需要对数据处理后才能使用。 这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。图片有两个文件夹,分别为原图和覆盖白色方块的图,可自行选择使用。

官方共有12个分类,分别为:

其中ignored regions为忽略的区域,有些区域包含了密集的很小的目标,无法进行标注的,所以我们要把这个区域忽视掉。因此对于这部分内容我们将这个区域从图片中覆盖白色方块进行遮挡。效果如下图。

带有白色方块及标注框的效果如下图

同样我提供了覆盖白色方块的图片和未覆盖白色方块的图片,需要用哪个可自行选择使用。

others忽略掉,因此转换后的类别共有10类,分别为:

["pedestrian", "people", "bicycle", "car", "van", "truck", "tricycle", "awning-tricycle", "bus", "motor"]

即获取的YOLO格式的类别顺序为上述顺序。

下图为训练过程中部分图像

下图为验证过程中部分图像

训练使用原图进行训练,整体精度在0.4左右。覆盖了白色方块的精度可自行测试精度。

下载数据集可以访问官网获取原始数据集:Github

需要处理后的数据集可通过 V🔍:笑脸惹桃花 获取。

Read more

AtomGit首发模型深度评测:多模态能力与场景适配性实战分析

AtomGit首发模型深度评测:多模态能力与场景适配性实战分析

文章目录 * 每日一句正能量 * 前言 * 一、评测背景与方法论 * 1.1 评测动机 * 1.2 评测环境 * 1.3 评测框架 * 二、核心能力深度测试 * 2.1 文本生成质量评测 * 2.2 代码能力实测 * 2.3 逻辑推理能力 * 三、性能表现实测数据 * 3.1 响应延迟测试 * 3.2 长上下文处理能力 * 3.3 输出稳定性 * 四、场景适配性分析 * 4.1 中文场景优化 * 4.2 垂直领域表现 * 4.3 API易用性 * 五、综合评估与优化建议 * 5.

By Ne0inhk
【2026 最新】玩转 Obsidian 简约美化 + 插件推荐 + Git 多端同步全流程教程

【2026 最新】玩转 Obsidian 简约美化 + 插件推荐 + Git 多端同步全流程教程

前言 这篇文章分享我个人在 Windows 上把 Obsidian 打造成“简约但好用”的一套方案:主题美化、常用配置、插件推荐,以及用 Git 实现多端同步。 一、下载安装 Obsidian 下载安装可以查看我的这篇文章: 【2025 最新】最好用必备笔记软件 Obsidian 的下载安装与使用教程-ZEEKLOG博客https://blog.ZEEKLOG.net/2301_80035882/article/details/145573354?sharetype=blogdetail&sharerId=145573354&sharerefer=PC&sharesource=2301_80035882&spm=1011.2480.3001.8118 二、

By Ne0inhk
2025电赛E题开源:二维云台激光打靶系统全解析(基于STM32F407+K230)

2025电赛E题开源:二维云台激光打靶系统全解析(基于STM32F407+K230)

2025电赛E题:二维云台激光打靶系统全解析——基于STM32F407的视觉伺服控制 本文详细介绍2025年全国大学生电子设计竞赛E题《二维云台激光打靶系统》的完整实现方案。项目基于STM32F407微控制器,结合视觉追踪、PID控制、步进电机驱动等技术,实现高精度的激光自动瞄准与发射功能。 🎯 项目背景与意义 在自动化控制领域,视觉伺服系统是实现高精度定位与追踪的关键技术。本次分享的项目,源自 2025 年全国大学生电子设计竞赛的赛题,题目要求设计一套二维云台系统,需具备自动识别目标、控制激光精准命中的功能。 该项目历经多重挑战,最终斩获了广东省赛区的省一等奖。由于我在此次比赛中主要负责二维云台激光打靶系统的设计,因此仅针对 25 年电赛 e 题的瞄准模块部分进行解说,自动循迹小车的内容会略过。 这个项目的成功落地,既为电子设计竞赛提供了一套完整的参考方案,也为嵌入式视觉伺服系统的教学与研究提供了宝贵的实践案例。 📊 系统总体设计 系统架构图 二维云台激光打靶系统 ├── 感知层(视觉模块) │ ├── 摄像头采集 │ └── 目标坐标提取 ├── 控制层(主控板

By Ne0inhk
最强开源多模态大模型它来啦——一文详解Qwen3.5核心特性

最强开源多模态大模型它来啦——一文详解Qwen3.5核心特性

前言 各位小伙伴新年好!新的一年祝大家龙马精神、阖家幸福、身体健康、事业进步!2025 年 DeepSeek 发布的 DeepSeek-R1 模型震惊全球,此后国内各大厂商充分发挥“能征善战”的拼劲,纷纷选择重大节日推出新品。今年除夕夜,阿里 Qwen 团队再次放出大招——Qwen3.5 模型正式开源,为国产大模型阵营再添一员猛将。 Qwen3.5 是目前全球最强的原生多模态开源大模型,不仅支持图片和视频的多模态输入,在对话、推理、编程、Agent 构建等方面也样样精通。其综合能力已达到 GPT-5.2、Gemini 3.0 Pro 的平均水平,推理能力尤为突出。例如那道曾让无数模型“翻车”的逻辑题——“50 米距离该走路还是开车去洗车”,Qwen3.5 也能轻松作答。

By Ne0inhk