YOLO11 基于 DroneVehicle 数据集的无人机视角车辆目标检测 | 极客日志

PythonAI算法

YOLO11 基于 DroneVehicle 数据集的无人机视角车辆目标检测

基于 DroneVehicle 数据集使用 YOLO11 进行无人机视角车辆目标检测的完整流程。内容包括数据集介绍与下载、图像预处理（去除白边）、标签格式转换（COCO 转 VOC 再转 YOLO）及坐标边界处理、数据集划分策略、模型训练配置及推理验证。重点解决了图像白边裁剪、标签坐标越界等常见问题，最终实现了可见光图像的车辆检测任务。

星星泡饭发布于 2026/4/6更新于 2026/7/2866 浏览

1. 关于 DroneVehicle 数据集介绍

DroneVehicle 数据集是由天津大学收集、标注的大型无人机航拍车辆数据集。该数据集由无人机采集的共 56,878 幅图像组成，其中一半为 RGB 图像，其余为红外图像。对五个类别进行了带有方向性边界框的丰富标注。其中，汽车 car 在 RGB 图像中有 389,779 个标注，在红外图像中有 428,086 个标注；卡车 truck 在 RGB 图像中有 22,123 个标注，在红外图像中有 25,960 个标注；公交车 bus 在 RGB 图像中有 15,333 个标注，在红外图像中有 16,590 个标注；面包车 van 在 RGB 图像中有 11,935 个标注，在红外图像中有 12,708 个标注；货车 freight car 在 RGB 图像中有 13,400 个标注，在红外图像中有 17,173 个标注。

2. DroneVehicle 数据集下载

参考官方 GitHub 仓库：https://github.com/VisDrone/DroneVehicle

3. DroneVehicle 数据集处理

在 DroneVehicle 中，为了标注图片边界上的物体，作者在每张图片的上下左右四边设置了宽度为 100 像素的白色边框，这样下载的图片尺寸就是 840 x 712。在训练检测网络时，可以进行预处理，去除周围的白色边框，并将图像尺寸改为 640 x 512。

文章配图

处理前后对比。

去除白边代码：

import numpy as np
import cv2
import os
from tqdm import tqdm

def create_file(output_dir_vi, output_dir_ir):
    if not os.path.exists(output_dir_vi):
        os.makedirs(output_dir_vi)
    if not os.path.exists(output_dir_ir):
        os.makedirs(output_dir_ir)
    print(f'Created folder:({output_dir_vi}); ({output_dir_ir})')

def update(input_img_path, output_img_path):
    image = cv2.imread(input_img_path)
    cropped = image[100:612, 100:740] # 裁剪坐标为 [y0:y1, x0:x1]
    cv2.imwrite(output_img_path, cropped)

dataset_dir_vi =  
output_dir_vi =  
dataset_dir_ir =  
output_dir_ir =  


create_file(output_dir_vi, output_dir_ir)


image_filenames_vi = [(os.path.join(dataset_dir_vi, x), os.path.join(output_dir_vi, x))  x  os.listdir(dataset_dir_vi)]
image_filenames_ir = [(os.path.join(dataset_dir_ir, x), os.path.join(output_dir_ir, x))  x  os.listdir(dataset_dir_ir)]


()
 path  tqdm(image_filenames_vi):
    update(path[], path[])
()
 path  tqdm(image_filenames_ir):
    update(path[], path[])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import xml.etree.ElementTree as ET
import shutil
import os
import imagesize

# 定义识别目标或类集合
object = 'datasets'
# 根据自定义的数据集名称
if os.path.exists("./%s/labels/" % object):
    # 如果文件存在
    shutil.rmtree("./%s/labels/" % object)
os.makedirs("./%s/labels/" % object)
else:
    os.makedirs("./%s/labels/" % object)

sets = ['train', 'val'] # 修改类别 (自定义)
classes = ["car", "truck", "bus", "van", "freight_car"]

def convert(size, box):
    # 坐标信息归一化至 0-1
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)

def convert_annotation(image_id):
    in_file = open('./%s/xml/%s.xml' % (object, image_id)) # xml 文件
    out_file = open('./%s/labels/%s.txt' % (object, image_id), 'w') # txt 文件
    image_file = open('./%s/images/%s.jpg' % (object, image_id)) # pic 文件
    print("in_file,", in_file)
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    # 这里的 width 和 height 在 Autolabelimg 下自动标注可能会被修改，需替换成图片的真实宽高
    # w = int(size.find('width').text)
    # h = int(size.find('height').text)
    w, h = imagesize.get(image_file.name)
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        xmin = float(xmlbox.find('xmin').text)
        xmin = xmin if xmin >= 0 else 0.0 # 左上角 x 坐标如果小于 0 都化成 0
        xmax = float(xmlbox.find('xmax').text)
        xmax = xmax if xmax <= w else float(w) # 右下角 x 坐标如果大于图片宽度了都为图片宽度值
        ymin = float(xmlbox.find('ymin').text)
        ymin = ymin if ymin >= 0 else 0.0 # 左上角 y 坐标如果小于 0 都化成 0
        ymax = float(xmlbox.find('ymax').text)
        ymax = ymax if ymax <= h else float(h) # 右下角 y 坐标如果大于图片高度了都为图片高度值
        b = (xmin, xmax, ymin, ymax)
        bb = convert((w, h), b) # 归一化
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

for image_set in sets:
    if not os.path.exists('./%s/labels/' % object):
        os.makedirs('./%s/labels/' % object)
    image_ids = open('./%s/ImageSets/%s.txt' % (object, image_set)).read().strip().split()
    list_file = open('./%s/%s.txt' % (object, image_set), 'w')
    for image_id in image_ids:
        list_file.write('./images/%s.jpg\n' % (image_id))
        # 要注意图片的后缀名是什么
        convert_annotation(image_id)
    list_file.close()

YOLO11 基于 DroneVehicle 数据集的无人机视角车辆目标检测

1. 关于 DroneVehicle 数据集介绍

2. DroneVehicle 数据集下载

3. DroneVehicle 数据集处理

更多推荐文章

相关免费在线工具

4. 制作 YOLO 目标检测需要的数据集文件

4.1. 下载 DroneVehicle 的 COCO 格式的检测框标签文件

4.2. 通过标注软件将 COCO 格式的标签文件转为 VOC 格式的标签文件

4.3. 处理 VOC 格式的标签文件并转成 YOLO 格式的标签文件

4.4. 按上述步骤处理 train、val、test 三个数据集文件

5. 在 YOLO11 网络中训练

6. 使用训练好的模型进行预测

7. 结语及注意事项

更多推荐文章

相关免费在线工具

YOLO11 基于 DroneVehicle 数据集的无人机视角车辆目标检测

1. 关于 DroneVehicle 数据集介绍

2. DroneVehicle 数据集下载

3. DroneVehicle 数据集处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 制作 YOLO 目标检测需要的数据集文件

4.1. 下载 DroneVehicle 的 COCO 格式的检测框标签文件

4.2. 通过标注软件将 COCO 格式的标签文件转为 VOC 格式的标签文件

4.3. 处理 VOC 格式的标签文件并转成 YOLO 格式的标签文件

4.4. 按上述步骤处理 train、val、test 三个数据集文件

5. 在 YOLO11 网络中训练

6. 使用训练好的模型进行预测

7. 结语及注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具