Yolo11 基于 DroneVehicle 数据集的无人机视角下车辆目标检测 | 极客日志

PythonAI算法

Yolo11 基于 DroneVehicle 数据集的无人机视角下车辆目标检测

无人机车辆目标检测使用 DroneVehicle 数据集，涵盖 RGB 与红外图像。流程包括数据预处理、标签格式转换及模型训练。需去除图像四周 100 像素白边并调整尺寸为 640x512。标签从 COCO 转为 VOC 再转 YOLO 格式，需处理边界框超出图片范围导致的坐标异常。采用 YOLO11s 网络进行训练，验证集可视化显示效果良好。注意斜视视角及红外融合检测效果待进一步验证。

DotNetGuy发布于 2026/4/10更新于 2026/7/627 浏览

1、关于 DroneVehicle 数据集介绍

DroneVehicle 数据集是由天津大学收集、标注的大型无人机航拍车辆数据集。 DroneVehicle 数据集由无人机采集的共 56,878 幅图像组成，其中一半为 RGB 图像，其余为红外图像。我们对五个类别进行了带有方向性边界框的丰富标注。其中，汽车 car 在 RGB 图像中有 389,779 个标注，在红外图像中有 428,086 个标注；卡车 truck 在 RGB 图像中有 22,123 个标注，在红外图像中有 25,960 个标注；公交车 bus 在 RGB 图像中有 15,333 个标注，在红外图像中有 16,590 个标注；面包车 van 在 RGB 图像中有 11,935 个标注，在红外图像中有 12,708 个标注；货车 freight car 在 RGB 图像中有 13,400 个标注，在红外图像中有 17,173 个标注。

2、DroneVehicle 数据集下载

参见作者 Github：https://github.com/VisDrone/DroneVehicle

3、DroneVehicle 数据集处理

在 DroneVehicle 中，为了标注图片边界上的物体，作者在每张图片的上下左右四边设置了宽度为 100 像素的白色边框，这样下载的图片尺寸就是 840 x 712。在训练我们的检测网络时，我们可以进行预处理，去除周围的白色边框，并将图像尺寸改为 640 x 512。

（图示：去除白边前后的图像尺寸变化）

处理前后对比。

去除白边代码：

import numpy as np
import cv2
import os
from tqdm import tqdm

def create_file(output_dir_vi, output_dir_ir):
    if not os.path.exists(output_dir_vi):
        os.makedirs(output_dir_vi)
    if not os.path.exists(output_dir_ir):
        os.makedirs(output_dir_ir)
    print(f'Created folder:({output_dir_vi}); ({output_dir_ir})')

def update(input_img_path, output_img_path):
    image = cv2.imread(input_img_path)
    cropped = image[100:612, 100:740] # 裁剪坐标为 [y0:y1, x0:x1]
    cv2.imwrite(output_img_path, cropped)

dataset_dir_vi = r'valimg' # 处理前可见光图片目录
output_dir_vi = r'valimg2' 
dataset_dir_ir =  
output_dir_ir =  


create_file(output_dir_vi, output_dir_ir)


image_filenames_vi = [(os.path.join(dataset_dir_vi, x), os.path.join(output_dir_vi, x))  x  os.listdir(dataset_dir_vi)]
image_filenames_ir = [(os.path.join(dataset_dir_ir, x), os.path.join(output_dir_ir, x))  x  os.listdir(dataset_dir_ir)]


()
 path  tqdm(image_filenames_vi):
    update(path[], path[])

()
 path  tqdm(image_filenames_ir):
    update(path[], path[])

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import xml.etree.ElementTree as ET
import shutil
import os
import imagesize

# 定义识别目标或类集合
object = 'datasets'

# 根据自定义的数据集名称
if os.path.exists("./%s/labels/" % object):
    shutil.rmtree("./%s/labels/" % object)
os.makedirs("./%s/labels/" % object)
else:
    os.makedirs("./%s/labels/" % object)

sets = ['train', 'val'] # 修改类别 (自定义)
classes = ["car", "truck", "bus", "van", "freight_car"]

def convert(size, box):
    # 坐标信息归一化至 0-1
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)

def convert_annotation(image_id):
    in_file = open('./%s/xml/%s.xml' % (object, image_id))
    out_file = open('./%s/labels/%s.txt' % (object, image_id), 'w')
    image_file = open('./%s/images/%s.jpg' % (object, image_id))
    
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    # 这里的 width 和 height 在 Autolabelimg 下自动标注可能会被修改，需替换成图片的真实宽高
    # w = int(size.find('width').text)
    # h = int(size.find('height').text)
    w, h = imagesize.get(image_file.name)
    
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        xmin = float(xmlbox.find('xmin').text)
        xmin = xmin if xmin >= 0 else 0.0 # 左上角 x 坐标如果小于 0 都化成 0
        xmax = float(xmlbox.find('xmax').text)
        xmax = xmax if xmax <= w else float(w) # 右下角 x 坐标如果大于图片宽度了都为图片宽度值
        ymin = float(xmlbox.find('ymin').text)
        ymin = ymin if ymin >= 0 else 0.0 # 左上角 y 坐标如果小于 0 都化成 0
        ymax = float(xmlbox.find('ymax').text)
        ymax = ymax if ymax <= h else float(h) # 右下角 y 坐标如果大于图片高度了都为图片高度值
        b = (xmin, xmax, ymin, ymax)
        bb = convert((w, h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

for image_set in sets:
    if not os.path.exists('./%s/labels/' % object):
        os.makedirs('./%s/labels/' % object)
    image_ids = open('./%s/ImageSets/%s.txt' % (object, image_set)).read().strip().split()
    list_file = open('./%s/%s.txt' % (object, image_set), 'w')
    for image_id in image_ids:
        list_file.write('./images/%s.jpg\n' % (image_id))
    convert_annotation(image_id)
    list_file.close()

Yolo11 基于 DroneVehicle 数据集的无人机视角下车辆目标检测

1、关于 DroneVehicle 数据集介绍

2、DroneVehicle 数据集下载

3、DroneVehicle 数据集处理

更多推荐文章

相关免费在线工具

4、制作 Yolo 目标检测需要的数据集文件

4.1、下载 DroneVehicle 的 coco 格式的检测框标签文件

4.2、通过标注软件将 coco 格式的标签文件转为 VOC 格式的标签文件

4.3、处理 VOC 格式的标签文件并转成 Yolo 格式的标签文件

4.4、按上述步骤处理 train、val、test 三个数据集文件

5、在 Yolo11 网络中训练

6、使用训练好的模型进行预测

7、总结与注意事项

更多推荐文章

相关免费在线工具

Yolo11 基于 DroneVehicle 数据集的无人机视角下车辆目标检测

1、关于 DroneVehicle 数据集介绍

2、DroneVehicle 数据集下载

3、DroneVehicle 数据集处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4、制作 Yolo 目标检测需要的数据集文件

4.1、下载 DroneVehicle 的 coco 格式的检测框标签文件

4.2、通过标注软件将 coco 格式的标签文件转为 VOC 格式的标签文件

4.3、处理 VOC 格式的标签文件并转成 Yolo 格式的标签文件

4.4、按上述步骤处理 train、val、test 三个数据集文件

5、在 Yolo11 网络中训练

6、使用训练好的模型进行预测

7、总结与注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具