无人机 RGB+ 红外双模态小目标行人检测系统构建指南 | 极客日志

PythonAI算法

无人机 RGB+ 红外双模态小目标行人检测系统构建指南

无人机 RGB+ 红外双模态小目标行人检测系统利用 6125 对同步图像数据，涵盖 70880 个行人实例。本文介绍基于 YOLOv8 的早期融合方案，通过自定义数据加载器支持 4 通道输入，实现训练、推理及可视化全流程。重点解决远距离、夜间及小尺度行人的检测难题，提供从数据预处理到模型部署的完整代码参考。

灰度发布发布于 2026/4/7更新于 2026/5/2513 浏览

无人机 RGB+ 红外双模态小目标行人检测系统

数据集概览

本方案基于无人机视角下的 RGB+ 红外（RGBT）对齐行人小目标检测数据集。该数据集专为挑战性极高的低空安防、应急搜救等场景设计，特别适合评估模型在远距离、小尺度及复杂光照（含夜间）条件下的鲁棒性。

核心参数

项目	内容
任务类型	小目标行人检测（Tiny Person Detection）
采集平台	无人机搭载 RGB + 热红外双光相机
采集高度	50 – 80 米
俯视角	45° – 60° 斜向俯拍
图像分辨率	640 × 512 像素（严格对齐）
数据规模	6,125 对图像（4,900 train / 1,225 test）
标注实例	70,880 个行人框（平均约 11.6 个/图）
目标特点	小目标为主（<32×32 像素），含遮挡、密集、夜间场景

系统架构与代码实现

由于 Ultralytics YOLOv8 原生不支持直接输入双模态数据，我们采用早期融合（Early Fusion）策略，将 RGB 与红外图拼接为 4 通道输入，并微调模型结构。

1. 项目结构

DroneRGBT_Detection/
├── datasets/
│   ├── images/
│   │   ├── train/ # 存放融合后的 4 通道 .npy
│   │   └── val/
│   └── labels/
│       ├── train/
│       └── val/
├── models/
│   └── yolov8s-rgbt.yaml
├── tools/
│   ├── fuse_rgb_thermal.py
│   └── create_labels.py
├── train.py
├── detect.py
└── rgbt_drone.yaml

2. 图像融合预处理

我们需要编写脚本将同步的 RGB 和热红外图像合并为 4 通道张量。注意处理单通道红外图的扩展。

# tools/fuse_rgb_thermal.py
import os
 cv2
 numpy  np

 ():
    os.makedirs(output_dir, exist_ok=)
    rgb_files = (os.listdir(rgb_dir))
    
     rgb_file  rgb_files:
          rgb_file.lower().endswith((, )):
            
        
        thermal_file = rgb_file
        rgb_path = os.path.join(rgb_dir, rgb_file)
        thermal_path = os.path.join(thermal_dir, thermal_file)
        
        rgb = cv2.imread(rgb_path)  
        thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)  
        
         rgb    thermal  :
            ()
            
        
        
        thermal = np.expand_dims(thermal, axis=)  
        fused = np.concatenate([rgb, thermal], axis=)  
        
        
        np.save(os.path.join(output_dir, rgb_file.replace(, )), fused)

 __name__ == :
    fuse_rgb_thermal(
        rgb_dir=,
        thermal_dir=,
        output_dir=
    )

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# models/yolov8s-rgbt.yaml
nc: 1
scales: [0.33, 0.50]
backbone:
  - [-1, 1, Conv, [64, 3, 2]]  # Input must be 4-channel!
  - [-1, 1, Conv, [128, 3, 2]]
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]
  - [-1, 3, C2f, [512]]
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]
  - [-1, 3, C2f, [256]]
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]
  - [-1, 3, C2f, [512]]
  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]
  - [-1, 3, C2f, [1024]]
  - [[15, 18, 21], 1, Detect, [nc]]

# rgbt_drone.yaml
train: ./datasets/images/train
val: ./datasets/images/val
nc: 1
names: ['person']

# train.py
from ultralytics import YOLO
from ultralytics.data.dataset import YOLODataset
import torch
import numpy as np
from pathlib import Path

# 保存原始方法以便回退
YOLODataset._orig_load_image = YOLODataset.load_image
YOLODataset._orig_get_label_file = YOLODataset.get_label_file

def load_image_npy(self, i):
    f = self.im_files[i]
    if f.endswith('.npy'):
        im = np.load(f)  # (H, W, 4)
        im = im.transpose(2, 0, 1)  # (4, H, W)
        im = torch.from_numpy(im).float()
        h, w = im.shape[1], im.shape[2]
        return im, h, w
    else:
        return self._orig_load_image(i)

def get_label_file_npy(self, img_path):
    return str(Path(img_path).with_suffix('.txt'))

# 应用补丁
YOLODataset.load_image = load_image_npy
YOLODataset.get_label_file = get_label_file_npy

if __name__ == '__main__':
    model = YOLO('models/yolov8s-rgbt.yaml')
    # 如需迁移学习，可加载预训练权重并手动替换首层 conv
    # model = YOLO('yolov8s.pt')
    # model.model.model[0].conv = torch.nn.Conv2d(4, 64, 3, 2, 1)
    
    model.train(
        data='rgbt_drone.yaml',
        epochs=100,
        imgsz=512,
        batch=16,
        name='drone_rgbdet',
        project='runs',
        device=0,
        cache=False,
        workers=4
    )

# detect.py
import torch
import numpy as np
import cv2
from ultralytics import YOLO

model = YOLO('runs/drone_rgbdet/weights/best.pt')

def detect_rgbd_pair(rgb_path, thermal_path):
    rgb = cv2.imread(rgb_path)
    thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)
    
    thermal = np.expand_dims(thermal, axis=2)
    fused = np.concatenate([rgb, thermal], axis=2)
    fused = fused.transpose(2, 0, 1)
    fused = torch.from_numpy(fused).float().unsqueeze(0) / 255.0
    
    results = model(fused, augment=True)
    annotated = results[0].plot()
    
    cv2.imshow('Detection', annotated)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

if __name__ == '__main__':
    detect_rgbd_pair('test/rgb/001.jpg', 'test/thermal/001.jpg')

无人机 RGB+ 红外双模态小目标行人检测系统构建指南

无人机 RGB+ 红外双模态小目标行人检测系统

数据集概览

核心参数

系统架构与代码实现

1. 项目结构

2. 图像融合预处理

更多推荐文章

相关免费在线工具

3. 自定义 YOLOv8 模型配置

4. 数据集配置与加载器

5. 推理与可视化

部署建议

更多推荐文章

相关免费在线工具

无人机 RGB+ 红外双模态小目标行人检测系统构建指南

无人机 RGB+ 红外双模态小目标行人检测系统

数据集概览

核心参数

系统架构与代码实现

1. 项目结构

2. 图像融合预处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 自定义 YOLOv8 模型配置

4. 数据集配置与加载器

5. 推理与可视化

部署建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具