构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 无人机视角下RGB+红外对齐行人小目标检测数据集 航拍无人机多模态行人检测数据集 红外可见光行人检测数据集

构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 无人机视角下RGB+红外对齐行人小目标检测数据集 航拍无人机多模态行人检测数据集 红外可见光行人检测数据集

无人机视角下RGB+红外对齐行人小目标检测数据集
模态与视角:无人机搭载 RGBT 双光相机,从 50–80 m 高度、45°–60° 俯视角采集,同步 RGB + 热红外图像对。
规模:6,125 对图像(4,900 train / 1,225 test),分辨率 640×512,共 70,880 个行人实例。
任务:专门面向 tiny person detection 的无人机 RGBT 检测 benchmark。

在这里插入图片描述


1

在这里插入图片描述


1

在这里插入图片描述


以下是 无人机视角下 RGB+红外对齐行人小目标检测数据集 的详细信息整理成表格:


📊 无人机 RGBT 行人小目标检测数据集概览表

项目内容
数据集名称DroneRGBT-Pedestrian(或自定义命名)
任务类型小目标行人检测(Tiny Person Detection)
应用场景低空安防、应急搜救、智慧城市、边境巡检、夜间监控
采集平台无人机(UAV)搭载 RGB + 热红外(Thermal)双光相机
模态双模态同步图像对
• 可见光(RGB)
• 热红外(Infrared / Thermal)
采集高度50 – 80 米
俯视角45° – 60° 斜向俯拍
图像分辨率640 × 512 像素(RGB 与红外严格对齐)
图像对数量6,125 对(每对含 1 张 RGB + 1 张红外图)
数据划分- 训练集(train):4,900 对
- 测试集(test):1,225 对
标注格式支持 YOLO / COCO / VOC 等(通常提供边界框 .txt.json
目标类别1 类:行人(Person)
总实例数70,880 个行人标注框(平均每个图像约 11.6 个目标)
目标特点- 小目标为主(多数 < 32×32 像素)
- 包含遮挡、密集、远距离、夜间/低照度场景
- 红外模态增强弱光/夜间检测能力
对齐方式像素级空间对齐(经标定与配准,RGB 与红外图一一对应)
适用模型- 单模态:YOLOv8(RGB 或 Thermal)
- 多模态融合:Fusion-YOLO、CFT、MFFNet、GLAD 等 RGBT 检测模型
用途• 无人机小目标检测 benchmark
• 多模态特征融合研究
• 跨模态对齐与迁移学习

该数据集专为 挑战性极高的无人机小行人检测任务 设计,特别适合评估模型在 远距离、小尺度、复杂光照(含夜间) 条件下的鲁棒性。

以下是构建 基于无人机 RGB+红外(RGBT)双模态小目标行人检测系统 的完整代码方案,采用 YOLOv8 多模态融合架构(简化版),支持训练、推理与可视化。由于 Ultralytics YOLOv8 原生不直接支持双模态输入,我们将通过 早期融合(Early Fusion) 方式将 RGB 与红外图拼接为 4 通道输入,并微调模型。

💡 注:本方案适用于科研/工程落地,可作为 benchmark 系统基础。

📁 一、项目结构

DroneRGBT_Detection/ ├── datasets/ │ ├── images/ │ │ ├── train/ # 存放融合后的 4 通道 .npy 或拼接图 │ │ └── val/ │ └── labels/ │ ├── train/ │ └── val/ ├── models/ │ └── yolov8s-rgbt.yaml # 自定义 4 通道输入模型配置 ├── tools/ │ ├── fuse_rgb_thermal.py # 将 RGB + 红外融合为 4 通道图像 │ └── create_labels.py # (若需从原始标注生成 YOLO 格式) ├── train.py # 训练脚本 ├── detect.py # 推理脚本(支持单图/视频) └── rgbt_drone.yaml # 数据集配置文件

🔧 二、1. 融合 RGB + 红外图像(fuse_rgb_thermal.py

# tools/fuse_rgb_thermal.pyimport os import cv2 import numpy as np deffuse_rgb_thermal(rgb_dir, thermal_dir, output_dir): os.makedirs(output_dir, exist_ok=True) rgb_files =sorted(os.listdir(rgb_dir))for rgb_file in rgb_files:ifnot rgb_file.lower().endswith(('.jpg','.png')):continue thermal_file = rgb_file # 假设文件名一致 rgb_path = os.path.join(rgb_dir, rgb_file) thermal_path = os.path.join(thermal_dir, thermal_file) rgb = cv2.imread(rgb_path)# (H, W, 3) thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)# (H, W)if rgb isNoneor thermal isNone:print(f"Skip {rgb_file}")continue# 调整 thermal 到 3 通道(可选)或保留单通道 thermal = np.expand_dims(thermal, axis=2)# (H, W, 1) fused = np.concatenate([rgb, thermal], axis=2)# (H, W, 4)# 保存为 .npy(推荐)或拼接图(如用 4 通道 TIFF) np.save(os.path.join(output_dir, rgb_file.replace('.jpg','.npy')), fused)# 示例使用if __name__ =='__main__': fuse_rgb_thermal( rgb_dir='raw_data/train/rgb', thermal_dir='raw_data/train/thermal', output_dir='datasets/images/train')
✅ 输出为 .npy 文件(含 4 通道),便于后续加载。

🛠️ 三、2. 自定义 YOLOv8 模型(4 通道输入)

创建 models/yolov8s-rgbt.yaml

# YOLOv8s for RGBT (4-channel input)nc:1# number of classesscales:[0.33,0.50]# model depth and width scalingbackbone:# [from, repeats, module, args]-[-1,1, Conv,[64,3,2]]# 0-P1/2 (input must be 4-channel!)-[-1,1, Conv,[128,3,2]]# 1-P2/4-[-1,3, C2f,[128,True]]-[-1,1, Conv,[256,3,2]]# 3-P3/8-[-1,6, C2f,[256,True]]-[-1,1, Conv,[512,3,2]]# 5-P4/16-[-1,6, C2f,[512,True]]-[-1,1, Conv,[1024,3,2]]# 7-P5/32-[-1,3, C2f,[1024,True]]-[-1,1, SPPF,[1024,5]]# 9head:-[-1,1, nn.Upsample,[None,2,'nearest']]-[[-1,6],1, Concat,[1]]# cat backbone P4-[-1,3, C2f,[512]]# 12-[-1,1, nn.Upsample,[None,2,'nearest']]-[[-1,4],1, Concat,[1]]# cat backbone P3-[-1,3, C2f,[256]]# 15 (P3/8-small)-[-1,1, Conv,[256,3,2]]-[[-1,12],1, Concat,[1]]# cat head P4-[-1,3, C2f,[512]]# 18 (P4/16-medium)-[-1,1, Conv,[512,3,2]]-[[-1,9],1, Concat,[1]]# cat head P5-[-1,3, C2f,[1024]]# 21 (P5/32-large)-[[15,18,21],1, Detect,[nc]]# Detect(P3, P4, P5)
⚠️ 关键修改:首层 Conv 输入通道自动适配 4 通道(无需改代码,PyTorch 自动推断)。

📂 四、3. 数据集配置(rgbt_drone.yaml

# rgbt_drone.yamltrain: ./datasets/images/train # 实际存放 .npy 路径val: ./datasets/images/val nc:1names:['person']
❗ 注意:Ultralytics 默认读取图像文件(.jpg/.png),但我们需要加载 .npy。因此需自定义数据加载器。

🧩 五、4. 自定义数据加载器(关键!)

train.py 中重写 load_image 行为(简化版):

# train.pyfrom ultralytics import YOLO import torch import numpy as np import os from pathlib import Path # 替换默认的图像加载方式defcustom_load_image(self, i):"""Load 4-channel .npy image""" path = self.files[i]if path.endswith('.npy'): img = np.load(path)# (H, W, 4) img = img.transpose(2,0,1)# (4, H, W) img = torch.from_numpy(img).float()return img, img.shape[1], img.shape[2]else:# fallbackreturn self._old_load_image(i)# Monkey patch(仅用于训练)from ultralytics.data.dataset import YOLODataset YOLODataset._old_load_image = YOLODataset.load_image YOLODataset.load_image = custom_load_image # 修改标签加载(确保 .txt 对应 .npy)defcustom_get_label_file(self, img_path):returnstr(Path(img_path).with_suffix('.txt')) YOLODataset.get_label_file = custom_get_label_file 
更稳健做法:继承 YOLODataset 并注册新类,但上述 monkey patch 可快速验证。

▶️ 六、5. 完整训练脚本(train.py

# train.py(完整版)from ultralytics import YOLO import torch import numpy as np from pathlib import Path # === 自定义数据加载(支持 .npy)===from ultralytics.data.dataset import YOLODataset defload_image_npy(self, i): f = self.im_files[i]if f.endswith('.npy'): im = np.load(f)# (H, W, 4) im = im.transpose(2,0,1)# (4, H, W) im = torch.from_numpy(im).float() h, w = im.shape[1], im.shape[2]return im, h, w else:return self._orig_load_image(i)defget_label_file_npy(self, img_path):returnstr(Path(img_path).with_suffix('.txt'))# Patch YOLODataset._orig_load_image = YOLODataset.load_image YOLODataset.load_image = load_image_npy YOLODataset.get_label_file = get_label_file_npy # === 开始训练 ===if __name__ =='__main__': model = YOLO('models/yolov8s-rgbt.yaml')# 从头训练# 或加载预训练权重(需修改首层 conv1.weight)# model = YOLO('yolov8s.pt')# model.model.model[0].conv = torch.nn.Conv2d(4, 64, 3, 2, 1) # 手动替换 model.train( data='rgbt_drone.yaml', epochs=100, imgsz=512, batch=16, name='drone_rgbdet', project='runs', device=0, cache=False, workers=4)

🔍 七、6. 推理脚本(detect.py

# detect.pyimport torch import numpy as np import cv2 from ultralytics import YOLO model = YOLO('runs/drone_rgbdet/weights/best.pt')defdetect_rgbd_pair(rgb_path, thermal_path): rgb = cv2.imread(rgb_path)# (H, W, 3) thermal = cv2.imread(thermal_path, cv2.IMREAD_GRAYSCALE)# (H, W) thermal = np.expand_dims(thermal, axis=2) fused = np.concatenate([rgb, thermal], axis=2)# (H, W, 4) fused = fused.transpose(2,0,1)# (4, H, W) fused = torch.from_numpy(fused).float().unsqueeze(0)/255.0# 归一化 results = model(fused, augment=True)# 可视化:叠加在 RGB 图上 annotated = results[0].plot() cv2.imshow('Detection', annotated) cv2.waitKey(0)# 示例 detect_rgbd_pair('test/rgb/001.jpg','test/thermal/001.jpg')

✅ 八、部署建议

方案说明
科研实验使用 .npy + 自定义 DataLoader
工程部署将 RGB + 红外拼接为 4 通道 TIFF / PNG(需扩展 OpenCV 支持)
加速推理导出 ONNX 后使用 TensorRT(需处理 4 通道输入)
替代融合策略中期融合(Two-Stream + 特征拼接)效果更佳,但需重写模型

Read more

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题

AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题 AI 的智能体专栏:手把手教你用豆包打造专属 Python 智能管家,轻松解决编程难题,本文介绍了如何利用豆包平台打造专属Python智能管家。首先简述豆包平台的核心优势,接着说明创建前的准备工作,包括注册账号、明确定位和收集训练资料。随后详细讲解创建流程,从新建智能体、基础设置、能力配置到测试优化,还提及集成代码执行环境等高级功能扩展,以及使用技巧与实际应用案例。该智能官能解决多种Python编程问题,可提升学习效率和问题解决速度,是实用的个性化编程助手。 前言     人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库,把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。无论你是刚接触 AI 的新手,还是有一定基础想提升的人,都能在这里找到合适的内容。从最基础的工具操作方法,到背后深层的技术原理,专栏都有讲解,还搭配了实例教程和实战案例。这些内容能帮助学习者一步步搭建完整的 AI 知识体系,让大家快速从入门进步到精通,

AI的提示词专栏:重构建议 Prompt,代码可读性提升

AI的提示词专栏:重构建议 Prompt,代码可读性提升

AI的提示词专栏:重构建议 Prompt,代码可读性提升 本文围绕重构建议 Prompt 在提升代码可读性中的应用展开,先明确代码可读性的五大评价维度(命名规范、函数设计、逻辑简化、注释完整性、代码复用)及量化标准,再构建基础版、进阶版、专家版三级 Prompt 设计框架,结合 Python、Java、JavaScript/TypeScript、Go 等主流语言特性提供适配技巧,还分析了 Prompt 使用中常见问题(如模型误解需求、方案不可执行)及解决方案。最后通过核心要点回顾、实践建议和不同难度的课后练习,形成 “问题识别 - Prompt 设计 - 方案落地 - 效果验证” 的全流程指南,助力开发者利用 Prompt 高效完成代码重构,平衡代码可读性与业务稳定性。 人工智能专栏介绍     人工智能学习合集专栏是

IDEA集成AI辅助工具推荐(好用不卡顿)

IDEA里集成AI工具,核心要满足上下文感知强、响应快、不卡顿、贴合编码流程。下面按「官方原生」「第三方爆款」「国产友好」分类,覆盖代码补全、生成、重构、调试全场景,附安装和使用要点。 一、官方原生:JetBrains AI Assistant(最省心,无适配问题) 核心定位:JetBrains官方出品,深度内嵌IDEA,和编码、重构、调试流程无缝贴合 核心亮点 * 上下文理解极强:读取项目代码结构、命名规范、依赖关系,生成代码更贴合项目风格 * 全流程AI辅助:代码补全/生成、解释代码、写注释、生成测试用例、优化提交信息、排查报错 * 无额外配置:登录JetBrains账号即可用,支持多语言,不占用过多内存 * 隐私友好:代码数据默认不上传,企业可本地化部署 适用人群

保姆级教程:从零搭建AI系统权限控制系统

保姆级教程:从零搭建AI系统权限控制系统

保姆级教程:从零搭建AI系统权限控制系统 手把手教你,如何在3小时内搭建完整的AI权限安全架构,避免Meta式的数据“裸奔”事故 前言:为什么要学这个? 2026年3月22日,Meta AI发生重大数据泄露事故——敏感数据“全员可见”2小时。如果你也正在开发AI项目,这种事故也可能发生在你身上。 本教程将带你从零开始,一步步搭建一个完整的、可实战的AI权限控制系统。无论你是个人开发者、小团队,还是大型AI项目,都能直接应用。 预计完成时间: 3小时 所需技能: 基础Python、Linux命令行、Git 第一阶段:准备工作(15分钟) 第1步:环境准备 # 1. 安装Python和相关依赖 pip install casbin flask sqlalchemy redis # 2. 安装数据库(推荐PostgreSQL) sudo apt-get install postgresql