主要内容
一、论文解析 二、基于 DEIM-D-FINE-S 训练 VisDrone2019 无人机数据集
服务器:NVIDIA RTX4090 24G 运行环境:Python=3.8(要求>=3.8),torch2.3.1+cu121(要求>=2.0.1) Visdrone2019-COCO 格式数据集下载链接:https://aistudio.baidu.com/datasetdetail/226107/0 Visdrone-YOLO 格式数据集下载链接:https://aistudio.baidu.com/datasetdetail/295374
arXiv: https://arxiv.org/abs/2412.04234 Project webpage: https://www.shihuahuang.cn/DEIM/ GitHub: https://github.com/ShihuaHuang95/DEIM
训练和使用结果: (1)map50 高于 YOLOv8 将近 6 个点达 47%,训练显存占用较大,batchsize 为 8 需要 20G,训练速度比 YOLOv8 慢一倍,12 小时左右; (2)onnx 推理速度要慢于 YOLOv8,需要 9-10ms; (3)检出率比较高,但是误检和同一个目标出现两个重叠框但不同类别现象较多。
一、论文解析
DEIM(DETR with Improved Matching for Fast Convergence)是一篇关于加速基于 Transformer 架构(DETR)的实时目标检测的训练框架的论文。以下是该论文的详细解析:
1 研究背景
目标检测是计算机视觉中的一个基本任务,广泛应用于自动驾驶、机器人导航等领域。实时目标检测要求模型不仅能精准检测目标,还要以极低的延迟运行。DETR(Detection Transformer)是一种基于 Transformer 的端到端目标检测框架,通过使用匈牙利算法进行一对一(O2O)匹配,消除了对手工设计的非极大值抑制(NMS)的需求,但其收敛速度慢成为一大挑战。
2 研究问题
DETR 模型在训练过程中存在慢收敛的问题,主要原因是其一对一(O2O)匹配机制导致正样本数量稀少,且存在大量低质量匹配。这限制了模型的有效学习,尤其是对小目标的检测。
3 解决方案
为了解决上述问题,DEIM 提出了以下两个主要策略:
密集 O2O 匹配(Dense O2O): 通过增加每张图像中的目标数量,生成更多的正样本,从而提供更密集的监督信号,加速模型收敛。 这可以通过经典的数据增强技术(如马赛克和混合)轻松实现,这些技术在保持一对一匹配框架的同时,每张图像生成额外的正样本。 匹配感知损失(MAL, Matchability-Aware Loss): 一种新的损失函数,优化不同质量级别的匹配,特别是低质量匹配,提升模型性能。 MAL 通过将匹配查询与目标之间的 IoU(交并比)与分类置信度结合,根据匹配质量调整惩罚。 相比传统的 Varifocal Loss(VFL),MAL 在处理低质量匹配时更有效,特别是在训练的早期阶段。

4 实验验证
在 COCO 数据集上的实验表明,DEIM 显著加速了 DETR 模型的收敛,减少了 50% 的训练时间,同时提升了检测精度。与现有的实时检测器(如 YOLO 系列和 RT-DETR)相比,DEIM 在性能和训练效率上均表现出色,尤其是在小目标检测方面有显著提升。


