DEIM 实时目标检测算法与 Visdrone2019 数据集实战

一、论文解析

DEIM（DETR with Improved Matching for Fast Convergence）是一篇关于加速基于 Transformer 架构（DETR）的实时目标检测的训练框架的论文。以下是该论文的详细解析：

1 研究背景

目标检测是计算机视觉中的一个基本任务，广泛应用于自动驾驶、机器人导航等领域。实时目标检测要求模型不仅能精准检测目标，还要以极低的延迟运行。DETR（Detection Transformer）是一种基于 Transformer 的端到端目标检测框架，通过使用匈牙利算法进行一对一（O2O）匹配，消除了对手工设计的非极大值抑制（NMS）的需求，但其收敛速度慢成为一大挑战。

2 研究问题

DETR 模型在训练过程中存在慢收敛的问题，主要原因是其一对一（O2O）匹配机制导致正样本数量稀少，且存在大量低质量匹配。这限制了模型的有效学习，尤其是对小目标的检测。

3 解决方案

为了解决上述问题，DEIM 提出了以下两个主要策略：

密集 O2O 匹配（Dense O2O）：通过增加每张图像中的目标数量，生成更多的正样本，从而提供更密集的监督信号，加速模型收敛。这可以通过经典的数据增强技术（如马赛克和混合）轻松实现，这些技术在保持一对一匹配框架的同时，每张图像生成额外的正样本。

匹配感知损失（MAL, Matchability-Aware Loss）：一种新的损失函数，优化不同质量级别的匹配，特别是低质量匹配，提升模型性能。 MAL 通过将匹配查询与目标之间的 IoU（交并比）与分类置信度结合，根据匹配质量调整惩罚。相比传统的 Varifocal Loss（VFL），MAL 在处理低质量匹配时更有效，特别是在训练的早期阶段。