概述
本文综述了自 2020 年至 2023 年,在小目标检测(Small Object Detection, SOD)领域中基于 Transformer 的深度学习方法的发展与应用。随着 Transformer 模型在计算机视觉领域的兴起,特别是在图像识别和物体检测方面展现出超越传统卷积神经网络(CNN)架构的性能,其在小目标检测任务中的优势引起了广泛关注。
小目标检测是计算机视觉中的一个核心难点。由于目标在图像中占据的像素极少,且容易受到背景干扰、遮挡以及尺度变化的影响,传统的检测方法往往难以提取有效的特征。作者通过梳理超过 60 项相关研究,构建了一个详细的分类体系,并对所选研究进行了综合评估,探讨了 Transformer 在 SOD 方面的优势及其背后的原因。
此外,文中还介绍了适用于 SOD 的大规模数据集,并对比分析了 Transformer 模型与其他方法(尤其是 CNN)在性能、参数量以及运行速度等方面的差异。通过这些分析,揭示了 Transformer 模型在处理小对象时能够提供更精确的位置信息和更好的上下文理解能力,从而在众多场景下提升了小对象的检测精度。同时,文中也指出了 Transformer 应用于 SOD 面临的挑战,并提出了一些可能的改进方向,为进一步的研究提供了参考。
背景
早期的 SOD 方法主要依赖于卷积神经网络(CNN),如 YOLO、SSD、RetinaNet 等。这些方法通过多尺度特征学习和上下文信息来提高检测性能。然而,CNN 固有的归纳偏置(Inductive Bias)和感受野限制使其在处理极小目标时存在局限性。随着网络层数的加深,特征图的下采样操作会导致小目标的特征信息丢失严重,使得检测器难以定位微小的目标。
Transformer 模型最初是为机器翻译而设计的,它通过自注意力机制(Self-Attention)来建模输入序列中的长距离依赖关系,无需像 CNN 那样依赖局部卷积核。后来,Transformer 被引入计算机视觉领域,并在图像识别任务中表现出色。其全局感受野特性使得模型能够捕捉到图像中任意两个位置之间的关联,这对于理解小目标与其周围环境的上下文关系至关重要。
两个早期的 Transformer 检测器是 DETR(DEtection TRansformer)和 ViT-FRCNN。DETR 通过全局匹配损失来减少对 CNN 后处理技术(如 NMS)的依赖,实现了端到端的检测;ViT-FRCNN 则利用预训练的 Vision Transformer (ViT) 在大型数据集上的性能来快速微调,展示了 Transformer 作为骨干网络的潜力。
基于 Transformer 的小对象检测方法
本文对基于 Transformer 的小目标检测方法进行了详细分类,主要包括对象表示、快速注意力机制、架构和模块修改、空间 - 时间信息、改进的特征表示、辅助技术以及全 Transformer 检测器。
对象表示技术
对象表示技术包括使用中心点、角点或点集来表示目标。传统的 Anchor-based 方法需要预设大量锚框,而 Anchor-free 方法则直接回归关键点。在 Transformer 架构中,Query 的设计尤为关键。一些方法尝试将 Query 设计为可学习的向量,直接对应潜在的目标实例,或者使用稀疏的 Key-Value 对来减少计算量。
快速注意力机制
标准 Self-Attention 的计算复杂度随序列长度呈平方级增长,这在高分辨率或多尺度特征图上计算成本过高。为了处理小目标检测所需的高分辨率特征图,研究者提出了多种快速注意力机制,如线性注意力、稀疏注意力以及分块注意力。这些机制旨在降低计算开销的同时保留全局上下文信息。
架构和模块修改
架构和模块修改包括修改 Transformer 的编码器和解码器以适应检测任务。例如,Deformable DETR 引入了可变形注意力机制,允许模型只关注少数几个关键采样点,从而显著提高了收敛速度和效率。此外,结合 CNN 的多尺度特征金字塔(FPN)与 Transformer 的全局建模能力成为主流趋势,混合架构通常表现最佳。
空间 - 时间信息
空间 - 时间信息主要用于视频中的小目标检测。在视频流中,利用时序信息可以弥补单帧中小目标特征不足的问题。基于 Transformer 的视频检测方法通过引入时间维度的 Attention,能够有效跟踪小目标的运动轨迹,提高检测的连续性和稳定性。
改进的特征表示
改进的特征表示涉及使用预训练模型或自监督学习来增强特征。由于小目标数据标注成本高,自监督预训练可以帮助模型学习到更鲁棒的特征表示。此外,针对小目标的高频特征进行专门增强,也是提升检测精度的有效手段。
辅助技术
辅助技术包括使用辅助损失函数和数据增强。在训练过程中,添加辅助检测头可以缓解深层网络梯度消失问题,加速收敛。数据增强方面,针对小目标常用的 Mosaic、Mixup 等策略依然有效,但需调整参数以避免过度模糊化微小目标。
结果与基准测试
本文引入了多个新的 SOD 数据集,包括 UAV123、MRS-1800、SKU-110K 等,这些数据集涵盖了视频和图像的多种应用。UAV123 专注于无人机视角下的目标检测,具有典型的小目标和复杂背景特点;MRS-1800 则侧重于遥感图像中的密集小目标。


