自适应图像变焦与边界框变换用于无人机目标检测
摘要
无人机拍摄图像中的物体通常尺寸较小且分布稀疏,这对目标检测提出了巨大挑战。本文介绍了一种简单高效的自适应变焦框架(ZoomDet),旨在通过非均匀放大物体细节来优化检测效果。核心设计包括轻量级的偏移预测方案以学习非均匀变焦,以及一种角点对齐的边界框变换方法,确保在变焦空间中进行训练和推理时的标签准确性。实验表明,该方法在 VisDrone、UAVDT 和 SeaDronesSee 等数据集上均取得了显著的性能提升,同时保持了极低的延迟开销。
引言
无人机(UAV)图像的目标检测在环境监测和灾害响应等领域应用广泛。尽管深度学习推动了该领域的发展,但高观测姿态和不规则角度导致物体尺寸小、分布不均,成为主要难点。
当前主流方法常将图像均匀裁剪成图块处理。虽然能解决跨图块分布问题,但图块内仍可能存在小物体,且多次前向传播带来了高昂的计算成本,不适合边缘设备。受现有工作启发,我们开发了一个非均匀变焦框架,自适应地放大图像内的物体区域,同时保持单张图像处理的效率。
该框架的核心是图像变换,它将输出图像空间的离散像素坐标映射到原始图像空间。然而,设计此类框架面临两个独特挑战:
- 基于显著性的方法计算复杂,且容易因显著性峰值导致物体及上下文严重失真。
- 图像变换会导致真实边界框错位,阻碍了检测器的训练和推理。
为解决这些问题,我们引入了一种基于偏移量的物体变焦方案,结合角点对齐的前向和后向边界框变换。
提出的方法
概述与动机
给定输入图像 $I$,目标是执行非均匀空间变换来放大小物体: $$ I'(x, y) = I(u, v) $$ 其中 $(x, y)$ 是输出图像空间坐标,$(u, v)$ 是输入图像空间连续坐标。变换基于映射 $T$,将坐标映射为: $$ T: (x, y) \to (u, v) $$ 关键设计选择在于:
- 映射 $T$ 的参数化应充分捕捉物体位置并实现有效放大。
- 需设计框标签变换方法,解决变换导致的标签错位问题。
先前的基于显著性的参数化虽然对分类任务有效,但在实例级检测中容易导致严重失真,且逆映射难以求解。因此,我们放弃了复杂的显著性引导,转而使用基于偏移量的参数化。
基于偏移量的映射参数化
使用小型卷积神经网络 $f_\theta$ 预测每个像素位置的空间偏移量 $(\Delta x, \Delta y)$。映射参数化为: $$ T_u(x, y) = x + \Delta x $$ $$ T_v(x, y) = y + \Delta y $$ 这种参数化同等加权物体区域,减轻了失真。为了节省计算量,我们在下采样后的图像上预测偏移量,再插值到目标大小。
物体变焦损失
仅靠检测损失反向传播不足以直接学习物体放大。我们设计了基于框的变焦损失函数。对于每个边界框,计算其掩码在变换前后的面积比率 $m_i$。损失函数设计为最大化变焦比率: $$ L_{\text{zoom}} = \sum_{i}^{N} \max\left(\log\left(\frac{\alpha + \epsilon}{m_i + \epsilon}\right), 0\right)^\beta $$ 其中 $\alpha$ 控制放大阈值,$\beta$ 调整大放大样本的降权速率。梯度通过双线性插值操作反向传播到偏移量。
角点对齐的框变换
由于逆映射 $T^{-1}$ 难以求解,我们提出了一种简单的角点对齐变换。利用映射作为查找表,在逆变换表中搜索原始边界框角点的最近邻,获得变换后的角点。这种方法避免了求解逆映射,且经验验证表明误差很小。
在推理过程中,预测的边界框同样被变换回原始图像空间进行评估。
网络优化
整体框架命名为 ZoomDet。它与检测器无关,可应用于任意目标检测模型。整个框架使用目标检测损失和提出的物体变焦损失进行联合优化: $$ L = L_{\text{detection}} + L_{\text{zoom}} $$
实验与分析
实验设置
我们在三个代表性数据集上进行了实验:VisDrone、UAVDT 和 SeaDronesSee。实现了基于 mmdetection 的代码库,使用 ResNet-18 变体作为偏移量预测器。所有模型训练 24 个 epoch,使用 SGD 优化器。
主要结果
与非均匀变焦方法的比较
ZoomDet 在所有三个数据集上均显著优于基线。特别是在 SeaDronesSee 数据集上,Faster R-CNN 模型的 mAP 提升了 8.4,小物体绝对提升达 26.2。相比基于显著性的方法(如 FOVEA、LZU),我们的方法提供了更好的映射参数化和灵活的框变换。


