无人机目标检测:自适应图像变焦与边界框变换
背景与动机
无人机(UAV)拍摄图像的目标检测一直是遥感应用中的活跃课题,在环境监测和灾害响应中发挥着重要作用。得益于深度卷积神经网络的发展,该领域取得了显著进展。然而,由于高观测姿态和不规则角度,无人机图像中的物体通常尺寸小、分布稀疏且不均匀,这给有效检测带来了主要挑战。
当前主流方法常将图像均匀裁剪成图块独立处理,虽能提升精度,但无法解决图块内的小物体问题,且多次前向传播引入了高昂的计算成本,不适合边缘设备。受非均匀图像变焦工作的启发,我们旨在开发一个框架,自适应地放大图像内的物体区域以改善检测优化,同时保持单张图像处理的效率。
在设计过程中,我们发现两个核心挑战:
- 坐标映射公式复杂:基于显著性的方法需要调整高斯核,且易导致物体及上下文严重失真。
- 边界框错位:图像变换会导致真实边界框(Ground Truth)错位,阻碍训练和推理。
为此,我们提出了一种轻量级的偏移预测方案,结合新颖的基于框的变焦目标函数,并引入角点对齐的边界框变换方法。
核心方法
1. 基于偏移量的映射参数化
为了预测变换映射 $T$,我们使用小型卷积神经网络 $f_\theta$ 预测每个像素位置的空间偏移量 $(\Delta x, \Delta y)$。映射参数化为: $$ T_u(x, y) = x + \Delta x $$ $$ T_v(x, y) = y + \Delta y $$
这种基于偏移量的参数化同等地加权物体区域,减轻了失真。为节省计算,我们在下采样图像上预测偏移量,再插值到目标大小。为了直接学习物体放大,我们设计了专门的损失函数,而非依赖间接的检测损失。
2. 物体变焦损失
针对每个边界框,将其视为掩码并执行相同的图像变换,计算变焦比率 $m_i$。通过最大化变焦比率来设计损失函数: $$ L_{\text{zoom}} = \sum_{i}^{N} \max\left(\log\left(\frac{\alpha + \epsilon}{m_i + \epsilon}\right), 0\right)^\beta $$ 其中 $\alpha$ 控制放大阈值,$\beta$ 调整降权速率。梯度通过双线性插值操作反向传播到偏移量。
3. 角点对齐的框变换
由于逆映射难以求解,我们提出一种近似的框变换方案。利用两个角点作为边界框表示,在变焦图像空间中找到它们最近的映射坐标。具体而言,将前向映射视为查找表,并在逆表上执行最近邻搜索获得变换后的角点。在推理过程中,预测的边界框同样被变换回原始空间进行评估。经验验证表明,这种变换引入的误差很小。
我们将上述组件集成到一个高效的'变焦并检测'框架中,命名为 ZoomDet。整体框架与检测器无关,可应用于任意目标检测模型。
实验与分析
我们在 VisDrone、UAVDT 和 SeaDronesSee 三个代表性数据集上进行了广泛实验,验证了 Faster R-CNN 和 YOLOv8 等架构。
主要结果
ZoomDet 为基线检测器带来了显著的增益,且额外延迟极小。例如,配备 ZoomDet 的 Faster R-CNN 模型在 SeaDronesSee 数据集上获得了约 8.4 的 mAP 提升,而推理时间仅增加了 222 ms。在类似的延迟开销下,ZoomDet 在 VisDrone 和 UAVDT 数据集上引入了约 2.0 的 mAP 提升。
与非均匀变焦方法相比,所提出的方法提供了更好的映射参数化和灵活的框变换。与均匀变焦方法相比,ZoomDet 通过直接放大空间尺寸更好地增强了物体信息。
消融研究
- 超参数:$\alpha$ 和 $\beta$ 在宽值范围内均能实现良好性能,峰值分别在 2 左右。
- 网络架构:ResNet 系列表现稳定,卷积网络优于 Transformer 骨干,表明偏移量预测更擅长捕捉低级物体信息。
- 分辨率:提高分辨率可带来改进,但 8x 输出分辨率是计算与性能的平衡点。
误差分析
计算了标签变换引起的 IoU 误差。在所有数据集中,变换策略与原始标签的平均 IoU 超过 92%,保持了监督信号的一致性。
讨论与结论
可视化结果显示,ZoomDet 有助于检测基线遗漏的小物体。但也存在失败案例,如物体极端挤压、空间跨度扩展或跨类别混淆,这主要与小物体对变换误差敏感有关。
此外,该方法具有通用性,在自然场景(COCO)和自动驾驶(Argoverse-HD)数据集上也表现良好,尤其在提升小物体检测方面效果显著。我们还探索了其在视觉 - 语言模型中的应用,表明其潜力超越了纯检测任务。


