无人机目标检测:自适应图像变焦与边界框变换
摘要
从无人机(UAV)拍摄的图像中检测物体具有挑战性,主要因为物体尺寸小且分布稀疏。本文提出了一种简单高效的自适应变焦框架 ZoomDet,旨在通过非均匀放大物体细节来优化检测效果。核心设计包括轻量级的偏移预测方案和基于框的变焦目标函数,以及一种角点对齐的边界框变换方法。该方法在 VisDrone、UAVDT 和 SeaDronesSee 等数据集上验证,为 Faster R-CNN 模型带来了显著的 mAP 提升,同时仅增加极小的推理延迟。
引言
无人机图像目标检测在环境监测和灾害响应等领域应用广泛。尽管深度卷积神经网络推动了该领域进展,但高观测姿态和不规则角度导致物体尺寸小、分布不均,成为主要难点。
现有最先进方法常将图像均匀裁剪成图块处理,虽能稳定增益,但无法解决图块内的小物体问题,且多次前向传播带来高昂计算成本。受空间变换网络启发,我们开发了一个非均匀变焦框架,自适应放大图像内的物体区域,同时保持单张图像处理的效率。
设计过程中面临两个挑战:
- 基于显著性的方法计算复杂且易导致物体失真。
- 图像变换会导致真实边界框错位,阻碍训练和推理。
为此,我们引入基于偏移量的物体变焦,结合角点对齐的前后向边界框变换。
方法概述
核心思路
给定输入图像 I,目标是执行非均匀空间变换得到变焦版本 I'。变换 T 将输出空间的离散坐标映射到原始空间的连续坐标。像素值通过双线性插值获得。
关键设计选择:
- 映射参数化需充分捕捉物体位置并密集映射。
- 需设计框标签变换方法,使模型能在变焦空间有效训练。
基于偏移量的映射参数化
放弃复杂的基于显著性参数化,改用小型卷积网络 f_θ 预测每个像素的空间偏移量 (Δx, Δy)。映射简化为: T_u(x, y) = x + Δx T_v(x, y) = y + Δy
这种参数化同等加权物体区域,减轻失真。为节省计算,先在低分辨率图像上预测偏移量,再插值到目标大小。
物体变焦损失
检测损失对物体放大是间接的,因此设计了专门的变焦损失 L_zoom。对于每个边界框,计算其掩码在变换前后的面积比率 m_i。损失函数最大化该比率: L_zoom = Σ max(log((α+ε)/(m_i+ε)), 0)^β
其中 α 控制放大阈值,β 调整大样本降权速率。梯度通过双线性插值反向传播至偏移量。
角点对齐的框变换
由于逆映射求解困难,我们提出近似方案。利用前向映射作为查找表,搜索边界框角点的最近邻坐标,获得变换后的框。推理时,预测框同样变换回原始空间评估。经验表明误差很小。
网络优化
整体框架命名为 ZoomDet,与检测器无关。使用检测损失与变焦损失联合优化: L = L_detection + L_zoom
实验结果
我们在 VisDrone、UAVDT 和 SeaDronesSee 三个数据集上进行了广泛实验。基线模型包括 Faster R-CNN 和 YOLOv8。
性能对比
ZoomDet 在所有数据集上均优于均匀下采样基线。在 SeaDronesSee 上,Faster R-CNN 的 mAP 提升了约 8.4,小物体绝对提升达 26.2。YOLOv8 也观察到类似提升。 与非均匀变焦方法相比,ZoomDet 提供了更大的改进。与基于图块的变焦方法结合使用时,可实现最佳性能增益。
消融研究
- 超参数: α=2, β=2 时性能最佳。过大的 α 会导致放大崩溃。
- 网络架构: ResNet 系列表现优于 Transformer,卷积网络更擅长捕捉低级信息。
- 分辨率: 8x 分辨率是计算与性能的甜点。
- 框变换误差: 变换前后框的平均 IoU 超过 92%。
成本分析
ZoomDet 带来的额外参数和计算极少。简化版 ZoomDet-rb 重用骨干网络,进一步降低了延迟开销。
讨论
可视化与失败案例
变焦图像有助于检测基线遗漏的小物体。失败案例主要包括物体极端挤压、空间跨度扩展及跨类别混淆。


