无人机目标检测：自适应图像变焦与边界框变换

针对无人机图像中小物体检测难的问题，提出了一种自适应变焦框架 ZoomDet。该方法通过轻量级偏移预测实现非均匀图像放大，并利用角点对齐的边界框变换解决训练与推理中的标签对齐问题。实验表明，在 VisDrone、UAVDT 和 SeaDronesSee 数据集上，该方法显著提升了检测精度，尤其是对小物体的识别能力，同时保持了较低的延迟开销。

筑梦师发布于 2026/3/270 浏览

自适应图像变焦与边界框变换用于无人机目标检测

摘要

无人机拍摄图像中的物体通常尺寸较小且分布稀疏，这对目标检测提出了巨大挑战。本文介绍了一种简单高效的自适应变焦框架（ZoomDet），旨在通过非均匀放大物体细节来优化检测效果。核心设计包括轻量级的偏移预测方案以学习非均匀变焦，以及一种角点对齐的边界框变换方法，确保在变焦空间中进行训练和推理时的标签准确性。实验表明，该方法在 VisDrone、UAVDT 和 SeaDronesSee 等数据集上均取得了显著的性能提升，同时保持了极低的延迟开销。

引言

无人机（UAV）图像的目标检测在环境监测和灾害响应等领域应用广泛。尽管深度学习推动了该领域的发展，但高观测姿态和不规则角度导致物体尺寸小、分布不均，成为主要难点。

当前主流方法常将图像均匀裁剪成图块处理。虽然能解决跨图块分布问题，但图块内仍可能存在小物体，且多次前向传播带来了高昂的计算成本，不适合边缘设备。受现有工作启发，我们开发了一个非均匀变焦框架，自适应地放大图像内的物体区域，同时保持单张图像处理的效率。

该框架的核心是图像变换，它将输出图像空间的离散像素坐标映射到原始图像空间。然而，设计此类框架面临两个独特挑战：

基于显著性的方法计算复杂，且容易因显著性峰值导致物体及上下文严重失真。
图像变换会导致真实边界框错位，阻碍了检测器的训练和推理。

为解决这些问题，我们引入了一种基于偏移量的物体变焦方案，结合角点对齐的前向和后向边界框变换。

提出的方法

概述与动机

给定输入图像 $I$，目标是执行非均匀空间变换来放大小物体： $$ I'(x, y) = I(u, v) $$ 其中 $(x, y)$ 是输出图像空间坐标，$(u, v)$ 是输入图像空间连续坐标。变换基于映射 $T$，将坐标映射为： $$ T: (x, y) \to (u, v) $$ 关键设计选择在于：

映射 $T$ 的参数化应充分捕捉物体位置并实现有效放大。
需设计框标签变换方法，解决变换导致的标签错位问题。

先前的基于显著性的参数化虽然对分类任务有效，但在实例级检测中容易导致严重失真，且逆映射难以求解。因此，我们放弃了复杂的显著性引导，转而使用基于偏移量的参数化。

基于偏移量的映射参数化

使用小型卷积神经网络 $f_\theta$ 预测每个像素位置的空间偏移量 $(\Delta x, \Delta y)$。映射参数化为： $$ T_u(x, y) = x + \Delta x $$ $$ T_v(x, y) = y + \Delta y $$ 这种参数化同等加权物体区域，减轻了失真。为了节省计算量，我们在下采样后的图像上预测偏移量，再插值到目标大小。

物体变焦损失

仅靠检测损失反向传播不足以直接学习物体放大。我们设计了基于框的变焦损失函数。对于每个边界框，计算其掩码在变换前后的面积比率 $m_i$。损失函数设计为最大化变焦比率： $$ L_{\text{zoom}} = \sum_{i}^{N} \max\left(\log\left(\frac{\alpha + \epsilon}{m_i + \epsilon}\right), 0\right)^\beta $$ 其中 $\alpha$ 控制放大阈值，$\beta$ 调整大放大样本的降权速率。梯度通过双线性插值操作反向传播到偏移量。

角点对齐的框变换

由于逆映射 $T^{-1}$ 难以求解，我们提出了一种简单的角点对齐变换。利用映射作为查找表，在逆变换表中搜索原始边界框角点的最近邻，获得变换后的角点。这种方法避免了求解逆映射，且经验验证表明误差很小。

在推理过程中，预测的边界框同样被变换回原始图像空间进行评估。

网络优化

整体框架命名为 ZoomDet。它与检测器无关，可应用于任意目标检测模型。整个框架使用目标检测损失和提出的物体变焦损失进行联合优化： $$ L = L_{\text{detection}} + L_{\text{zoom}} $$

实验与分析

实验设置

我们在三个代表性数据集上进行了实验：VisDrone、UAVDT 和 SeaDronesSee。实现了基于 mmdetection 的代码库，使用 ResNet-18 变体作为偏移量预测器。所有模型训练 24 个 epoch，使用 SGD 优化器。

主要结果

与非均匀变焦方法的比较

ZoomDet 在所有三个数据集上均显著优于基线。特别是在 SeaDronesSee 数据集上，Faster R-CNN 模型的 mAP 提升了 8.4，小物体绝对提升达 26.2。相比基于显著性的方法（如 FOVEA、LZU），我们的方法提供了更好的映射参数化和灵活的框变换。

无人机目标检测：自适应图像变焦与边界框变换

自适应图像变焦与边界框变换用于无人机目标检测

摘要

引言

提出的方法

概述与动机

基于偏移量的映射参数化

物体变焦损失

角点对齐的框变换

网络优化

实验与分析

实验设置

主要结果

与非均匀变焦方法的比较

与均匀变焦方法的比较

更多推荐文章

相关免费在线工具

自然场景与遥感图像

消融研究

讨论

结论

更多推荐文章

相关免费在线工具

无人机目标检测：自适应图像变焦与边界框变换

自适应图像变焦与边界框变换用于无人机目标检测

摘要

引言

提出的方法

概述与动机

基于偏移量的映射参数化

物体变焦损失

角点对齐的框变换

网络优化

实验与分析

实验设置

主要结果

与非均匀变焦方法的比较

与均匀变焦方法的比较

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

自然场景与遥感图像

消融研究

讨论

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具