核心思路
无人机图像中的实时小目标检测一直是个硬骨头。特征表示有限,多尺度融合效果也不理想,现有的方法往往没能充分利用频率信息,还依赖静态卷积操作,这限制了获取丰富特征的能力。
为了解决这些问题,我们提出了 EFSI-DETR,这是一个新颖的检测框架,集成了高效的语义特征增强与动态频域 - 空间引导。它包含两个主要组件:(1) 动态频域 - 空间统一协同网络(DyFusNet),联合利用频率和空间线索进行鲁棒的多尺度特征融合;(2) 高效语义特征集中器(ESFC),以最小的计算成本实现深层语义提取。此外,采用了细粒度特征保留(FFR)策略,在融合过程中纳入空间丰富的浅层特征,这对保留小目标的关键细节至关重要。

背景与挑战
尽管 YOLO 系列在通用场景很成功,但在无人机应用中性能往往下降。基于锚点的设计难以适应航空图像中极端的尺度变化,预定义的锚框覆盖不了小目标尺寸。而且单阶段范式牺牲了表示灵活性,从特征到边界框的直接回归建模复杂空间关系的能力有限。
相比之下,实时检测 Transformer(RT-DETR)更符合要求。端到端、无锚点设计消除了 NMS 后处理需求,Transformer 主干捕捉长程依赖和全局上下文。但 RT-DETR 对无人机图像来说仍非最优,缺乏对频率信息的有效利用,且在高效提取丰富语义特征方面表现一般。
现有方案局限
实时目标检测领域,YOLO 系列和 FCOS 平衡了精度和效率,但它们主要针对中等分辨率的自然图像,在高空拍摄的小目标普遍的无人机图像上表现挣扎。小目标检测由于像素少、易受噪声影响,传统方法靠数据增强和多尺度训练改善识别。ClusDet 用聚类估计尺度,DM-Net 用密度图建模上下文。虽然这些方法引入了轻量级头,但实现实时检测仍是挑战。
多尺度特征融合是关键策略。FPN 结合深层语义和浅层空间特征,PANet 引入双向融合,BiFPN 加权聚合。但大多数方法依赖静态融合策略,导致深层语义提取冗余低效。先前的频率感知检测器如 UAV-DETR 通常在变换域显式操作,需要全局内存置换,限制了内核融合和推理效率。
技术实现细节
EFSI-DETR 的整体架构包含三个关键组件:动态频域 - 空间统一协同网络、高效语义特征集中器和细粒度特征保留。
A. 动态频域 - 空间统一协同网络
DyFusNet 利用频率和空间信息的互补性,引入了一种新的多尺度特征表示学习范式。与依赖显式变换的经典频域方法不同,DyFusNet 采用频率启发但非 FFT 的公式,以保持现代推理引擎上的部署效率。
a) 动态多分辨率频谱分解: 该模块将输入特征分解为三个互补路径,模拟不同的频率响应:
$$\mathcal{F}{\mathrm{DMSD}}(\mathbf{X})=\sum{i\in{\mathrm{low},\mathrm{mid},\mathrm{high}}}\alpha_{i}(\mathbf{X})\mathcal{H}_{i}(\mathbf{X})$$
其中 $\mathcal{H}{i}$ 代表频率选择算子,$\alpha{i}(\mathbf{X})$ 表示内容自适应权重。低频分量采用平均池化捕捉平滑结构,中频分量保留原始特征,高频分量利用深度卷积增强边缘纹理。
为什么采用模拟频率处理? 局部核固有地引起频率响应。平均池化表现为强低通算子,恒等路径是全通的,深度卷积可以学习导数状核强调高频边缘。这种模拟频率处理保持了平移等变性,避免了全局变换带来的周期性边界伪影。
为什么不使用类 FFT 变换? 频谱变换给实时部署带来实际成本。FFT 流水线难以与相邻操作融合,导致额外内核启动。全局变换需要非局部数据移动,增加带宽压力。形状敏感性也导致不规则尺寸需要填充。因此,我们采用可部署、可学习且内容自适应的空间近似方法。
b) 空间 - 频率协同调制: 我们将空间聚合和频率引导的通道重加权集成到一个模块中。给定输入特征图,SFCM 首先使用并行多核算子聚合空间证据,然后通过从其全局统计信息估计每通道门控,将通道调制应用于结果。
最终流程巩固了多尺度空间证据和频率引导的通道选择,无需诉诸显式的傅里叶算子。
B. 高效语义特征集中器
ESFC 模块采用具有可学习融合权重的双分支架构,在计算效率和表示能力之间取得了有效平衡。
a) 动态专家卷积: 利用多个具有学习注意力权重的专家卷积进行自适应核选择,解决传统静态核无法适应不同空间区域变化的问题。
b) 高效 Ghost 块: 集成受 Ghost 卷积原理启发的高效 Ghost 块,减少冗余,降低计算复杂度。





