EFSI-DETR：无人机实时小目标检测的频域 - 语义融合方案

针对无人机图像中小目标检测难、特征表示有限及多尺度融合效果不佳的问题，提出 EFSI-DETR 框架。该方案集成动态频域 - 空间统一协同网络（DyFusNet）与高效语义特征集中器（ESFC），并采用细粒度特征保留策略。实验表明，在 VisDrone 和 CODrone 基准测试中，该方法以 188 FPS 的实时速度实现了最先进的精度，AP 和 APs 分别提升显著，有效平衡了计算成本与检测性能。

DataScient发布于 2026/3/27更新于 2026/6/1523 浏览

核心思路

无人机图像中的实时小目标检测一直是个硬骨头。特征表示有限，多尺度融合效果也不理想，现有的方法往往没能充分利用频率信息，还依赖静态卷积操作，这限制了获取丰富特征的能力。

为了解决这些问题，我们提出了 EFSI-DETR，这是一个新颖的检测框架，集成了高效的语义特征增强与动态频域 - 空间引导。它包含两个主要组件：(1) 动态频域 - 空间统一协同网络（DyFusNet），联合利用频率和空间线索进行鲁棒的多尺度特征融合；(2) 高效语义特征集中器（ESFC），以最小的计算成本实现深层语义提取。此外，采用了细粒度特征保留（FFR）策略，在融合过程中纳入空间丰富的浅层特征，这对保留小目标的关键细节至关重要。

架构示意图

背景与挑战

尽管 YOLO 系列在通用场景很成功，但在无人机应用中性能往往下降。基于锚点的设计难以适应航空图像中极端的尺度变化，预定义的锚框覆盖不了小目标尺寸。而且单阶段范式牺牲了表示灵活性，从特征到边界框的直接回归建模复杂空间关系的能力有限。

相比之下，实时检测 Transformer（RT-DETR）更符合要求。端到端、无锚点设计消除了 NMS 后处理需求，Transformer 主干捕捉长程依赖和全局上下文。但 RT-DETR 对无人机图像来说仍非最优，缺乏对频率信息的有效利用，且在高效提取丰富语义特征方面表现一般。

现有方案局限

实时目标检测领域，YOLO 系列和 FCOS 平衡了精度和效率，但它们主要针对中等分辨率的自然图像，在高空拍摄的小目标普遍的无人机图像上表现挣扎。小目标检测由于像素少、易受噪声影响，传统方法靠数据增强和多尺度训练改善识别。ClusDet 用聚类估计尺度，DM-Net 用密度图建模上下文。虽然这些方法引入了轻量级头，但实现实时检测仍是挑战。

多尺度特征融合是关键策略。FPN 结合深层语义和浅层空间特征，PANet 引入双向融合，BiFPN 加权聚合。但大多数方法依赖静态融合策略，导致深层语义提取冗余低效。先前的频率感知检测器如 UAV-DETR 通常在变换域显式操作，需要全局内存置换，限制了内核融合和推理效率。

技术实现细节

EFSI-DETR 的整体架构包含三个关键组件：动态频域 - 空间统一协同网络、高效语义特征集中器和细粒度特征保留。

A. 动态频域 - 空间统一协同网络

DyFusNet 利用频率和空间信息的互补性，引入了一种新的多尺度特征表示学习范式。与依赖显式变换的经典频域方法不同，DyFusNet 采用频率启发但非 FFT 的公式，以保持现代推理引擎上的部署效率。

a) 动态多分辨率频谱分解：该模块将输入特征分解为三个互补路径，模拟不同的频率响应：

$$\mathcal{F}{\mathrm{DMSD}}(\mathbf{X})=\sum{i\in{\mathrm{low},\mathrm{mid},\mathrm{high}}}\alpha_{i}(\mathbf{X})\mathcal{H}_{i}(\mathbf{X})$$

其中 $\mathcal{H}{i}$ 代表频率选择算子，$\alpha{i}(\mathbf{X})$ 表示内容自适应权重。低频分量采用平均池化捕捉平滑结构，中频分量保留原始特征，高频分量利用深度卷积增强边缘纹理。

为什么采用模拟频率处理？ 局部核固有地引起频率响应。平均池化表现为强低通算子，恒等路径是全通的，深度卷积可以学习导数状核强调高频边缘。这种模拟频率处理保持了平移等变性，避免了全局变换带来的周期性边界伪影。

为什么不使用类 FFT 变换？ 频谱变换给实时部署带来实际成本。FFT 流水线难以与相邻操作融合，导致额外内核启动。全局变换需要非局部数据移动，增加带宽压力。形状敏感性也导致不规则尺寸需要填充。因此，我们采用可部署、可学习且内容自适应的空间近似方法。

b) 空间 - 频率协同调制：我们将空间聚合和频率引导的通道重加权集成到一个模块中。给定输入特征图，SFCM 首先使用并行多核算子聚合空间证据，然后通过从其全局统计信息估计每通道门控，将通道调制应用于结果。

最终流程巩固了多尺度空间证据和频率引导的通道选择，无需诉诸显式的傅里叶算子。

B. 高效语义特征集中器

ESFC 模块采用具有可学习融合权重的双分支架构，在计算效率和表示能力之间取得了有效平衡。

a) 动态专家卷积：利用多个具有学习注意力权重的专家卷积进行自适应核选择，解决传统静态核无法适应不同空间区域变化的问题。

EFSI-DETR：无人机实时小目标检测的频域 - 语义融合方案