HS-FPN:微小目标检测的频域与空间感知架构
AAAI2025 提出了一种名为 HS-FPN(高频与空间感知特征金字塔网络) 的新型架构,旨在解决微小目标检测(Tiny Object Detection, TOD)面临的特征匮乏、易受干扰以及现有网络关注度不足等核心挑战。研究团队指出,传统的特征金字塔网络(FPN)在处理尺寸小于 16×16 像素的微小目标时,由于频繁的下采样导致特征信息极度压缩,且其像素级加法的融合方式缺乏对空间依赖性的感知能力。
![HS-FPN 整体架构图]
核心创新点
该研究的创新之处在于从频域增强和空间关系重构两个维度对 FPN 进行了深度改进。首先,揭示了当前 TOD 模型在 FPN 架构下的三大局限性:可用特征有限、缺乏针对微小目标的专门注意力机制以及空间感知能力缺失。其次,研究者创新性地开发了高频感知模块(HFP)、空间依赖感知模块(SDP),通过过滤低频背景噪声并学习像素间的长程依赖,显著提升了微小目标的特征显著性。最后,该框架具有极强的通用性,可以作为插件式组件轻松嵌入 Faster R-CNN、Cascade R-CNN 等主流检测模型中。
频域特性与信杂比分析
论文指出,"信杂比(Signal to Clutter Ratio, SCR)"是衡量目标与其局部背景区域判别程度的定量指标,其核心原理在于通过量化"目标信号强度"与"背景干扰程度"的比例来评估目标的显著性。
SCR 的计算公式为: $$ \text{SCR} = \frac{|\mu_t - \mu_b|}{\sigma_b} $$
其中 $|\mu_t - \mu_b|$ 代表目标与背景的均值差异,即目标区域与周围背景在平均灰度值上的对比度。这个差值越大,说明目标在亮度或色彩上与背景的区别越明显。$\sigma_b$(背景标准差)代表了背景区域的"杂波(Clutter)"程度或噪声水平。标准差越小,说明背景越平滑、统一;反之,背景越复杂、干扰越多。SCR 值越高,意味着目标与背景之间的"对比度(均值差)"相对于"背景的复杂程度(标准差)"越大。在这种情况下,目标能够从背景干扰中脱颖而出,因此更显显著。
论文指出,低频成分通常代表图像的整体轮廓和平滑区域(即背景),而"微小目标通常表现为细节和边缘,对应高频分量"。通过高通滤波器滤除低频成分后,背景的均值 $\mu_b$ 和标准差 $\sigma_b$ 会下降,从而使 SCR 值显著提升,这在物理直观上表现为微小目标被"点亮"或"突出"了。
要理解 HFP 模块中掩码的实现,需要补充说明频谱矩阵的坐标含义。当图像从空间域(像素)变换到频率域(DCT 系数)后,会生成一个同样大小的矩阵:
- 左上角(Top-left corner): 对应的是低频分量(包括直流分量 DC)。这些系数代表了图像中变化缓慢的部分,例如大面积的背景、天空、平滑的表面以及图像的整体轮廓。图像绝大部分的能量(亮度信息)都集中在这里。
- 右下角(Bottom-right corner): 对应的是高频分量。这些系数代表了图像中信号剧烈变化的部分,例如物体的边缘、细微纹理、噪声,以及本文研究的重点——微小目标。
这种布局是由离散余弦变换(DCT)决定的。左上角被称为 DC 分量(直流分量),它代表了图像的平均灰度或最基本的结构信息。由于自然图像的大部分能量都集中在变化缓慢的区域(如平滑的背景和轮廓),因此这些代表低频分量的系数具有极高的数值,并自然地聚集在坐标轴的起点,即左上角区域。随着坐标索引向右(水平频率增加)和向下(垂直频率增加)移动,对应的基函数震荡变得越来越剧烈,代表了图像中信号变化极快的部分。这些分布在右下角的高频分量捕捉的是图像的细微纹理、边缘细节、微小目标以及噪声。
在数学处理上,这种分层排列使得研究者可以通过简单的掩码操作来过滤信息,例如通过清零左上角区域来截断低频背景,从而在剩余的高频响应中"点亮"那些原本微弱的边缘或微小目标特征。论文中提到的超参数 $\alpha$ 实际上是一个"切割比例":它定义了滤波器掩码中左上角全零区域的大小(即 $u < \alpha H$ 且 $v < \alpha W$ 的区域)。$\alpha$越大,意味着被滤除的频率范围越广,不仅过滤了背景,可能连一部分目标边缘也被过滤了;$\alpha$越小,则保留的背景信息越多。
模型架构详解
HS-FPN 的整体结构延续了 FPN 的多尺度特征融合框架,但在侧向连接(Lateral Connection)中集成了 HFP 和 SDP 两个关键模块。


