摘要
自上而下的注意力机制在人类视觉系统中至关重要,大脑首先获取场景概览以发现显著线索,随后进行更细致的观察。然而,现代卷积神经网络(ConvNet)仍局限于金字塔结构,通过连续下采样扩大感受野,却忽略了这一仿生原理。本文介绍了 OverLoCK,首个明确整合了自上而下注意力的纯卷积骨干网络架构。
OverLoCK 采用分支架构,包含三个协同子网络:Base-Net 编码低/中层次特征;Overview-Net 生成轻量级全局上下文作为动态自上而下注意力;Focus-Net 在引导下执行精细感知。此外,作者提出了上下文混合动态卷积(ContMix),有效建模长距离依赖关系,同时保留局部归纳偏差。实验表明,OverLoCK 在图像分类、目标检测和语义分割任务上均表现出显著性能提升,且在速度与精度间取得了出色平衡。
引言
自上而下的神经注意力是人类视觉系统的关键感知机制。大脑先对视觉场景形成整体高级感知,再融合感官输入做出准确判断。尽管已有研究将此类注意力整合到视觉模型中,但部分因设计不兼容难以构建现代骨干网络,其余则侧重于循环架构,带来额外计算开销。
现有视觉骨干网络多采用经典层次结构,从低层级向高层级逐步编码特征,中间层缺乏明确的自上而下语义引导。可视化分析显示,Swin-T、ConvNeXt-T 和 VMamba-T 等模型虽能捕捉长距离依赖,但在深层阶段难以准确定位带有正确类别标签的对象。
为此,作者提出仿生深度分解策略(DDS),受人类视觉启发,借助动态的自上而下语义上下文指导增强特征图和核权重。DDS 将网络分解为 Base-Net、Overview-Net 和 Focus-Net。Base-Net 编码低级和中级信息,输出至 Overview-Net 获取语义上有意义的概览上下文,作为上下文先验输入 Focus-Net,以获得更准确的高级表征。
为解决纯卷积在保留强归纳偏置的同时具备动态全局建模能力的挑战,作者提出了上下文混合动态卷积(ContMix)。它利用 token 与区域中心亲和度生成空间变化的动态卷积核,使每个 token 都能与被编码的全局信息交互,从而在固定核大小下捕捉长程依赖。
相关工作
卷积网络的发展 自 AlexNet 以来,CNN 主导计算机视觉领域。VGGNet 引入堆叠小卷积核,ResNet 和 DenseNet 解决梯度消失问题。随着 Vision Transformer 兴起,大核卷积成为趋势,如 ConvNeXt 使用 7×7 卷积,RepLKNet 探索 31×31 卷积。门控机制如 MogaNet 也增强了多尺度特征表示能力。
动态卷积 动态卷积通过与输入相关的滤波器增强特征表示。部分方法提出空间变化建模,InternImage 重新设计了可变形卷积。但以往研究未能在保留强大局部归纳偏置的同时对长程依赖进行建模,本文提出的动态卷积有效解决了这一局限。
仿生视觉模型 人类视觉系统启发了许多骨干网络设计,如周边感知机制和自上而下注意力机制。AbsViT 引入了基于反馈的视觉 Transformer 骨干网络。本文提出了一种基于现代卷积神经网络的视觉骨干网络,能够高效生成和利用自上而下的引导。
方法
深度阶段分解
受人类视觉'先整体浏览,再仔细观察'机制启发,DDS 将网络分解为 Base-Net、Overview-Net 和 Focus-Net。Base-Net 通过嵌入层将输入图像下采样生成中层特征图,输入至 Overview-Net 和 Focus-Net。Overview-Net 快速生成概览特征图作为上下文先验,融合到 Focus-Net 的所有构建块中。Focus-Net 在上下先验引导下优化中层特征图,扩大感受野。
预训练期间,两个骨干网络各自连接分类器头并施加相同分类损失。迁移至下游任务时,不再向 Overview-Net 施加辅助监督信号。密集预测任务中,使用来自 Base-Net 和 Focus-Net 不同分辨率的特征构建特征金字塔。
Base-Net 和 Overview-Net 采用 Basic Block 作为构建单元。输入特征经过残差 3×3 DWConv 执行局部感知,随后进入由 Layer Normalization、Dilated RepConv、SE 层和 ConvFFN 组成的模块。
Focus-Net 采用 Dynamic Block,包含残差 3×3 DWConv、GDSA(门控动态空间聚合器)和 ConvFFN。GDSA 使用 ContMix 作为核心 Token Mixer,并引入门控机制消除上下文噪声。
上下文流 Focus-Net 内部存在动态上下文流。来自 Overview-Net 的先验上下文在特征和 Kernel Weight 层面提供指导。Block 入口处的 Context Prior 和 Feature Map 拼接后送入 GDSA。GDSA 通过动态门控实现特征级引导,ContMix 利用 Context Prior 计算动态核权重实现权重级引导。为防止上下文先验被弱化,初始上下文先验被添加到更新后的先验中。
带上下文混合的动态卷积
ContMix 赋予卷积处理长距离依赖的能力,同时保留强大的归纳偏置。核心思想是利用单个 Token 与一组区域中心 Token 之间的亲和力值集合来表示 Token 与上下文的关系,聚合后定义 Token-wise 动态卷积核。
给定输入特征图 X,转换为 Q 和 K 两部分。K 通过自适应平均池化聚合到 S×S 区域中心。Q 和 K 通道均匀分成 G 组,计算亲和矩阵 A。A 的第 i 行反映了第 i 个 Token 和所有 K Token 的亲和值。


