OverLoCK: 先概览后细看的卷积神经网络与上下文混合动态核

针对现有卷积神经网络缺乏仿生自上而下注意力机制及长距离依赖建模能力不足的问题，提出 OverLoCK 架构。该架构包含 Base-Net、Overview-Net 和 Focus-Net 三个协同子网络，通过深度阶段分解策略实现先概览后细看的感知过程。核心创新点在于上下文混合动态卷积 ContMix，能在保留局部归纳偏置的同时动态建模长距离依赖。实验表明，OverLoCK 在 ImageNet-1K 分类、COCO 检测及 ADE20K 分割任务上均取得领先性能，尤其在保持高吞吐量的同时显著提升了精度，证明了纯卷积网络在现代视觉任务中的竞争力。

星落发布于 2026/4/11更新于 2026/7/2352 浏览

摘要

自上而下的注意力机制在人类视觉系统中至关重要，大脑首先获取场景概览以发现显著线索，随后进行更细致的观察。然而，现代卷积神经网络（ConvNet）仍局限于金字塔结构，通过连续下采样扩大感受野，却忽略了这一仿生原理。本文介绍了 OverLoCK，首个明确整合了自上而下注意力的纯卷积骨干网络架构。

OverLoCK 采用分支架构，包含三个协同子网络：Base-Net 编码低/中层次特征；Overview-Net 生成轻量级全局上下文作为动态自上而下注意力；Focus-Net 在引导下执行精细感知。此外，作者提出了上下文混合动态卷积（ContMix），有效建模长距离依赖关系，同时保留局部归纳偏差。实验表明，OverLoCK 在图像分类、目标检测和语义分割任务上均表现出显著性能提升，且在速度与精度间取得了出色平衡。

引言

自上而下的神经注意力是人类视觉系统的关键感知机制。大脑先对视觉场景形成整体高级感知，再融合感官输入做出准确判断。尽管已有研究将此类注意力整合到视觉模型中，但部分因设计不兼容难以构建现代骨干网络，其余则侧重于循环架构，带来额外计算开销。

现有视觉骨干网络多采用经典层次结构，从低层级向高层级逐步编码特征，中间层缺乏明确的自上而下语义引导。可视化分析显示，Swin-T、ConvNeXt-T 和 VMamba-T 等模型虽能捕捉长距离依赖，但在深层阶段难以准确定位带有正确类别标签的对象。

为此，作者提出仿生深度分解策略（DDS），受人类视觉启发，借助动态的自上而下语义上下文指导增强特征图和核权重。DDS 将网络分解为 Base-Net、Overview-Net 和 Focus-Net。Base-Net 编码低级和中级信息，输出至 Overview-Net 获取语义上有意义的概览上下文，作为上下文先验输入 Focus-Net，以获得更准确的高级表征。

为解决纯卷积在保留强归纳偏置的同时具备动态全局建模能力的挑战，作者提出了上下文混合动态卷积（ContMix）。它利用 token 与区域中心亲和度生成空间变化的动态卷积核，使每个 token 都能与被编码的全局信息交互，从而在固定核大小下捕捉长程依赖。

方法

深度阶段分解

受人类视觉'先整体浏览，再仔细观察'机制启发，DDS 将网络分解为 Base-Net、Overview-Net 和 Focus-Net。Base-Net 通过嵌入层将输入图像下采样生成中层特征图，输入至 Overview-Net 和 Focus-Net。Overview-Net 快速生成概览特征图作为上下文先验，融合到 Focus-Net 的所有构建块中。Focus-Net 在上下先验引导下优化中层特征图，扩大感受野。

预训练期间，两个骨干网络各自连接分类器头并施加相同分类损失。迁移至下游任务时，不再向 Overview-Net 施加辅助监督信号。密集预测任务中，使用来自 Base-Net 和 Focus-Net 不同分辨率的特征构建特征金字塔。

Base-Net 和 Overview-Net 采用 Basic Block 作为构建单元。输入特征经过残差 3×3 DWConv 执行局部感知，随后进入由 Layer Normalization、Dilated RepConv、SE 层和 ConvFFN 组成的模块。

Focus-Net 采用 Dynamic Block，包含残差 3×3 DWConv、GDSA（门控动态空间聚合器）和 ConvFFN。GDSA 使用 ContMix 作为核心 Token Mixer，并引入门控机制消除上下文噪声。

上下文流 Focus-Net 内部存在动态上下文流。来自 Overview-Net 的先验上下文在特征和 Kernel Weight 层面提供指导。Block 入口处的 Context Prior 和 Feature Map 拼接后送入 GDSA。GDSA 通过动态门控实现特征级引导，ContMix 利用 Context Prior 计算动态核权重实现权重级引导。为防止上下文先验被弱化，初始上下文先验被添加到更新后的先验中。

带上下文混合的动态卷积

ContMix 赋予卷积处理长距离依赖的能力，同时保留强大的归纳偏置。核心思想是利用单个 Token 与一组区域中心 Token 之间的亲和力值集合来表示 Token 与上下文的关系，聚合后定义 Token-wise 动态卷积核。

OverLoCK: 先概览后细看的卷积神经网络与上下文混合动态核

摘要

引言

相关工作

方法

深度阶段分解

带上下文混合的动态卷积

更多推荐文章

相关免费在线工具

网络架构

实验

图像分类

目标检测与实例分割

语义分割

消融研究

结论

更多推荐文章

相关免费在线工具

OverLoCK: 先概览后细看的卷积神经网络与上下文混合动态核

摘要

引言

相关工作

方法

深度阶段分解

带上下文混合的动态卷积

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

网络架构

实验

图像分类

目标检测与实例分割

语义分割

消融研究

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具