
一、空洞卷积的基础原理
空洞卷积(Dilated Convolution) 是一种改进的卷积操作,通过在卷积核中引入'空洞'来扩大感受野。直观来看,就像你通过一个 3x3 的窗口观察图像,传统卷积会连续覆盖像素,而空洞卷积允许窗口跳过某些像素。例如,在 3x3 的核中设置空洞率为 1,实际覆盖的区域相当于 5x5,但参数量保持不变。

1. 传统卷积的局限
在深入空洞卷积前,我们先回顾一下传统卷积神经网络(CNN)的工作机制及其局限性。传统卷积的做法是用一个固定大小的卷积核在输入数据上滑动,逐个区域地提取特征。例如,一个 3x3 的卷积核在图像上滑动,每次生成一个新的特征值,形成特征图。

尽管该方法在诸多视觉任务中表现优异,但在特定场景下仍存在明显瓶颈。
- 感受野有限:传统卷积能看到的区域大小取决于卷积核的大小和网络的层数。对于 3x3 的核,单层的覆盖范围较小;若要看到更大的区域,要么堆叠更多层,要么使用更大的卷积核。但这都会显著增加计算量和参数量,导致模型变得臃肿。


