一、空洞卷积的基础原理
空洞卷积(Dilated Convolution) 是一种改进的卷积操作,通过在卷积核中引入'空洞'来扩大感受野。想象你通过一个 3x3 的窗口看图片,空洞卷积允许窗口跳过某些像素,比如跳过 1 个像素,实际覆盖 5x5 的区域,但参数量不变。

1. 传统卷积的短板
在聊空洞卷积之前,我们先看看传统卷积神经网络(CNN)是怎么工作的,以及它在某些场景下有哪些不足。传统卷积的做法是用一个固定大小的卷积核在输入图像上滑动,逐个区域地提取特征。例如,一个 3x3 的卷积核在图像上滑动,每次生成一个新的特征值,形成特征图。

这种方法在很多视觉任务里效果很好,但也有些让人头疼的地方。
- 感受野有限:传统卷积能看到的区域(也就是感受野)取决于卷积核的大小和网络的层数。想看到更大的范围,要么堆更多层,要么用更大的卷积核。感受野是卷积核能看到的输入区域大小。对于 3x3 的核,覆盖范围小;要看更大的区域,要么用更大核,要么加深网络层数,但这都会显著增加计算量和参数量,模型变得臃肿。


