一、分组卷积的基础原理
1. 传统卷积的瓶颈与挑战
做深度学习的朋友都知道,传统卷积层虽然能通过跨通道的全局交互提取特征,但其计算复杂度与参数量是随通道数呈二次增长的。比如输入有 256 个通道,输出 512 个通道时,每个输出通道都需要和所有输入通道'互动',这会导致参数量和计算量变得非常大。
这种设计在实际应用中会带来几个明显问题:
- 计算效率低下:GPU 显存占用高,训练和推理耗时增加
- 特征冗余:不同通道的特征提取缺乏结构化差异,存在重复计算
- 过拟合风险:当参数规模增长快于数据规模时,模型更容易过拟合
2. 分组卷积的核心机制与数学表达
可以把分组卷积想象成'分而治之'的策略。具体来说,就是把一个大团队分成多个小团队,每个小团队只负责一部分工作。
- 分组处理:把输入通道和输出通道分成若干组(比如分成 4 组)。例如输入 256 个通道分成 4 组,每组 64 个通道;输出 512 个通道也分成 4 组,每组 128 个通道。
- 独立计算:每个小组的卷积核只处理自己组内的输入通道,生成对应的输出通道,组与组之间不交叉。
- 结果合并:最后把各个小组的输出结果拼接起来,得到最终的特征图。

3. 分组卷积的技术优势
通过上述机制,分组卷积在保持特征提取能力的同时,显著降低了计算负担。它打破了传统卷积中通道间的全连接限制,让模型能够以更少的参数实现更高效的特征学习,为后续 ResNext 等架构的设计奠定了基础。


