CNN 经典架构演进与 PyTorch 实战指南

CNN 经典架构演进与实战指南

卷积神经网络从早期的简单结构发展到如今的深度模型，其核心驱动力始终围绕着解决深层网络的性能瓶颈以及提升特征提取的效率与精度。

核心驱动力

在早期应用中，研究人员发现两个关键问题制约了模型发展：一是网络加深后出现梯度消失或梯度爆炸，导致无法收敛；二是简单堆叠卷积层造成特征冗余和计算资源浪费，泛化能力受限。

值得注意的是，CNN 的进阶并非单纯堆层数，而是通过结构创新、参数优化和训练技巧的结合实现突破。每一次经典架构的升级，都是针对当时技术痛点的创新性解决方案。

经典架构深度解析

LeNet-5：基础范式

作为 1998 年提出的首个实用 CNN 架构，LeNet-5 专为手写数字识别设计，定义了卷积层 + 池化层 + 全连接层的经典流程。它包含 2 个卷积层、2 个池化层和 3 个全连接层，使用 5×5 卷积核提取底层特征，并通过平均池化降低维度。

import torch
import torch.nn as nn
import torch.nn.functional as F

class LeNet5(nn.Module):
    def __init__(self, num_classes=10):
        super(LeNet5, self).__init__()
        # 卷积层 1：输入 1 通道，输出 6 通道，卷积核 5×5
        self.conv1 = nn.Conv2d(1, 6, kernel_size=5, padding=2)
        # 池化层 1：2×2 平均池化
        self.pool1 = nn.AvgPool2d(kernel_size=2, stride=2)
        # 卷积层 2：输入 6 通道，输出 16 通道
        self.conv2 = nn.Conv2d(6, 16, kernel_size=5)
        # 池化层 2：2×2 平均池化
        self.pool2 = nn.AvgPool2d(kernel_size=2, stride=2)
        # 全连接层
        self.fc1 = nn.Linear(16*5*5, )
        .fc2 = nn.Linear(, )
        .fc3 = nn.Linear(, num_classes)

     ():
        x = .pool1(F.relu(.conv1(x)))
        x = .pool2(F.relu(.conv2(x)))
        x = x.view(-, **)
        x = F.relu(.fc1(x))
        x = F.relu(.fc2(x))
        x = .fc3(x)
         x

model = LeNet5()
test_input = torch.randn(, , , )
output = model(test_input)
()

class ResNet(nn.Module): def __init__(self, block, layers, num_classes=1000): super(ResNet, self).__init__() self.in_channels = 64 self.conv1 = nn.Conv2d(3, self.in_channels, kernel_size=7, stride=2, padding=3, bias=False) self.bn1 = nn.BatchNorm2d(self.in_channels) self.relu = nn.ReLU(inplace=True) self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) self.layer1 = self._make_layer(block, 64, layers[0]) self.layer2 = self._make_layer(block, 128, layers[1], stride=2) self.layer3 = self._make_layer(block, 256, layers[2], stride=2) self.layer4 = self._make_layer(block, 512, layers[3], stride=2) self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(512 * block.expansion, num_classes) self._initialize_weights() def _initialize_weights(self): for m in self.modules(): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu') elif isinstance(m, nn.BatchNorm2d): nn.init.constant_(m.weight, 1) nn.init.constant_(m.bias, 0) def _make_layer(self, block, out_channels, blocks, stride=1): downsample = None if stride != 1 or self.in_channels != out_channels * block.expansion: downsample = nn.Sequential( nn.Conv2d(self.in_channels, out_channels * block.expansion, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels * block.expansion), ) layers = [] layers.append(block(self.in_channels, out_channels, stride, downsample)) self.in_channels = out_channels * block.expansion for _ in range(1, blocks): layers.append(block(self.in_channels, out_channels)) return nn.Sequential(*layers) def forward(self, x): x = self.relu(self.bn1(self.conv1(x))) x = self.maxpool(x) x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = torch.flatten(x, 1) x = self.fc(x) return x def resnet50(num_classes=1000): return ResNet(Bottleneck, [3, 4, 6, 3], num_classes=num_classes) model = resnet50(num_classes=10) test_input = torch.randn(2, 3, 224, 224) output = model(test_input) print(f"ResNet-50 输出形状：{output.shape}")

架构	优点	缺点	适用场景
LeNet-5	结构简单、参数少、训练快	特征提取能力弱	小尺寸简单图像分类
AlexNet	性能优于传统方法、结构清晰	参数较多、不支持极深层	中等规模图像任务
VGGNet	结构统一、易于迁移学习	参数庞大、计算成本高	服务器端图像识别、特征提取
ResNet	支持深层网络、性能优异、泛化能力强	结构相对复杂	几乎所有视觉任务（分类、检测、分割）

CNN 经典架构演进与 PyTorch 实战指南

CNN 经典架构演进与实战指南

核心驱动力

经典架构深度解析

LeNet-5：基础范式

更多推荐文章

相关免费在线工具

AlexNet：深度学习里程碑

VGGNet：统一卷积核尺寸的典范

ResNet：解决深层网络退化问题

实战：基于 ResNet-50 的图像分类

模型搭建

数据预处理与训练配置

训练与验证循环

架构选型建议

更多推荐文章

相关免费在线工具

CNN 经典架构演进与 PyTorch 实战指南

CNN 经典架构演进与实战指南

核心驱动力

经典架构深度解析

LeNet-5：基础范式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

AlexNet：深度学习里程碑

VGGNet：统一卷积核尺寸的典范

ResNet：解决深层网络退化问题

实战：基于 ResNet-50 的图像分类

模型搭建

数据预处理与训练配置

训练与验证循环

架构选型建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具