AlexNet 经典神经网络原理与 PyTorch 实现详解

AlexNet 经典神经网络原理与 PyTorch 实现详解 | 极客日志

层号	层类型	kernel / stride / pad	输出通道	输出尺度（示例）	备注
输入	—	—	3	227×227×3（或 224×224×3）	先做 scale → crop
Conv1	Conv 11×11, s=4, p=2	11×11 / 4 / 2	96	55×55×96	ReLU → LRN → MaxPool(3,2)
Pool1	MaxPool 3×3, s=2	—	—	27×27×96	—
Conv2	Conv 5×5, s=1, p=2, groups=2	5×5 / 1 / 2	256	27×27×256	ReLU → LRN → Pool
Pool2	MaxPool 3×3, s=2	—	—	13×13×256	—
Conv3	Conv 3×3, s=1, p=1	3×3 / 1 / 1	384	13×13×384	ReLU
Conv4	Conv 3×3, s=1, p=1, groups=2	3×3 / 1 / 1	384	13×13×384	ReLU
Conv5	Conv 3×3, s=1, p=1, groups=2	3×3 / 1 / 1	256	13×13×256	ReLU → Pool (->6×6×256)
FC6	Linear	—	4096	1×1×4096	Dropout(0.5)
FC7	Linear	—	4096	1×1×4096	Dropout(0.5)
FC8	Linear	—	1000	logits	Softmax / CrossEntropyLoss

# alexnet_pytorch.py
import torch
import torch.nn as nn
import torch.nn.functional as F

class AlexNetOriginal(nn.Module):
    def __init__(self, num_classes=1000, dropout=0.5):
        super(AlexNetOriginal, self).__init__()
        self.features = nn.Sequential(
            # Conv1: 3 -> 96, kernel 11, stride 4, pad 2
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.LocalResponseNorm(size=5, alpha=1e-4, beta=0.75, k=2.0),
            nn.MaxPool2d(kernel_size=3, stride=2),
            # Conv2: 96 -> 256, kernel 5, pad 2, groups=2 (paper used 2 GPUs)
            nn.Conv2d(96, 256, kernel_size=5, padding=2, groups=2),
            nn.ReLU(inplace=True),
            nn.LocalResponseNorm(size=5, alpha=1e-4, beta=0.75, k=2.0),
            nn.MaxPool2d(kernel_size=3, stride=2),
            # Conv3: 256 -> 384, kernel 3, pad 1
            nn.Conv2d(256, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            # Conv4: 384 -> 384, kernel 3, pad 1, groups=2
            nn.Conv2d(384, 384, kernel_size=3, padding=1, groups=2),
            nn.ReLU(inplace=True),
            # Conv5: 384 -> 256, kernel 3, pad 1, groups=2
            nn.Conv2d(384, 256, kernel_size=3, padding=1, groups=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        # ensure fixed flatten size: use adaptive pooling -> 6x6
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(p=dropout),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = self.avgpool(x)  # shape -> (N, 256, 6, 6)
        x = torch.flatten(x, 1)  # shape -> (N, 256*6*6)
        x = self.classifier(x)
        return x

# Example: instantiate model
# model = AlexNetOriginal(num_classes=1000)
# print(model)

# 伪代码概览（简化版，不含 DataLoader 构造）
model = AlexNetOriginal(num_classes=1000).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=5e-4)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

for epoch in range(epochs):
    model.train()
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        logits = model(images)
        loss = criterion(logits, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    # 验证 & 学习率调整
    scheduler.step()
    # 记录 train/val loss 与 top-1/top-5 accuracy

AlexNet 经典神经网络原理与 PyTorch 实现详解

AlexNet（详解）——从原理到 PyTorch 实现（含训练示例）

1. 发展历史与比赛成绩

2. AlexNet 的核心思想（一句话）

3. 模型结构总览（概览表）

4. 逐层计算举例（重点：尺寸 & 参数如何得到）

例 1：Conv1 输出尺寸（两种常见约定）

例 2：参数量计算（按层逐项示例）

5. 关键设计点解析（为什么这些创新重要）

6. PyTorch 实现（完整代码 —— 可复制粘贴）

7. 训练与评估（实践步骤 + 超参数建议）

8. 实验扩展（建议做的对比实验）

9. 总结

更多推荐文章

相关免费在线工具

AlexNet 经典神经网络原理与 PyTorch 实现详解

AlexNet（详解）——从原理到 PyTorch 实现（含训练示例）

1. 发展历史与比赛成绩

2. AlexNet 的核心思想（一句话）

3. 模型结构总览（概览表）

4. 逐层计算举例（重点：尺寸 & 参数如何得到）

例 1：Conv1 输出尺寸（两种常见约定）

例 2：参数量计算（按层逐项示例）

5. 关键设计点解析（为什么这些创新重要）

6. PyTorch 实现（完整代码 —— 可复制粘贴）

7. 训练与评估（实践步骤 + 超参数建议）

8. 实验扩展（建议做的对比实验）

9. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具