PyTorch 从零训练大模型实战：Transformer 架构与训练流程详解 | 极客日志

PythonAI算法

PyTorch 从零训练大模型实战：Transformer 架构与训练流程详解

基于 PyTorch 从零构建 Transformer 大模型的完整流程，涵盖前馈网络、归一化层设计、编码器与解码器堆叠、训练循环与推理测试，深入理解 Attention 机制及架构内部原理。

t ag发布于 2025/2/7更新于 2026/6/222 浏览

步骤 6：前馈网络、层归一化和加法归一化

6.1 前馈网络

前馈网络利用深度神经网络结构，通过两层线性变换来捕捉嵌入向量的特征。第一层将维度从 d_model 扩展到 d_ff，第二层将其映射回 d_model。通常 d_ff 设置为 4 * d_model。

在第一层之后，引入 ReLU 激活函数赋予模型非线性特性，并通过 dropout 技术减少过拟合的风险。

class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super().__init__()
        self.linear_1 = nn.Linear(d_model, d_ff)
        self.dropout = nn.Dropout(dropout)
        self.linear_2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        return self.linear_2(self.dropout(torch.relu(self.linear_1(x))))

6.2 层归一化

通过层归一化处理，可以确保网络中嵌入向量的值分布均衡，从而促进模型的稳定学习。此外，引入 gamma 和 beta 两个可学习的参数，以便对嵌入值进行动态的缩放和平移调整。

class LayerNorm(nn.Module):
    def __init__(self, features, eps=1e-6):
        super().__init__()
        self.alpha = nn.Parameter(torch.ones(features))
        self.beta = nn.Parameter(torch.zeros(features))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(dim=-1, keepdim=True)
        std = x.std(dim=-1, keepdim=True)
        return self.alpha * (x - mean) / (std + .eps) + .beta

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class AddNorm(nn.Module):
    def __init__(self, features, dropout, eps=1e-6):
        super().__init__()
        self.norm = LayerNorm(features, eps)
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, x, mask=None):
        normed = self.norm(x)
        return self.dropout(normed) + x

class EncoderBlock(nn.Module):
    def __init__(self, features, heads, dropout, d_ff):
        super().__init__()
        self.attention = MultiHeadAttention(features, heads, dropout)
        self.feed_forward = FeedForward(features, d_ff, dropout)
        self.add_norm_1 = AddNorm(features, dropout)
        self.add_norm_2 = AddNorm(features, dropout)

    def forward(self, x, mask):
        attn_output = self.attention(x, x, x, mask)
        x = self.add_norm_1(x, attn_output)
        ff_output = self.feed_forward(x)
        x = self.add_norm_2(x, ff_output)
        return x

class Encoder(nn.Module):
    def __init__(self, layers, features, heads, dropout, d_ff):
        super().__init__()
        self.layers = nn.ModuleList([layers(features, heads, dropout, d_ff) for _ in range(layers)])
        self.norm = LayerNorm(features)

    def forward(self, x, mask):
        for layer in self.layers:
            x = layer(x, mask)
        return self.norm(x)

class DecoderBlock(nn.Module):
    def __init__(self, features, heads, dropout, d_ff):
        super().__init__()
        self.mask_attn = MaskedMultiHeadAttention(features, heads, dropout)
        self.cross_attn = MultiHeadAttention(features, heads, dropout)
        self.feed_forward = FeedForward(features, d_ff, dropout)
        self.add_norm_1 = AddNorm(features, dropout)
        self.add_norm_2 = AddNorm(features, dropout)
        self.add_norm_3 = AddNorm(features, dropout)

    def forward(self, x, enc_output, src_mask, tgt_mask):
        attn1 = self.mask_attn(x, x, x, tgt_mask)
        x = self.add_norm_1(x, attn1)
        attn2 = self.cross_attn(x, enc_output, enc_output, src_mask)
        x = self.add_norm_2(x, attn2)
        ff_out = self.feed_forward(x)
        x = self.add_norm_3(x, ff_out)
        return x

class Decoder(nn.Module):
    def __init__(self, layers, features, heads, dropout, d_ff):
        super().__init__()
        self.layers = nn.ModuleList([layers(features, heads, dropout, d_ff) for _ in range(layers)])
        self.norm = LayerNorm(features)

    def forward(self, x, enc_output, src_mask, tgt_mask):
        for layer in self.layers:
            x = layer(x, enc_output, src_mask, tgt_mask)
        return self.norm(x)

class Projection(nn.Module):
    def __init__(self, vocab_size, d_model):
        super().__init__()
        self.proj = nn.Linear(d_model, vocab_size)

    def forward(self, x):
        return self.proj(x)

class Transformer(nn.Module):
    def __init__(self, encoder, decoder, src_embed, tgt_embed, projection):
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.projection = projection

    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask)

    def decode(self, enc_output, src_mask, tgt, tgt_mask):
        tgt_embed = self.tgt_embed(tgt)
        return self.decoder(tgt_embed, enc_output, src_mask, tgt_mask)

    def project(self, x):
        return self.projection(x)
    
    def forward(self, src, tgt, src_mask, tgt_mask):
        enc_output = self.encode(src, src_mask)
        dec_output = self.decode(enc_output, src_mask, tgt, tgt_mask)
        return self.project(dec_output)

def train_model(model, optimizer, criterion, loader, device):
    model.train()
    for batch_idx, batch in enumerate(loader):
        src, tgt = batch['src'].to(device), batch['tgt'].to(device)
        src_mask, tgt_mask = create_masks(src, tgt)
        
        optimizer.zero_grad()
        output = model(src, tgt, src_mask, tgt_mask)
        loss = criterion(output.view(-1, output.size(-1)), tgt.view(-1))
        loss.backward()
        
        optimizer.step()
        
        if batch_idx % 100 == 0:
            print(f"Batch {batch_idx}, Loss: {loss.item()}")
            
    torch.save(model.state_dict(), 'checkpoint.pth')

def translate(text, model, tokenizer, device):
    model.eval()
    tokens = tokenizer.encode(text)
    input_tensor = torch.tensor(tokens).unsqueeze(0).to(device)
    src_mask = create_mask(input_tensor)
    
    output_tokens = []
    while True:
        output = model(input_tensor, None, src_mask, None)
        pred_token = output.argmax(dim=-1)[0, -1].item()
        output_tokens.append(pred_token)
        
        if pred_token == tokenizer.sep_token_id:
            break
        
        new_input = torch.tensor([pred_token]).unsqueeze(0).to(device)
        input_tensor = torch.cat([input_tensor, new_input], dim=1)
        
    return tokenizer.decode(output_tokens)

PyTorch 从零训练大模型实战：Transformer 架构与训练流程详解

步骤 6：前馈网络、层归一化和加法归一化

6.1 前馈网络

6.2 层归一化

更多推荐文章

相关免费在线工具

6.3 加法归一化

步骤 7：编码器块和编码器

7.1 编码器块

7.2 编码器

步骤 8：解码器块、解码器和投影层

8.1 解码器块

8.2 解码器

8.3 投影层

步骤 9：构建 Transformer 模型

步骤 10：训练与验证 LLM 模型

步骤 11：构建并测试新翻译任务的模型

总结

更多推荐文章

相关免费在线工具

PyTorch 从零训练大模型实战：Transformer 架构与训练流程详解

步骤 6：前馈网络、层归一化和加法归一化

6.1 前馈网络

6.2 层归一化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6.3 加法归一化

步骤 7：编码器块和编码器

7.1 编码器块

7.2 编码器

步骤 8：解码器块、解码器和投影层

8.1 解码器块

8.2 解码器

8.3 投影层

步骤 9：构建 Transformer 模型

步骤 10：训练与验证 LLM 模型

步骤 11：构建并测试新翻译任务的模型

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具