Transformer 原理详解与 PyTorch 编码实现 | 极客日志

PythonAI算法

Transformer 原理详解与 PyTorch 编码实现

Transformer 模型通过注意力机制和编码器 - 解码器架构彻底改变了自然语言处理领域。详细解析了自注意力、位置编码、多头注意力及前馈网络等核心组件的工作原理，并提供了基于 PyTorch 的完整代码实现，涵盖从基础组件到完整模型训练评估的全过程。内容涉及 BERT 与 GPT 等衍生模型，适合希望深入理解 Transformer 底层逻辑与工程实现的开发者。

怪力乱神发布于 2025/2/7更新于 2026/7/2135 浏览

Transformers 亮相以来彻底改变了深度学习模型。

今天，我们来揭示 Transformers 背后的核心概念：注意力机制、编码器 - 解码器架构、多头注意力等等。

通过 Python 代码片段，让你深入了解其原理。

一、理解注意力机制

注意力机制是神经网络中一个迷人的概念，特别是在涉及到像 NLP 这样的任务时。它就像给模型一个聚光灯，让它能够集中注意力在输入序列的某些部分，同时忽略其他部分，就像我们人类在理解句子时关注特定的单词或短语一样。

现在，让我们深入了解一种特定类型的注意力机制，称为自注意力，也称为内部注意力。想象一下，当你阅读一句话时，你的大脑会自动突出显示重要的单词或短语来理解意思。这就是神经网络中自注意力的基本原理。它使序列中的每个单词都能'关注'其他单词，包括自己在内，以更好地理解上下文。

二、自注意力是如何工作的？

以下是自注意力在一个简单示例中的工作原理：

考虑一句话：'The cat sat on the mat.'

嵌入

首先，模型将输入序列中的每个单词嵌入到一个高维向量表示中。这个嵌入过程允许模型捕捉单词之间的语义相似性。

查询、键和值向量

接下来，模型为序列中的每个单词计算三个向量：查询向量、键向量和值向量。在训练过程中，模型学习这些向量，每个向量都有不同的作用。查询向量表示单词的查询，即模型在序列中寻找的内容。键向量表示单词的键，即序列中其他单词应该注意的内容。值向量表示单词的值，即单词对输出所贡献的信息。

注意力分数

一旦模型计算了每个单词的查询、键和值向量，它就会为序列中的每一对单词计算注意力分数。这通常通过取查询向量和键向量的点积来实现，以评估单词之间的相似性。

SoftMax 归一化

然后，使用 softmax 函数对注意力分数进行归一化，以获得注意力权重。这些权重表示每个单词应该关注序列中其他单词的程度。注意力权重较高的单词被认为对正在执行的任务更为关键。

加权求和

最后，使用注意力权重计算值向量的加权和。这产生了每个序列中单词的自注意力机制输出，捕获了来自其他单词的上下文信息。

下面是一个计算注意力分数的简单解释：

# 安装 PyTorch
!pip install torch==2.2.1+cu121

# 导入库
import torch
import torch.nn.functional as F

# 示例输入序列
input_sequence = torch.tensor([[0.1, 0.2, 0.3], [0.4, 0.5, 0.6], [0.7, 0.8, 0.9]])

# 生成 Key、Query 和 Value 矩阵的随机权重
random_weights_key = torch.randn(input_sequence.size(-1), input_sequence.size(-1))
random_weights_query = torch.randn(input_sequence.size(-1), input_sequence.size(-1))
random_weights_value = torch.randn(input_sequence.size(-), input_sequence.size(-))


key = torch.matmul(input_sequence, random_weights_key)
query = torch.matmul(input_sequence, random_weights_query)
value = torch.matmul(input_sequence, random_weights_value)


attention_scores = torch.matmul(query, key.T) / torch.sqrt(torch.tensor(query.size(-), dtype=torch.float32))


attention_weights = F.softmax(attention_scores, dim=-)


output = torch.matmul(attention_weights, value)
()
(output)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super(PositionalEncoding, self).__init__()
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)

    def forward(self, x):
        return x + self.pe[:, :x.size(1)]

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model
        self.d_k = d_model // num_heads
        self.w_q = nn.Linear(d_model, d_model)
        self.w_k = nn.Linear(d_model, d_model)
        self.w_v = nn.Linear(d_model, d_model)
        self.w_o = nn.Linear(d_model, d_model)

    def attention(self, q, k, v, mask=None):
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.d_k)
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        scores = F.softmax(scores, dim=-1)
        output = torch.matmul(scores, v)
        return output

    def forward(self, q, k, v, mask=None):
        batch_size = q.size(0)
        q = self.w_q(q).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        k = self.w_k(k).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        v = self.w_v(v).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
        out = self.attention(q, k, v, mask)
        out = out.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
        return self.w_o(out)

class FeedForwardNetwork(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(FeedForwardNetwork, self).__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.dropout = nn.Dropout(dropout)
        self.linear2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        return self.linear2(self.dropout(F.relu(self.linear1(x))))

class EncoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super(EncoderLayer, self).__init__()
        self.attention = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = FeedForwardNetwork(d_model, d_ff, dropout)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, mask=None):
        x = self.norm1(x + self.dropout(self.attention(x, x, x, mask)))
        x = self.norm2(x + self.dropout(self.feed_forward(x)))
        return x

class DecoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super(DecoderLayer, self).__init__()
        self.attention = MultiHeadAttention(d_model, num_heads)
        self.cross_attention = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = FeedForwardNetwork(d_model, d_ff, dropout)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, enc_output, src_mask, tgt_mask=None):
        x = self.norm1(x + self.dropout(self.attention(x, x, x, tgt_mask)))
        x = self.norm2(x + self.dropout(self.cross_attention(x, enc_output, enc_output, src_mask)))
        x = self.norm3(x + self.dropout(self.feed_forward(x)))
        return x

import torch.nn as nn
import torch.optim as optim
import math
import torch.nn.functional as F

class Transformer(nn.Module):
    def __init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff, 
                 max_len, dropout):
        super(Transformer, self).__init__()      
          
        # 定义编码器和解码器的词嵌入层        
        self.encoder_embedding = nn.Embedding(src_vocab_size, d_model)        
        self.decoder_embedding = nn.Embedding(tgt_vocab_size, d_model)     
           
        # 定义位置编码层        
        self.positional_encoding = PositionalEncoding(d_model, max_len)   
             
        # 定义编码器和解码器的多层堆叠        
        self.encoder_layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout)        
        for _ in range(num_layers)])        
        self.decoder_layers = nn.ModuleList([DecoderLayer(d_model, num_heads, d_ff, dropout)        
        for _ in range(num_layers)])  
              
        # 定义线性层        
        self.linear = nn.Linear(d_model, tgt_vocab_size)        
        self.dropout = nn.Dropout(dropout)    

    # 生成掩码    
    def generate_mask(self, src, tgt):        
        src_mask = (src != 0).unsqueeze(1).unsqueeze(2)        
        tgt_mask = (tgt != 0).unsqueeze(1).unsqueeze(3)        
        seq_length = tgt.size(1)        
        nopeak_mask = (1 - torch.triu(torch.ones(1, seq_length, seq_length), diagonal=1)).bool()        
        tgt_mask = tgt_mask & nopeak_mask        
        return src_mask, tgt_mask    
        
    # 前向传播    
    def forward(self, src, tgt):
        src_mask, tgt_mask = self.generate_mask(src, tgt)   
             
        # 编码器输入的词嵌入和位置编码        
        encoder_embedding = self.encoder_embedding(src)        
        en_positional_encoding = self.positional_encoding(encoder_embedding)        
        src_embedded = self.dropout(en_positional_encoding)  
              
        # 解码器输入的词嵌入和位置编码        
        decoder_embedding = self.decoder_embedding(tgt)        
        de_positional_encoding = self.positional_encoding(decoder_embedding)        
        tgt_embedded = self.dropout(de_positional_encoding)      
         
        enc_output = src_embedded        
        for enc_layer in self.encoder_layers:      
            enc_output = enc_layer(enc_output, src_mask)      
              
        dec_output = tgt_embedded        
        for dec_layer in self.decoder_layers:     
            dec_output = dec_layer(dec_output, enc_output, src_mask, tgt_mask)   
                 
        output = self.linear(dec_output)        
        return output
        
# 示例用法
src_vocab_size = 5000
tgt_vocab_size = 5000
d_model = 512
num_heads = 8
num_layers = 6
d_ff = 2048
max_len = 100
dropout = 0.1

transformer = Transformer(src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, 
d_ff, max_len, dropout)

# 生成随机示例数据
src_data = torch.randint(1, src_vocab_size, (5, max_len))  # (batch_size, seq_length)
tgt_data = torch.randint(1, tgt_vocab_size, (5, max_len))  # (batch_size, seq_length)
transformer(src_data, tgt_data[:, :-1]).shape

# Transformer 模型的训练和评估
criterion = nn.CrossEntropyLoss(ignore_index=0)
optimizer = optim.Adam(transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)

# 训练循环
transformer.train()

for epoch in range(10):
    optimizer.zero_grad()    
    output = transformer(src_data, tgt_data[:, :-1])    
    loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:]    
    .contiguous().view(-1))    
    loss.backward()    
    optimizer.step()    
    print(f"第 {epoch+1} 轮：损失= {loss.item():.4f}")
    
# 虚拟数据
src_data = torch.randint(1, src_vocab_size, (5, max_len))  # (batch_size, seq_length)
tgt_data = torch.randint(1, tgt_vocab_size, (5, max_len))  # (batch_size, seq_length)
# 评估循环
transformer.eval()
with torch.no_grad():
    output = transformer(src_data, tgt_data[:, :-1])    
    loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:]    
    .contiguous().view(-1))    
    print(f"\n虚拟数据的评估损失= {loss.item():.4f}")

Transformer 原理详解与 PyTorch 编码实现

一、理解注意力机制

二、自注意力是如何工作的？

更多推荐文章

相关免费在线工具

三、Transformer 模型的基础

四、Transformer 组件的详细说明

五、Transformer 模型架构

六、模型的训练与评估

七、训练和评估的实现

八、高级主题和应用

九、总结

更多推荐文章

相关免费在线工具

Transformer 原理详解与 PyTorch 编码实现

一、理解注意力机制

二、自注意力是如何工作的？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、Transformer 模型的基础

四、Transformer 组件的详细说明

五、Transformer 模型架构

六、模型的训练与评估

七、训练和评估的实现

八、高级主题和应用

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具