Transformer 核心原理与 PyTorch 代码实现详解 | 极客日志

PythonAI算法

Transformer 核心原理与 PyTorch 代码实现详解

详细讲解了 Transformer 模型的核心原理与 PyTorch 实现。内容涵盖注意力机制、自注意力计算流程、位置编码、多头注意力、前馈网络、编码器与解码器结构。通过代码演示了各组件的具体实现及完整模型搭建，并介绍了训练评估流程、损失函数选择及常用指标如 BLEU 和困惑度。此外还探讨了 BERT、GPT 等衍生模型及应用场景，适合希望深入理解 Transformer 架构的开发者。

氛围发布于 2025/2/6更新于 2026/7/1847 浏览

Transformers 架构自提出以来彻底改变了深度学习模型，特别是在自然语言处理领域。本文深入揭示 Transformer 背后的核心概念：注意力机制、编码器 - 解码器架构、多头注意力等，并通过 Python 代码片段展示其具体实现。

一、理解注意力机制

注意力机制是神经网络中一个迷人的概念，特别是在涉及 NLP 任务时。它就像给模型一个聚光灯，让它能够集中注意力在输入序列的某些部分，同时忽略其他部分，类似于人类理解句子时关注特定单词或短语的方式。

我们重点探讨一种特定类型的注意力机制——自注意力（Self-Attention），也称为内部注意力。当你阅读一句话时，大脑会自动突出显示重要的单词来理解意思。这就是自注意力的基本原理：使序列中的每个单词都能'关注'其他单词（包括自己），以更好地理解上下文。

二、自注意力是如何工作的？

以下是自注意力在一个简单示例中的工作原理：

1. 嵌入 (Embedding) 首先，模型将输入序列中的每个单词嵌入到一个高维向量表示中。这个嵌入过程允许模型捕捉单词之间的语义相似性。

2. 查询、键和值向量 (Query, Key, Value) 接下来，模型为序列中的每个单词计算三个向量：

查询向量 (Query)：表示单词的查询，即模型在序列中寻找的内容。
键向量 (Key)：表示单词的键，即序列中其他单词应该注意的内容。
值向量 (Value)：表示单词的值，即单词对输出所贡献的信息。

3. 注意力分数 (Attention Scores) 一旦计算出 Q、K、V 向量，模型会为序列中的每一对单词计算注意力分数。这通常通过取查询向量和键向量的点积来实现，以评估单词之间的相似性。

4. SoftMax 归一化 然后，使用 softmax 函数对注意力分数进行归一化，以获得注意力权重。这些权重表示每个单词应该关注序列中其他单词的程度。注意力权重较高的单词被认为对正在执行的任务更为关键。

5. 加权求和 最后，使用注意力权重计算值向量的加权和。这产生了每个序列中单词的自注意力机制输出，捕获了来自其他单词的上下文信息。

下面是一个计算注意力分数的简单解释：

# 安装 PyTorch   !pip install torch==2.2.1+cu121      # 导入库   import torch   import torch.nn.functional as F      # 示例输入序列   input_sequence = torch.tensor([[0.1, 0.2, 0.3], [0.4, 0.5, 0.6], [0.7, 0.8, 0.9]])      # 生成 Key、Query 和 Value 矩阵的随机权重   random_weights_key = torch.randn(input_sequence.size(-1), input_sequence.size(-1))   random_weights_query = torch.randn(input_sequence.size(-1), input_sequence.size(-1))   random_weights_value = torch.randn(input_sequence.size(-1), input_sequence.size(-1))      # 计算 Key、Query 和 Value 矩阵   key = torch.matmul(input_sequence, random_weights_key)   query = torch.matmul(input_sequence, random_weights_query)   value = torch.matmul(input_sequence, random_weights_value)      # 计算注意力分数   attention_scores = torch.matmul(query, key.T) / torch.sqrt(torch.tensor(query.size(-1), dtype=torch.float32))      # 使用 softmax 函数获得注意力权重   attention_weights = F.softmax(attention_scores, dim=-1)      # 计算 Value 向量的加权和   output = torch.matmul(attention_weights, value)      print("自注意力机制后的输出:")   print(output)

三、Transformer 模型的基础

在我们深入探讨 Transformer 模型的复杂工作原理之前，让我们花点时间欣赏其开创性的架构。Transformer 模型通过引入围绕自注意力机制的新颖方法，重塑了自然语言处理（NLP）的格局。

1. 编码器 - 解码器架构 在 Transformer 的核心是其编码器 - 解码器架构——两个关键组件之间的共生关系，分别负责处理输入序列和生成输出序列。编码器和解码器中的每一层都包含相同的子层，包括自注意力机制和前馈网络。这种架构不仅有助于全面理解输入序列，而且能够生成上下文丰富的输出序列。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

#import libraries   import math   import torch   import torch.nn as nn   import torch.optim as optim   import torch.nn.functional as F

# 位置编码的实现   class PositionalEncoding(nn.Module):       def __init__(self, d_model, max_len=5000):           super(PositionalEncoding, self).__init__()                      # 计算位置编码           pe = torch.zeros(max_len, d_model)           position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)           div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-torch.log(           torch.tensor(10000.0)) / d_model))           pe[:, 0::2] = torch.sin(position * div_term)           pe[:, 1::2] = torch.cos(position * div_term)           pe = pe.unsqueeze(0)           self.register_buffer('pe', pe)          def forward(self, x):           x = x + self.pe[:, :x.size(1)]           return x      # 示例用法   d_model = 512   max_len = 100   num_heads = 8      # 位置编码   pos_encoder = PositionalEncoding(d_model, max_len)      # 示例输入序列   input_sequence = torch.randn(5, max_len, d_model)      # 应用位置编码   input_sequence = pos_encoder(input_sequence)   print("输入序列的位置编码:")   print(input_sequence.shape)

# 多头注意力的代码实现   class MultiHeadAttention(nn.Module):       def __init__(self, d_model, num_heads):           super(MultiHeadAttention, self).__init__()           self.num_heads = num_heads           self.d_model = d_model           assert d_model % num_heads == 0           self.depth = d_model // num_heads                      # 查询、键和值的线性投影           self.query_linear = nn.Linear(d_model, d_model)           self.key_linear = nn.Linear(d_model, d_model)           self.value_linear = nn.Linear(d_model, d_model)                      # 输出线性投影           self.output_linear = nn.Linear(d_model, d_model)              def split_heads(self, x):         batch_size, seq_length, d_model = x.size()         return x.view(batch_size, seq_length, self.num_heads, self.depth).transpose(1, 2)              def forward(self, query, key, value, mask=None):                      # 线性投影           query = self.query_linear(query)           key = self.key_linear(key)           value = self.value_linear(value)                      # 分割头部           query = self.split_heads(query)           key = self.split_heads(key)           value = self.split_heads(value)                      # 缩放点积注意力           scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.depth)                      # 如果提供了掩码，则应用掩码           if mask is not None:               scores += scores.masked_fill(mask == 0, -1e9)                      # 计算注意力权重并应用 softmax           attention_weights = torch.softmax(scores, dim=-1)                      # 应用注意力到值           attention_output = torch.matmul(attention_weights, value)                      # 合并头部           batch_size, _, seq_length, d_k = attention_output.size()           attention_output = attention_output.transpose(1, 2).contiguous().view(batch_size,           seq_length, self.d_model)                      # 线性投影           attention_output = self.output_linear(attention_output)                      return attention_output      # 示例用法   d_model = 512   max_len = 100   num_heads = 8   d_ff = 2048      # 多头注意力   multihead_attn = MultiHeadAttention(d_model, num_heads)      # 示例输入序列   input_sequence = torch.randn(5, max_len, d_model)      # 多头注意力   attention_output= multihead_attn(input_sequence, input_sequence, input_sequence)   print("attention_output shape:", attention_output.shape)

# 前馈网络的代码实现   class FeedForward(nn.Module):       def __init__(self, d_model, d_ff):           super(FeedForward, self).__init__()           self.linear1 = nn.Linear(d_model, d_ff)           self.linear2 = nn.Linear(d_ff, d_model)           self.relu = nn.ReLU()          def forward(self, x):           # 线性变换 1           x = self.relu(self.linear1(x))                      # 线性变换 2           x = self.linear2(x)                      return x      # 示例用法   d_model = 512   max_len = 100   num_heads = 8   d_ff = 2048      # 前馈网络   ff_network = FeedForward(d_model, d_ff)      # 示例输入序列   input_sequence = torch.randn(5, max_len, d_model)      # 前馈网络   output_ff = ff_network(input_sequence)   print('input_sequence',input_sequence.shape)   print("output_ff", output_ff.shape)

# 编码器的代码实现   class EncoderLayer(nn.Module):       def __init__(self, d_model, num_heads, d_ff, dropout):           super(EncoderLayer, self).__init__()           self.self_attention = MultiHeadAttention(d_model, num_heads)           self.feed_forward = FeedForward(d_model, d_ff)           self.norm1 = nn.LayerNorm(d_model)           self.norm2 = nn.LayerNorm(d_model)           self.dropout = nn.Dropout(dropout)              def forward(self, x, mask):                      # 自注意力层           attention_output= self.self_attention(x, x,           x, mask)           attention_output = self.dropout(attention_output)           x = x + attention_output           x = self.norm1(x)                      # 前馈层           feed_forward_output = self.feed_forward(x)           feed_forward_output = self.dropout(feed_forward_output)           x = x + feed_forward_output           x = self.norm2(x)                      return x      d_model = 512   max_len = 100   num_heads = 8   d_ff = 2048         # 多头注意力   encoder_layer = EncoderLayer(d_model, num_heads, d_ff, 0.1)      # 示例输入序列   input_sequence = torch.randn(1, max_len, d_model)      # 多头注意力   encoder_output= encoder_layer(input_sequence, None)   print("encoder output shape:", encoder_output.shape)

# 解码器的代码实现   class DecoderLayer(nn.Module):       def __init__(self, d_model, num_heads, d_ff, dropout):           super(DecoderLayer, self).__init__()           self.masked_self_attention = MultiHeadAttention(d_model, num_heads)           self.enc_dec_attention = MultiHeadAttention(d_model, num_heads)           self.feed_forward = FeedForward(d_model, d_ff)           self.norm1 = nn.LayerNorm(d_model)           self.norm2 = nn.LayerNorm(d_model)           self.norm3 = nn.LayerNorm(d_model)           self.dropout = nn.Dropout(dropout)          def forward(self, x, encoder_output, src_mask, tgt_mask):                      # 掩码的自注意力层           self_attention_output= self.masked_self_attention(x, x, x, tgt_mask)           self_attention_output = self.dropout(self_attention_output)           x = x + self_attention_output           x = self.norm1(x)                      # 编码器 - 解码器注意力层           enc_dec_attention_output= self.enc_dec_attention(x, encoder_output,            encoder_output, src_mask)           enc_dec_attention_output = self.dropout(enc_dec_attention_output)           x = x + enc_dec_attention_output           x = self.norm2(x)                      # 前馈层           feed_forward_output = self.feed_forward(x)           feed_forward_output = self.dropout(feed_forward_output)           x = x + feed_forward_output           x = self.norm3(x)                      return x      # 定义 DecoderLayer 的参数   d_model = 512  # 模型的维度   num_heads = 8  # 注意力头的数量   d_ff = 2048    # 前馈网络的维度   dropout = 0.1  # 丢弃概率   batch_size = 1 # 批量大小   max_len = 100  # 序列的最大长度      # 定义 DecoderLayer 实例   decoder_layer = DecoderLayer(d_model, num_heads, d_ff, dropout)         src_mask = torch.rand(batch_size, max_len, max_len) > 0.5   tgt_mask = torch.tril(torch.ones(max_len, max_len)).unsqueeze(0) == 0      # 将输入张量传递到 DecoderLayer   output = decoder_layer(input_sequence, encoder_output, src_mask, tgt_mask)      # 输出形状   print("Output shape:", output.shape)

# TRANSFORMER 的实现   class Transformer(nn.Module):       def __init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff,       max_len, dropout):           super(Transformer, self).__init__()              # 定义编码器和解码器的词嵌入层           self.encoder_embedding = nn.Embedding(src_vocab_size, d_model)           self.decoder_embedding = nn.Embedding(tgt_vocab_size, d_model)              # 定义位置编码层           self.positional_encoding = PositionalEncoding(d_model, max_len)              # 定义编码器和解码器的多层堆叠           self.encoder_layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout)           for _ in range(num_layers)])           self.decoder_layers = nn.ModuleList([DecoderLayer(d_model, num_heads, d_ff, dropout)           for _ in range(num_layers)])              # 定义线性层           self.linear = nn.Linear(d_model, tgt_vocab_size)           self.dropout = nn.Dropout(dropout)          # 生成掩码       def generate_mask(self, src, tgt):           src_mask = (src != 0).unsqueeze(1).unsqueeze(2)           tgt_mask = (tgt != 0).unsqueeze(1).unsqueeze(3)           seq_length = tgt.size(1)           nopeak_mask = (1 - torch.triu(torch.ones(1, seq_length, seq_length), diagonal=1)).bool()           tgt_mask = tgt_mask & nopeak_mask           return src_mask, tgt_mask          # 前向传播       def forward(self, src, tgt):           src_mask, tgt_mask = self.generate_mask(src, tgt)              # 编码器输入的词嵌入和位置编码           encoder_embedding = self.encoder_embedding(src)           en_positional_encoding = self.positional_encoding(encoder_embedding)           src_embedded = self.dropout(en_positional_encoding)              # 解码器输入的词嵌入和位置编码           decoder_embedding = self.decoder_embedding(tgt)           de_positional_encoding = self.positional_encoding(decoder_embedding)           tgt_embedded = self.dropout(de_positional_encoding)              enc_output = src_embedded           for enc_layer in self.encoder_layers:               enc_output = enc_layer(enc_output, src_mask)              dec_output = tgt_embedded           for dec_layer in self.decoder_layers:               dec_output = dec_layer(dec_output, enc_output, src_mask, tgt_mask)              output = self.linear(dec_output)           return output      # 示例用法   src_vocab_size = 5000   tgt_vocab_size = 5000   d_model = 512   num_heads = 8   num_layers = 6   d_ff = 2048   max_len = 100   dropout = 0.1      transformer = Transformer(src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers,    d_ff, max_len, dropout)      # 生成随机示例数据   src_data = torch.randint(1, src_vocab_size, (5, max_len))  # (batch_size, seq_length)   tgt_data = torch.randint(1, tgt_vocab_size, (5, max_len))  # (batch_size, seq_length)   transformer(src_data, tgt_data[:, :-1]).shape

# Transformer 模型的训练和评估   criterion = nn.CrossEntropyLoss(ignore_index=0)   optimizer = optim.Adam(transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)      # 训练循环   transformer.train()      for epoch in range(10):       optimizer.zero_grad()       output = transformer(src_data, tgt_data[:, :-1])       loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:]       .contiguous().view(-1))       loss.backward()       optimizer.step()       print(f"第 {epoch+1} 轮：损失= {loss.item():.4f}")         # 虚拟数据   src_data = torch.randint(1, src_vocab_size, (5, max_len))  # (batch_size, seq_length)   tgt_data = torch.randint(1, tgt_vocab_size, (5, max_len))  # (batch_size, seq_length)      # 评估循环   transformer.eval()   with torch.no_grad():       output = transformer(src_data, tgt_data[:, :-1])       loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:]       .contiguous().view(-1))       print(f"\n虚拟数据的评估损失= {loss.item():.4f}")

from transformers import BertModel, BertTokenizer      tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')   model = BertModel.from_pretrained('bert-base-uncased')      inputs = tokenizer("Hello, world!", return_tensors="pt")   outputs = model(**inputs)   print(outputs)

from transformers import GPT2LMHeadModel, GPT2Tokenizer      tokenizer = GPT2Tokenizer.from_pretrained('gpt2')   model = GPT2LMHeadModel.from_pretrained('gpt2')      input_text = "Once upon a time, "   inputs=tokenizer(input_text,return_tensors='pt')   output=tokenizer.decode(       model.generate(           **inputs,           max_new_tokens=100,         )[0],         skip_special_tokens=True     )   input_ids = tokenizer(input_text, return_tensors='pt')      print(output)

Transformer 核心原理与 PyTorch 代码实现详解

一、理解注意力机制

二、自注意力是如何工作的？

三、Transformer 模型的基础

更多推荐文章

相关免费在线工具

四、Transformer 组件的详细说明

五、Transformer 模型架构

六、模型的训练与评估

七、训练和评估的实现

八、高级主题和应用

九、总结

更多推荐文章

相关免费在线工具

Transformer 核心原理与 PyTorch 代码实现详解

一、理解注意力机制

二、自注意力是如何工作的？

三、Transformer 模型的基础

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、Transformer 组件的详细说明

五、Transformer 模型架构

六、模型的训练与评估

七、训练和评估的实现

八、高级主题和应用

九、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具