基于 PyTorch 从零构建 Transformer 模型详解

综述由AI生成Transformer 架构通过注意力机制有效解决了传统 RNN 无法并行处理和长距离依赖的问题。基于 PyTorch 从零构建 Transformer 模型的完整流程，涵盖缩放点积注意力 (SDPA)、多头注意力机制、位置编码、编码器与解码器的具体实现，以及如何组装成完整的机器翻译模型。内容包含关键代码解析与数学原理说明，适合希望深入理解 Transformer 内部机制的开发者参考。

涅槃凤凰发布于 2026/2/21更新于 2026/4/252 浏览

前言

相较于传统的循环神经网络 (RNN) 和卷积神经网络 (CNN)，Transformer 的优势在于能够有效地理解输入和输出序列中元素之间的关系，尤其是在长距离依赖的情况下。与 RNN 不同，Transformer 能够并行训练，显著减少训练时间，并且能够处理大规模数据集。这种创新性的架构在大语言模型 (LLM) 如 ChatGPT、BERT 和 DeepSeek 的发展中起到了关键作用。

在 Transformer 模型之前，自然语言处理 (NLP) 主要依赖 RNN，其中包括长短期记忆 (LSTM) 网络。然而，RNN 按顺序处理信息，无法并行训练，限制了速度，并且在保持序列早期部分信息方面存在困难，难以捕捉长期依赖关系。

Transformer 架构的创新在于其注意力机制。注意力机制通过分配权重来评估序列中单词之间的关系，基于训练数据决定单词之间的语义相关性。这使得像 ChatGPT 这样的模型能够理解单词之间的关系，从而更有效地理解语言数据。为了从零开始构建 Transformer，我们首先探讨自注意力机制的工作原理，包括查询 (query)、键 (key) 和值 (value) 向量的作用，以及缩放点积注意力 (SDPA) 的计算。

注意力机制和 Transformer

要理解机器学习中的 Transformer，首先必须理解注意力机制。该机制使 Transformer 能够识别序列元素之间的长程依赖性。通过注意力机制，Transformer 能够同时关注序列中的每个元素，理解每个单词的上下文。

以单词 "bank" 为例，说明注意力机制如何根据上下文解释词义。在句子 "I went fishing by the river yesterday, remaining near the bank the whole afternoon" 中，单词 "bank" 与 "fishing" 相关联，因为它指的是河岸的区域。相比之下，在句子 "Kate went to the bank after work yesterday and deposited a check there" 中，"bank" 与 "check" 相关联，使得 Transformer 将 "bank" 识别为金融机构。

注意力机制

注意力机制是一种用于确定序列中元素之间相互关系的方法，通过计算得分来表示一个元素与序列中其他元素的关系。在 NLP 中，这一机制有助于有意义地连接句子中的单词。

我们将构建一个由编码器和解码器组成的 Transformer 机器翻译模型，编码器将英语句子转化为捕捉其含义的向量表示，解码器则使用这些向量表示生成法语翻译。

为了将短语 "How are you?" 转换为向量表示，模型首先将其拆分为词元序列 [how, are, you, ?]。每个词元由一个 256 维的向量表示，称为词嵌入 (word embeddings)。编码器还使用位置编码 (positional encoding) 来确定词元在序列中的位置。将位置编码添加到词嵌入中，形成输入嵌入 (input embeddings)，用于计算自注意力 (self-attention)。

计算注意力有多种方法，本节将介绍最常见的方法——缩放点积注意力 (Scaled Dot Product Attention, SDPA)。该机制也称为自注意力 (self-attention)，因为算法计算一个单词如何关注序列中的所有单词，包括它自身。

SDPA

在计算注意力时，查询 (query)、键 (key) 和值 (value) 的灵感来自于检索系统。假如，我们访问图书馆寻找一本书，在图书馆的搜索引擎中搜索'金融中的机器学习'，这个短语就是查询 (query)，图书馆中的书名和描述则充当键 (key)。根据查询与这些键之间的相似度，图书馆的检索系统会推荐一份书单 (值，value)。

为了计算 SDPA，输入嵌入 X 会通过三层不同的神经网络进行处理。这些层的相应权重为 W_Q、W_K 和 W_V，每个权重的维度为 256 × 256，这些权重在训练阶段从数据中学习。因此，可以通过以下公式计算查询 Q、键 K 和值 V：

Q = X × W_Q K = X × W_K V = X × W_V

其中，Q、K 和 V 的维度与输入嵌入 X 相匹配，均为 4 × 256。

类似于检索系统示例，在注意力机制中，使用 SDPA 方法来评估查询向量与键向量之间的相似度。SDPA 计算查询 Q 和键 K 向量的点积。较高的点积表示这两个向量之间的相似度较强，反之亦然。缩放后的注意力分数计算如下：

Attention Score (Q,K) = (Q · K^T) / √d_k

其中，d_k 表示键向量 K 的维度，在本节中为 256。通过除以 d_k 的平方根来缩放 Q 和 K 的点积，从而稳定训练过程，防止点积的值过大。

接下来，对这些注意力分数应用 softmax 函数，将它们转化为注意力权重，确保一个单词对句子中所有单词的总注意力之和为 100%。

计算过程

基于 PyTorch 从零构建 Transformer 模型详解

前言

注意力机制和 Transformer

注意力机制

更多推荐文章

相关免费在线工具

Transformer 架构

不同类型的 Transformer

构建编码器

注意力机制

创建编码器

构建编码器 - 解码器 Transformer

创建解码器层

创建编码器 - 解码器 Transformer

基于 Transformer 构建机器翻译模型

定义生成器

创建翻译模型

小结

更多推荐文章

相关免费在线工具

基于 PyTorch 从零构建 Transformer 模型详解

前言

注意力机制 和 Transformer

注意力机制

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Transformer 架构

不同类型的 Transformer

构建编码器

注意力机制

创建编码器

构建编码器 - 解码器 Transformer

创建解码器层

创建编码器 - 解码器 Transformer

基于 Transformer 构建机器翻译模型

定义生成器

创建翻译模型

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

注意力机制和 Transformer