从零开始构建大型语言模型：实现注意力机制 | 极客日志

PythonAI算法

从零开始构建大型语言模型：实现注意力机制

介绍大型语言模型中注意力机制的实现。从 RNN 局限引出自注意力概念，详解无权重简化版及带可训练权重的缩放点积注意力机制。通过 PyTorch 代码演示查询、键、值的投影与加权求和过程，并封装为类结构，为后续多头注意力及完整模型构建打下基础。

微码行者发布于 2025/2/6更新于 2026/6/521 浏览

从零开始构建大型语言模型——实现注意力机制

本章内容：

使用注意力机制的原因
基本的自注意力框架，逐步深入到增强的自注意力机制
允许 LLMs 逐个生成词元的因果注意力模块
通过 dropout 随机屏蔽部分注意力权重以减少过拟合
将多个因果注意力模块堆叠为多头注意力模块

到目前为止，你已经了解了如何通过将文本拆分为单词和子词词元来准备 LLM 的输入文本，并将其编码为向量表示（嵌入）。现在，我们将介绍 LLM 架构中的一个重要部分——注意力机制。我们将主要独立地研究注意力机制，并在机制层面深入探讨。然后，我们将编写围绕自注意力机制的 LLM 其他部分的代码，以观察其实际效果，并构建一个用于生成文本的模型。

图 3.1 注意力机制概览

我们将实现四种不同的注意力机制变体。这些不同的注意力变体是逐步构建的，目标是最终实现一个紧凑且高效的多头注意力机制实现，然后可以将其嵌入到我们将在下一章编写的 LLM 架构中。

图 3.2 注意力机制变体

处理长序列建模的问题

在深入探讨 LLM 核心的自注意力机制之前，让我们先考虑一下在没有注意力机制的传统架构中遇到的问题。假设我们想开发一个将文本从一种语言翻译为另一种语言的翻译模型。由于源语言和目标语言中的语法结构不同，我们无法简单地逐字逐句进行翻译。

图 3.3 翻译问题示意图

为了解决这个问题，通常使用包含两个子模块的深度神经网络，即编码器和解码器。编码器的任务是首先读取并处理整个文本，而解码器随后生成翻译后的文本。

在 Transformer 模型出现之前，循环神经网络（RNN）是用于语言翻译的最流行的编码器 - 解码器架构。RNN 是一种神经网络，它将前一步的输出作为当前步骤的输入，因此非常适合处理像文本这样的序列数据。这里我们主要关注编码器 - 解码器结构的一般概念。

在编码器 - 解码器 RNN 中，输入文本按顺序输入编码器，编码器逐步处理输入。在每一步，编码器会更新其隐藏状态，尝试在最终的隐藏状态中捕捉输入句子的完整意义。然后，解码器使用这个最终的隐藏状态开始逐字生成翻译句子。

编码器 - 解码器 RNN 的一个主要限制是，在解码阶段，RNN 无法直接访问编码器中的早期隐藏状态。因此，它只能依赖当前的隐藏状态，这个状态包含所有相关的信息。这可能会导致上下文丢失，尤其是在复杂句子中，依赖关系可能跨越较长距离。

幸运的是，构建 LLM 并不需要深入理解 RNN。只需记住，编码器 - 解码器 RNN 的这一缺点促使了注意力机制的设计。

通过注意力机制捕捉数据依赖关系

虽然 RNN 在翻译短句时表现良好，但在处理较长文本时效果不佳，因为它无法直接访问输入中的前面部分。这个方法的一个主要缺点是，RNN 必须在一个隐藏状态中记住整个编码的输入，然后再将其传递给解码器。

因此，研究人员在 2014 年为 RNN 开发了 Bahdanau 注意力机制，这种机制修改了编码器 - 解码器 RNN，使得解码器在每个解码步骤都可以有选择地访问输入序列的不同部分。

有趣的是，仅仅三年后，研究人员发现构建自然语言处理的深度神经网络并不需要 RNN 架构，并提出了最初的 Transformer 架构，其中包括受 Bahdanau 注意力机制启发的自注意力机制。

自注意力是一种机制，它允许输入序列中的每个位置在计算序列表示时考虑所有其他位置的相关性，或'关注'同一序列中的所有其他位置。自注意力是基于 Transformer 架构的现代 LLM（如 GPT 系列）的关键组件。

本章将重点介绍如何编写和理解 GPT 类模型中使用的自注意力机制。在下一章中，我们将编写 LLM 的其他部分代码。

通过自注意力机制关注输入的不同部分

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
inputs = torch.tensor(
  [[0.43, 0.15, 0.89], # Your     (x^1)
   [0.55, 0.87, 0.66], # journey  (x^2)
   [0.57, 0.85, 0.64], # starts   (x^3)
   [0.22, 0.58, 0.33], # with     (x^4)
   [0.77, 0.25, 0.10], # one      (x^5)
   [0.05, 0.80, 0.55]] # step     (x^6)
)

query = inputs[1]                            #1
attn_scores_2 = torch.empty(inputs.shape[0])
for i, x_i in enumerate(inputs):
    attn_scores_2[i] = torch.dot(x_i, query)
print(attn_scores_2)

tensor([0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865])

理解点积

点积本质上是一种逐元素相乘并求和的简便方法，示例如下：
res = 0.
for idx, element in enumerate(inputs[0]):
 res += inputs[0][idx] * query[idx]
print(res)
print(torch.dot(inputs[0], query))
输出结果确认了逐元素相乘的和与点积相同：
tensor(0.9544)
tensor(0.9544)
除了将点积视为将两个向量组合为一个标量值的数学工具之外，点积也是衡量相似性的一种方式，因为它量化了两个向量之间的对齐程度：点积越大，表示向量之间的对齐或相似度越高。在自注意力机制的上下文中，点积决定了序列中的每个元素在多大程度上'关注'其他元素：点积越大，表示两个元素之间的相似性和注意力分数越高。

attn_weights_2_tmp = attn_scores_2 / attn_scores_2.sum()
print("Attention weights:", attn_weights_2_tmp)
print("Sum:", attn_weights_2_tmp.sum())

Attention weights: tensor([0.1444, 0.2261, 0.2232, 0.1276, 0.1069, 0.1718])
Sum: tensor(1.)

def softmax_naive(x):
    return torch.exp(x) / torch.exp(x).sum(dim=0)

attn_weights_2_naive = softmax_naive(attn_scores_2)
print("Attention weights:", attn_weights_2_naive)
print("Sum:", attn_weights_2_naive.sum())

attn_weights_2 = torch.softmax(attn_scores_2, dim=0)
print("Attention weights:", attn_weights_2)
print("Sum:", attn_weights_2.sum())

query = inputs[1]         #1
context_vec_2 = torch.zeros(query.shape)
for i, x_i in enumerate(inputs):
    context_vec_2 += attn_weights_2[i]*x_i
print(context_vec_2)

tensor([0.4419, 0.6515, 0.5683])

attn_scores = torch.empty(6, 6)
for i, x_i in enumerate(inputs):
    for j, x_j in enumerate(inputs):
        attn_scores[i, j] = torch.dot(x_i, x_j)
print(attn_scores)

tensor([[0.9995, 0.9544, 0.9422, 0.4753, 0.4576, 0.6310],
        [0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865],
        [0.9422, 1.4754, 1.4570, 0.8296, 0.7154, 1.0605],
        [0.4753, 0.8434, 0.8296, 0.4937, 0.3474, 0.6565],
        [0.4576, 0.7070, 0.7154, 0.3474, 0.6654, 0.2935],
        [0.6310, 1.0865, 1.0605, 0.6565, 0.2935, 0.9450]])

attn_scores = inputs @ inputs.T
print(attn_scores)

attn_weights = torch.softmax(attn_scores, dim=-1)
print(attn_weights)

tensor([[0.2098, 0.2006, 0.1981, 0.1242, 0.1220, 0.1452],
        [0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581],
        [0.1390, 0.2369, 0.2326, 0.1242, 0.1108, 0.1565],
        [0.1435, 0.2074, 0.2046, 0.1462, 0.1263, 0.1720],
        [0.1526, 0.1958, 0.1975, 0.1367, 0.1879, 0.1295],
        [0.1385, 0.2184, 0.2128, 0.1420, 0.0988, 0.1896]])

row_2_sum = sum([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
print("Row 2 sum:", row_2_sum)
print("All row sums:", attn_weights.sum(dim=-1))

Row 2 sum: 1.0
All row sums: tensor([1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000])

all_context_vecs = attn_weights @ inputs
print(all_context_vecs)

tensor([[0.4421, 0.5931, 0.5790],
        [0.4419, 0.6515, 0.5683],
        [0.4431, 0.6496, 0.5671],
        [0.4304, 0.6298, 0.5510],
        [0.4671, 0.5910, 0.5266],
        [0.4177, 0.6503, 0.5645]])

print("Previous 2nd context vector:", context_vec_2)

x_2 = inputs[1]     #1
d_in = inputs.shape[1]      #2
d_out = 2         #3

torch.manual_seed(123)
W_query = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_key   = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)
W_value = torch.nn.Parameter(torch.rand(d_in, d_out), requires_grad=False)

query_2 = x_2 @ W_query 
key_2 = x_2 @ W_key 
value_2 = x_2 @ W_value
print(query_2)

tensor([0.4306, 1.4551])

keys = inputs @ W_key 
values = inputs @ W_value
print("keys.shape:", keys.shape)
print("values.shape:", values.shape)

keys.shape: torch.Size([6, 2])
values.shape: torch.Size([6, 2])

keys_2 = keys[1]             #1
attn_score_22 = query_2.dot(keys_2)
print(attn_score_22)

tensor(1.8524)

attn_scores_2 = query_2 @ keys.T       #1
print(attn_scores_2)

tensor([1.2705, 1.8524, 1.8111, 1.0795, 0.5577, 1.5440])

d_k = keys.shape[-1]
attn_weights_2 = torch.softmax(attn_scores_2 / d_k**0.5, dim=-1)
print(attn_weights_2)

tensor([0.1500, 0.2264, 0.2199, 0.1311, 0.0906, 0.1820])

context_vec_2 = attn_weights_2 @ values
print(context_vec_2)

tensor([0.3061, 0.8210])

import torch.nn as nn

class SelfAttention_v1(nn.Module):
    def __init__(self, d_in, d_out):
        super().__init__()
        self.W_query = nn.Parameter(torch.rand(d_in, d_out))
        self.W_key   = nn.Parameter(torch.rand(d_in, d_out))
        self.W_value = nn.Parameter(torch.rand(d_in, d_out))

    def forward(self, x):
        keys = x @ self.W_key
        queries = x @ self.W_query
        values = x @ self.W_value
        attn_scores = queries @ keys.T  # omega
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(123)
sa_v1 = SelfAttention_v1(d_in, d_out)
print(sa_v1(inputs))

tensor([[0.2996, 0.8053],
        [0.3061, 0.8210],
        [0.3058, 0.8203],
        [0.2948, 0.7939],
        [0.2927, 0.7891],
        [0.2990, 0.8040]], grad_fn=<MmBackward0>)

class SelfAttention_v2(nn.Module):
    def __init__(self, d_in, d_out, qkv_bias=False):
        super().__init__()
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)

    def forward(self, x):
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)
        attn_scores = queries @ keys.T
        attn_weights = torch.softmax(
            attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        context_vec = attn_weights @ values
        return context_vec

torch.manual_seed(789)
sa_v2 = SelfAttention_v2(d_in, d_out)
print(sa_v2(inputs))

tensor([[-0.0739,  0.0713],
        [-0.0748,  0.0703],
        [-0.0749,  0.0702],
        [-0.0760,  0.0685],
        [-0.0763,  0.0679],
        [-0.0754,  0.0693]], grad_fn=<MmBackward0>)

从零开始构建大型语言模型：实现注意力机制

从零开始构建大型语言模型——实现注意力机制

处理长序列建模的问题

通过注意力机制捕捉数据依赖关系

通过自注意力机制关注输入的不同部分

更多推荐文章

相关免费在线工具

没有可训练权重的简单自注意力机制

为所有输入词元计算注意力权重

实现具有可训练权重的自注意力机制

逐步计算注意力权重

实现紧凑的自注意力 Python 类

总结

更多推荐文章

相关免费在线工具

从零开始构建大型语言模型：实现注意力机制

从零开始构建大型语言模型——实现注意力机制

处理长序列建模的问题

通过注意力机制捕捉数据依赖关系

通过自注意力机制关注输入的不同部分

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

没有可训练权重的简单自注意力机制

为所有输入词元计算注意力权重

实现具有可训练权重的自注意力机制

逐步计算注意力权重

实现紧凑的自注意力 Python 类

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具