Transformer 工作原理详解：基于 Python 的文本分类与生成实现

Transformer 工作原理详解

摘要

Transformer 是一类非常令人着迷的机器学习架构。过去几年，transformer 变得简单了很多，因此要解释清楚现代架构是如何工作的，比以前容易多了。本文试图丢掉历史包袱，开门见山地解释现代 transformer 的工作原理。

理解神经网络和反向传播的基本知识有助于更好地理解本文。另外，理解本文程序需要 PyTorch 基础，但没有关系也不大。

1. Self-Attention（自注意力）模型

Self-attention 运算是所有 transformer 架构的基本运算。

1.0 Attention（注意力）：名字由来

从最简形式上来说，神经网络是一系列对输入进行加权计算，得到一个输出的过程。

具体来说，比如给定一个向量 [1,2,3,4,5] 作为输入，权重矩阵可能是 [0, 0, 0, 0.5, 0.5]，也就是说最终的 output 实际上只与 input 中的最后两个元素有关系 —— 换句话说，这一层神经网络只关注最后两个元素（注意力在最后两个元素上），其他元素是什么值对结果没有影响 —— 这就是 attention 这一名字的由来。

注意力模型大大降低了神经网络的计算量：经典神经网络是全连接的，而上面的例子中，这一层神经网络不需要全连接了，每个输出连接到最后两个输入就行了，也就是从 1x5 维降低到了 1x2 维。

图像处理中的卷积神经网络（CNN）也是类似原理：只用一小块图像计算下一层的输出，而不是用整帧图像。

1.1 输入输出：vector-to-vector 运算

Self-attention 是一个 sequence-to-sequence 运算：输入一个向量序列（a sequence of vectors），输出另一个向量序列。

我们用 $x_1, x_2, ..., x_t$ 表示输入向量，用 $y_1, y_2, ..., y_t$ 表示相应的输出向量，这些向量都是 k 维的。要计算输出向量 $y_i$，self-attention 只需对所有输入向量做加权平均（weighted average）：

$$y_i = \sum_j w_{ij} x_j$$

在传统神经网络中，权重都是（常量）参数，但这里的权重并不是：$w_{ij}$ 是根据 $x_i$ 和 $x_j$ 计算出来的。计算它有很多种方式（算法），接下来看一种最简单的。

1.2 权重矩阵计算和归一化

计算权重矩阵的最简单函数就是点积（dot product）：

$$w'_{ij} = x_i^T x_j$$

注意到权重矩阵的计算跟它所在的位置 (i,j) 直接相关，也就是说，每个位置 (i,j) 对应的权重矩阵都不一样。

点积得到的结果取值范围是正负无穷，为了使累加和（表示概率）等于 100%，需要对它们做归一化：用 pytorch 术语来说就是 softmax：

$$w_{ij} = \frac{\exp(w'{ij})}{\sum_j \exp(w'{ij})}$$

这会将每个权重矩阵归一化到 [0,1]，并且累加和等于 1。

1.3 直观展示与小结

以上就是关于 self-attention 的基本运算。总结起来就是两点：

vector-to-vector 运算：self-attention 是对 input vector 做矩阵运算，得到一个加权结果作为 output vector；
加权矩阵计算：权重矩阵不是常量，而是跟它所在的位置 (i,j) 直接相关，根据对应位置的 input vector 计算。

self-attention 基本运算的核心在于：

output vector 中的每个元素 $y_j$ 都是对 input vector 中所有元素的加权和；
对于 $y_j$，加权矩阵由 input 元素 $x_j$ 与每个 input 元素计算得到；

要构建一个完整的 transformer 还需要一点其他东西，但最核心的运算就是以上这两个了。更重要的是，这是整个架构中，唯一在 input & output vector 之间所做的运算；Transformer 架构中的其他运算都是单纯对 input vector 做运算。

2. Self-Attention 为什么有效？以电影推荐为例

import torch from torch import nn import torch.nn.functional as F class SelfAttention(nn.Module): def __init__(self, k, heads=4, mask=False): super().__init__() assert k % heads == 0 # input vector size 必须是 heads 的整数倍 self.k, self.heads = k, heads # Compute the queries, keys and values for all heads self.tokeys = nn.Linear(k, k, bias=False) self.toqueries = nn.Linear(k, k, bias=False) self.tovalues = nn.Linear(k, k, bias=False) # This will be applied after the multi-head self-attention operation. self.unifyheads = nn.Linear(k, k) def forward(self, x): b, t, k = x.size() h = self.heads # 首先，为所有 heads 计算 query/key/value，得到的是完整嵌入维度的 k*k 矩阵 queries = self.toqueries(x) keys = self.tokeys(x) values = self.tovalues(x) # 接下来将 queries/keys/values 切块（降维），分别送到不同的 head s = k // h keys = keys.view(b, t, h, s) queries = queries.view(b, t, h, s) values = values.view(b, t, h, s) # - fold heads into the batch dimension keys = keys.transpose(1, 2).contiguous().view(b * h, t, s) queries = queries.transpose(1, 2).contiguous().view(b * h, t, s) values = values.transpose(1, 2).contiguous().view(b * h, t, s) # Get dot product of queries and keys, and scale dot = torch.bmm(queries, keys.transpose(1, 2)) # -- dot has size (b*h, t, t) containing raw weights dot = dot / (k ** (1/2)) # scale the dot product dot = F.softmax(dot, dim=2) # normalize, dot now contains row-wise normalized weights # Apply the self attention to the values out = torch.bmm(dot, values).view(b, h, t, s) # swap h, t back, unify heads out = out.transpose(1, 2).contiguous().view(b, t, s * h) return self.unifyheads(out)

Transformer 工作原理详解：基于 Python 的文本分类与生成实现