Transformer 模型架构详解与核心组件解析

Transformer 模型是目前自然语言处理（NLP）以及计算机视觉等领域中应用非常广泛的深度学习模型架构。它由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出，并迅速取代了传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在许多任务中的主导地位。

Transformer 模型的关键创新点是其自注意力机制，它通过自注意力机制解决了长期依赖问题，极大地提高了并行计算的效率。相比 RNN 需要按时间步顺序计算，Transformer 能够一次性处理整个序列，显著提升了训练速度。

Transformer 模型架构

Transformer 模型主要由编码器（Encoder）和解码器（Decoder）两部分组成，两者均采用堆叠的层结构。

编码器

编码器主要负责将输入序列转化为一组上下文相关的高维表示。它由多个相同的层组成，每个层都有两个主要子层：

多头自注意力层（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Network, FFN）

此外，每个子层都包含残差连接（Residual Connection）和层归一化（Layer Normalization），以增强稳定性和性能。

解码器

解码器利用编码器的输出生成目标序列。解码器的结构与编码器类似，包含多个相同的层，但解码器的每一层有三个子层：

掩蔽自注意力层（Masked Multi-Head Self-Attention）
编码器 - 解码器注意力层（Encoder-Decoder Attention）
前馈神经网络

核心组件详解

下面，我们一起来看一下 Transformer 中的核心组件及其数学原理。

1. 输入嵌入（Input Embedding）

输入嵌入层的作用是将输入序列的每个词转换为高维空间中的向量表示。在自然语言处理中，通常使用预训练的词向量如 Word2Vec 或 GloVe，或者在训练过程中与模型一起学习嵌入。这些嵌入能够捕捉词汇的语义信息并将其转换为固定大小的向量，通常大小为 512。

2. 位置编码（Positional Encoding）

由于 Transformer 完全基于注意力机制并且不使用任何循环结构，它需要一种方法来利用输入序列中词的顺序信息。位置编码通过将一个相对或绝对位置的编码添加到输入嵌入中来实现。

位置编码常使用正弦和余弦函数，其公式如下所示：

$$\text{PE}(pos, 2i) = \sin(pos / 10000^{2i/d_{model}})$$ $$\text{PE}(pos, 2i+1) = \cos(pos / 10000^{2i/d_{model}})$$

这里，$pos$ 表示词的位置，$i$ 表示维度索引，$d_{model}$ 是嵌入维度。这种设计使得模型能够学习相对位置关系。

3. 多头自注意力机制（Multi-Head Self-Attention）

多头自注意力机制是 Transformer 的核心，它允许模型在不同的表示空间中关注输入序列的不同部分。它的主要思想是在同一时间通过多个独立的注意力头（Attention Head）来关注序列中不同部分的信息，然后将这些信息综合起来，生成更丰富的表示。

自注意力机制

在讨论多头自注意力机制之前，首先需要理解自注意力（Self-Attention）机制。自注意力机制的目的是对输入序列中的每个元素计算一个输出，这个输出是其他所有元素的加权求和，权重由当前元素与序列中其他元素的相关度决定。

计算查询（Query）、键（Key）和值（Value） 对于序列中的每个元素 $x$，通过三个线性变换分别映射为查询向量 $Q$、键向量 $K$ 和值向量 $V$。其中，$W^Q$、$W^K$ 和 $W^V$ 是可学习的权重矩阵。

计算注意力分数 通过计算其查询向量 $Q$ 与所有键向量 $K$ 的点积，得到该元素与其他元素的相关性（即注意力得分）。为了稳定训练过程，这些分数会除以 $\sqrt{d_k}$，其中 $d_k$ 是键向量的维度。

计算注意力权重 将注意力分数通过 Softmax 函数转换为注意力权重，使得它们和为 1。

计算注意力输出 注意力输出是值向量的加权和。

多头注意力机制

多头注意力机制通过并行地计算多组查询、键和值，来捕捉输入序列中不同子空间的依赖关系。具体来说，它将自注意力机制的计算过程复制 $h$ 次，每次使用不同的查询、键、值的线性变换。最后，将这些头的输出拼接起来，并通过一个线性变换得到最终的输出。

import numpy as np class MultiHeadAttention: def __init__(self, num_hiddens: int, num_heads: int, dropout: float = 0.0, bias: bool = False): self.num_heads = num_heads self.num_hiddens = num_hiddens self.d_k = self.d_v = num_hiddens // num_heads # 初始化权重矩阵 self.W_q = np.random.rand(num_hiddens, num_hiddens) self.W_k = np.random.rand(num_hiddens, num_hiddens) self.W_v = np.random.rand(num_hiddens, num_hiddens) self.W_o = np.random.rand(num_hiddens, num_hiddens) if bias: self.b_q = np.random.rand(num_hiddens) self.b_k = np.random.rand(num_hiddens) self.b_v = np.random.rand(num_hiddens) self.b_o = np.random.rand(num_hiddens) else: self.b_q = self.b_k = self.b_v = self.b_o = np.zeros(num_hiddens) def transpose_qkv(self, X: np.ndarray) -> np.ndarray: # 调整形状以便并行计算多个 head X = X.reshape(X.shape[0], X.shape[1], self.num_heads, -1) X = X.transpose(0, 2, 1, 3) return X.reshape(-1, X.shape[2], X.shape[3]) def transpose_output(self, X: np.ndarray) -> np.ndarray: # 恢复形状 X = X.reshape(-1, self.num_heads, X.shape[1], X.shape[2]) X = X.transpose(0, 2, 1, 3) return X.reshape(X.shape[0], X.shape[1], -1) def scaled_dot_product_attention(self, Q: np.ndarray, K: np.ndarray, V: np.ndarray, valid_lens: np.ndarray = None) -> np.ndarray: d_k = Q.shape[-1] scores = np.matmul(Q, K.transpose(0, 2, 1)) / np.sqrt(d_k) if valid_lens is not None: mask = np.arange(scores.shape[-1]) < valid_lens[:, None] scores = np.where(mask[:, None, :], scores, -np.inf) attention_weights = np.exp(scores - np.max(scores, axis=-1, keepdims=True)) attention_weights /= attention_weights.sum(axis=-1, keepdims=True) return np.matmul(attention_weights, V) def forward(self, queries: np.ndarray, keys: np.ndarray, values: np.ndarray, valid_lens: np.ndarray = None) -> np.ndarray: queries = self.transpose_qkv(np.dot(queries, self.W_q) + self.b_q) keys = self.transpose_qkv(np.dot(keys, self.W_k) + self.b_k) values = self.transpose_qkv(np.dot(values, self.W_v) + self.b_v) if valid_lens is not None: valid_lens = np.repeat(valid_lens, self.num_heads, axis=0) output = self.scaled_dot_product_attention(queries, keys, values, valid_lens) output_concat = self.transpose_output(output) return np.dot(output_concat, self.W_o) + self.b_o

class Transformer: def __init__(self, d_model: int, num_heads: int, d_ff: int, num_layers: int, input_vocab_size: int, target_vocab_size: int, max_seq_len: int): self.d_model = d_model self.num_heads = num_heads self.d_ff = d_ff self.num_layers = num_layers self.input_vocab_size = input_vocab_size self.target_vocab_size = target_vocab_size self.max_seq_len = max_seq_len self.encoder_layers = [EncoderLayer(d_model, num_heads, d_ff) for _ in range(num_layers)] self.decoder_layers = [DecoderLayer(d_model, num_heads, d_ff) for _ in range(num_layers)] self.embedding = np.random.randn(input_vocab_size, d_model) * np.sqrt(2.0 / (input_vocab_size + d_model)) self.pos_encoding = positional_encoding(max_seq_len, d_model) self.output_layer = np.random.randn(d_model, target_vocab_size) * np.sqrt(2.0 / (d_model + target_vocab_size)) def __call__(self, input_seq: np.ndarray, target_seq: np.ndarray, mask: np.ndarray = None) -> np.ndarray: return self.forward(input_seq, target_seq, mask) def forward(self, input_seq: np.ndarray, target_seq: np.ndarray, mask: np.ndarray = None) -> np.ndarray: enc_output = self.encode(input_seq, mask) dec_output = self.decode(target_seq, enc_output, mask) output = np.dot(dec_output, self.output_layer) return output def encode(self, input_seq: np.ndarray, mask: np.ndarray = None) -> np.ndarray: seq_len = input_seq.shape[1] x = self.embedding[input_seq] + self.pos_encoding[:seq_len, :] for layer in self.encoder_layers: x = layer(x, mask) return x def decode(self, target_seq: np.ndarray, enc_output: np.ndarray, mask: np.ndarray = None) -> np.ndarray: seq_len = target_seq.shape[1] x = self.embedding[target_seq] + self.pos_encoding[:seq_len, :] for layer in self.decoder_layers: x = layer(x, enc_output, mask) return x # 示例运行 d_model = 512 num_heads = 8 d_ff = 2048 num_layers = 6 input_vocab_size = 10000 target_vocab_size = 10000 max_seq_len = 100 # 创建 transformer 模型 transformer = Transformer(d_model, num_heads, d_ff, num_layers, input_vocab_size, target_vocab_size, max_seq_len) # 虚拟输入和目标序列 input_seq = np.random.randint(0, input_vocab_size, (32, 50)) target_seq = np.random.randint(0, target_vocab_size, (32, 50)) # 前向传播 output = transformer(input_seq, target_seq) print(output.shape) # Should be (batch_size, target_seq_len, target_vocab_size) # (32, 50, 10000)

Transformer 模型架构详解与核心组件解析

Transformer 模型架构详解与核心组件解析

Transformer 模型架构

编码器

解码器

核心组件详解

1. 输入嵌入（Input Embedding）

2. 位置编码（Positional Encoding）

3. 多头自注意力机制（Multi-Head Self-Attention）

自注意力机制

多头注意力机制

更多推荐文章

相关免费在线工具

4. 前馈神经网络（FFN）

5. 层归一化和残差连接

6. Masked 多头自注意力子层

7. 编码器 - 解码器多头注意力子层

示例代码实现

训练与优化策略

应用场景

总结

更多推荐文章

相关免费在线工具

Transformer 模型架构详解与核心组件解析

Transformer 模型架构详解与核心组件解析

Transformer 模型架构

编码器

解码器

核心组件详解

1. 输入嵌入（Input Embedding）

2. 位置编码（Positional Encoding）

3. 多头自注意力机制（Multi-Head Self-Attention）

自注意力机制

多头注意力机制

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 前馈神经网络（FFN）

5. 层归一化和残差连接

6. Masked 多头自注意力子层

7. 编码器 - 解码器多头注意力子层

示例代码实现

训练与优化策略

应用场景

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具