现代大模型架构核心：GQA 与 RMSNorm

架构图

在大模型论文学习中，很多人最初会感觉架构大同小异，主要是数据和算力在堆积。但随着对 LLaMA、Qwen、DeepSeek 等主流模型架构的深入总结，会发现 Attention、位置编码、FFN 与归一化模块已经悄然从经典 Transformer 演进到了新的默认配置。

相较于最初的 Transformer，现在的主流大模型在架构上逐渐发生了以下变化：

注意力机制：MQA → GQA（Grouped Query Attention）
位置编码：绝对位置编码 → RoPE（Rotary Positional Embedding）
MLP 激活层：ReLU / GELU 前馈网络 → SwiGLU 前馈网络
归一化：LayerNorm → RMSNorm + Pre-Norm

掌握这四件套，基本就能理清现代 LLM 架构的核心逻辑。

一、现如今的 Transformer

早期的 Transformer 架构通常作为 baseline 被直接沿用，如 BERT、GPT 等。但研究者发现，通过更换特定模块可以达到更好的效果。因此，现代大模型不再直接使用原始 Transformer 架构，而是采用了经过模块替换的新 baseline。

下表统计了经典模型所采用的关键组件对比：

模型家族	注意力	位置编码	MLP 激活	归一化
早期 GPT/BERT	MHA	绝对 PE / learned pos	GELU	LayerNorm
LLaMA 1/2/3 系列	GQA（大模型）	RoPE	SwiGLU	RMSNorm
Qwen2 / Qwen2.5	GQA	RoPE	SwiGLU	RMSNorm
Mistral 7B	GQA + sliding window	RoPE	SwiGLU	RMSNorm
DeepSeek-LLM 等	GQA/自研高效注意力	RoPE	SwiGLU	RMSNorm
Granite / Gemma 等	GQA/MQA	RoPE	SwiGLU/GeGLU	RMSNorm/LN

二、注意力机制演进

2.1 Multi-Head Attention (MHA)

我们先回顾一下经典的注意力机制公式：

$$ \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V $$

在标准自注意力中，我们通过 $QK^T / \sqrt{d_k}$ 计算不同 token 之间的注意力权重。但作者发现，仅用一个注意力头往往难以同时捕捉多种语义关系（如词法、语义、句法等）。因此，Transformer 提出了多头注意力机制 (Multi-Head Attention, MHA)。

class GroupedQueryAttention(nn.Module): def __init__(self, d_model, num_q_heads, num_kv_heads, dropout=0.0): super().__init__() assert d_model % num_q_heads == 0 assert num_q_heads % num_kv_heads == 0 self.d_model = d_model self.num_q_heads = num_q_heads self.num_kv_heads = num_kv_heads self.head_dim = d_model // num_q_heads self.group_size = num_q_heads // num_kv_heads # 每组多少个 Q 头共享一个 KV self.w_q = nn.Linear(d_model, d_model) self.w_k = nn.Linear(d_model, num_kv_heads * self.head_dim) self.w_v = nn.Linear(d_model, num_kv_heads * self.head_dim) self.w_o = nn.Linear(d_model, d_model) self.dropout = nn.Dropout(dropout) def forward(self, x, attn_mask=None): """ x: [B, L, d_model] """ B, L, _ = x.size() # 1. Q: 多头； K/V: 少量头 Q = self.w_q(x) # [B, L, d_model] K = self.w_k(x) # [B, L, num_kv_heads * head_dim] V = self.w_v(x) Q = Q.view(B, L, self.num_q_heads, self.head_dim).transpose(1, 2) K = K.view(B, L, self.num_kv_heads, self.head_dim).transpose(1, 2) V = V.view(B, L, self.num_kv_heads, self.head_dim).transpose(1, 2) # Q: [B, Hq, L, Dh] # K,V: [B, Hkv, L, Dh] # 2. 将每个 KV 头'扩展'为 group_size 个 Q 头使用 # 例如 Hq=8, Hkv=2 -> group_size=4 K = K.repeat_interleave(self.group_size, dim=1) # [B, Hq, L, Dh] V = V.repeat_interleave(self.group_size, dim=1) # [B, Hq, L, Dh] # 3. 缩放点积注意力 scores = Q @ K.transpose(-2, -1) / (self.head_dim ** 0.5) if attn_mask is not None: scores = scores.masked_fill(attn_mask == 0, float("-inf")) attn = F.softmax(scores, dim=-1) attn = self.dropout(attn) out = attn @ V # [B, Hq, L, Dh] # 4. 合并头 out = out.transpose(1, 2).contiguous().view(B, L, self.d_model) return self.w_o(out)

现代大模型架构核心：GQA 与 RMSNorm

一、现如今的 Transformer

二、注意力机制演进

2.1 Multi-Head Attention (MHA)

更多推荐文章

相关免费在线工具

2.2 Multi-Query Attention (MQA)

2.3 Grouped Query Attention (GQA)

三、归一化：LayerNorm → RMSNorm + Pre-Norm

🔹 Post-Norm（原始 Transformer 用法）

🔹 Pre-Norm（现代 LLM 常用）

3.1 LayerNorm

3.2 RMSNorm

四、总结

更多推荐文章

相关免费在线工具

现代大模型架构核心：GQA 与 RMSNorm

一、现如今的 Transformer

二、注意力机制演进

2.1 Multi-Head Attention (MHA)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 Multi-Query Attention (MQA)

2.3 Grouped Query Attention (GQA)

三、归一化：LayerNorm → RMSNorm + Pre-Norm

🔹 Post-Norm（原始 Transformer 用法）

🔹 Pre-Norm（现代 LLM 常用）

3.1 LayerNorm

3.2 RMSNorm

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具