现代大模型架构：组注意力机制（GQA）和 RMSNorm

综述由AI生成现代大模型架构在注意力机制与归一化层上经历了显著演进。注意力方面，从 MHA 的多头独立 KV 缓存转向 MQA 的单头共享，最终折中为 GQA，通过减少 KV 头数量降低显存开销并维持推理速度。归一化方面，LayerNorm 逐渐被 RMSNorm 取代，配合 Pre-Norm 结构以增强深层网络训练稳定性。详细对比了 MHA、MQA 与 GQA 的原理及实现差异，解析了 LayerNorm 与 RMSNorm 的数学公式与适用场景，并提供 PyTorch 代码示例，帮助理解 LLaMA、Qwen 等主流模型的底层配置。

奇形怪状发布于 2026/3/15更新于 2026/4/264 浏览

前言

在大模型论文学习中，随着 LLaMA、Qwen、DeepSeek 等模型的演进，主流架构在 Attention、位置编码、FFN 与归一化上已逐渐形成新的默认配置。相较于最初的 Transformer，现代大模型主要变化包括：

MQA → GQA（Grouped Query Attention）
绝对位置编码 → RoPE（Rotary Positional Embedding）
ReLU / GELU → SwiGLU
LayerNorm → RMSNorm + Pre-Norm

本文聚焦于目前的大模型默认配置，重点解析注意力机制的演化与归一化层的升级。

一、现如今的 Transformer

研究者发现模块的更替可以达到更好的效果，因此现代 baseline 架构已不再直接沿用经典 Transformer 的所有组件。以下是经典模型与现代大模型模块对比：

模型家族	注意力	位置编码	MLP 激活	归一化
早期 GPT/BERT	MHA	绝对 PE / learned pos	GELU	LayerNorm
LLaMA 1/2/3 系列	GQA	RoPE	SwiGLU	RMSNorm
Qwen2 / Qwen2.5	GQA	RoPE	SwiGLU	RMSNorm
Mistral 7B	GQA + sliding window	RoPE	SwiGLU	RMSNorm
DeepSeek-LLM	GQA/自研高效注意力	RoPE	SwiGLU	RMSNorm
Granite / Gemma	GQA/MQA	RoPE	SwiGLU/GeGLU	RMSNorm/LN

如表格所示，现代大模型在注意力机制、位置编码、MLP 激活层以及归一化方式上均有显著改变。掌握这四件套有助于理清现代 LLM 架构。

二、Attention Serious

2.1 Multi-Head Attention (MHA)

标准自注意力公式为： $$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$

Transformer 提出多头注意力机制 (Multi-Head Attention, MHA)，将输入特征通过不同的线性投影矩阵映射到多个低维子空间： $$\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$$

最后拼接再线性变换： $$\text{MultiHead}(Q,K,V) = \text{Concat}( ext{head}_1, \dots, ext{head}_h) W^O$$

现代大模型架构：组注意力机制（GQA）和 RMSNorm

前言

一、现如今的 Transformer

二、Attention Serious

2.1 Multi-Head Attention (MHA)

更多推荐文章

2.2 Multi-Query Attention (MQA)

2.3 Grouped Query Attention (GQA)

三、归一化：LayerNorm → RMSNorm + Pre-Norm

3.1 LayerNorm

3.2 RMSNorm

四、总结

更多推荐文章

相关免费在线工具

现代大模型架构：组注意力机制（GQA）和 RMSNorm

前言

一、现如今的 Transformer

二、Attention Serious

2.1 Multi-Head Attention (MHA)

微信扫一扫，关注极客日志

更多推荐文章

2.2 Multi-Query Attention (MQA)

2.3 Grouped Query Attention (GQA)

三、归一化：LayerNorm → RMSNorm + Pre-Norm

3.1 LayerNorm

3.2 RMSNorm

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具