1、核心架构改进
1)注意力机制
采用了 GQA (Grouped Query Attention) 以提高推理效率。
什么是 GQA 注意力机制? 介于传统的多头注意力机制以及极简的 MQA 注意力机制之间,目标为平衡生成速度以及模型精度。
首先我们先看一看多头注意力机制以及多询注意力机制的区别:
- MHA (Multi-Head Attention): 每个 Query (Q) 都有对应的 Key (K) 和 Value (V)。虽然效果最好,但在推理时需要缓存大量的 KV 状态(KV Cache),导致内存占用高,推理速度慢。
- MQA (Multi-Query Attention): 所有的 Q 共享同一组 K 和 V。这极大地减少了内存占用和数据传输,速度极快,但由于表达能力大幅下降,模型性能(准确度)通常会受损。
- GQA: 把 query 分成若干组,每一组共享 KV。
详细的计算流程: 假设我们输入一个 128 length 的 token 序列,模型中存储了一个计算 query 的矩阵 Wq,大小为 [512, 512],X × Wq = Q_total,得到一个 [128, 512] 的结果。后续在物理上计算结束后,会将 512 维切分为 8 份,每一份即为 [128, 64],于是就得到了 8 个 query。 若分为两组,那么每四个 query 为一组,共享一个 KV。
2)RMSNorm
RMSNorm 是标准 LayerNorm(层规范化)的一种简化变体,旨在提高计算效率。

节省计算开销。 此外还采用了前置规范化:
-
后置规范化(post-norm):
先做子层操作(如 Attention 或 FFN)并与输入相加,最后整体做一次 Norm。 -
前置规范化 (Pre-Norm):
输入先经过 Norm,然后再进入子层操作,最后将结果加回原始输入。
3)SwiGLU 激活函数
传统的激活函数如下所示:






