Qwen3 核心架构改进与后训练 Pipeline 解析

1、核心架构改进

1）注意力机制

采用了 GQA (Grouped Query Attention) 以提高推理效率。

什么是 GQA 注意力机制？介于传统的多头注意力机制以及极简的 MQA 注意力机制之间，目标为平衡生成速度以及模型精度。

首先我们先看一看多头注意力机制以及多询注意力机制的区别：

MHA (Multi-Head Attention): 每个 Query (Q) 都有对应的 Key (K) 和 Value (V)。虽然效果最好，但在推理时需要缓存大量的 KV 状态（KV Cache），导致内存占用高，推理速度慢。
MQA (Multi-Query Attention): 所有的 Q 共享同一组 K 和 V。这极大地减少了内存占用和数据传输，速度极快，但由于表达能力大幅下降，模型性能（准确度）通常会受损。
GQA: 把 query 分成若干组，每一组共享 KV。

详细的计算流程：假设我们输入一个 128 length 的 token 序列，模型中存储了一个计算 query 的矩阵 Wq，大小为 [512, 512]，X × Wq = Q_total，得到一个 [128, 512] 的结果。后续在物理上计算结束后，会将 512 维切分为 8 份，每一份即为 [128, 64]，于是就得到了 8 个 query。若分为两组，那么每四个 query 为一组，共享一个 KV。

2）RMSNorm

RMSNorm 是标准 LayerNorm（层规范化）的一种简化变体，旨在提高计算效率。

文章配图

节省计算开销。此外还采用了前置规范化：

后置规范化（post-norm）： 先做子层操作（如 Attention 或 FFN）并与输入相加，最后整体做一次 Norm。
前置规范化 (Pre-Norm)： 输入先经过 Norm，然后再进入子层操作，最后将结果加回原始输入。

3）SwiGLU 激活函数

传统的激活函数如下所示：文章配图

奖励类型	原理	优点	解决的问题
(1) 基于规则 (Rule-based)	用代码/正则硬性判断	极其精准，不可作弊	判断格式是否正确、长度是否达标、代码是否可运行。
(2) 有参考答案的模型打分 (Model-based w/ Ref)	让 Qwen2.5-72B 对照标准答案给学生（新模型）打分	灵活且标准明确	避免规则太死板导致的'误判'（比如意思对但字不同）。
(3) 无参考答案的模型打分 (Model-based w/o Ref)	用人类偏好训练出一个 Reward Model（奖励模型）直接打分	适用范围最广	处理主观问题，提升回答的'高级感'和好感度。

Qwen3 核心架构改进与后训练 Pipeline 解析

1、核心架构改进

1）注意力机制

2）RMSNorm

3）SwiGLU 激活函数

更多推荐文章

相关免费在线工具

2、后训练 pipeline

1）长思维链冷启动阶段（long-CoT Cold Start）

2）推理强化学习阶段（Reasoning-RL）

3）通用强化学习阶段（general rl）

4）强对弱蒸馏（Strong-to-Weak Distillation）

更多推荐文章

相关免费在线工具

Qwen3 核心架构改进与后训练 Pipeline 解析

1、核心架构改进

1）注意力机制

2）RMSNorm

3）SwiGLU 激活函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2、后训练 pipeline

1）长思维链冷启动阶段（long-CoT Cold Start）

2）推理强化学习阶段（Reasoning-RL）

3）通用强化学习阶段（general rl）

4）强对弱蒸馏（Strong-to-Weak Distillation）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具