导读
本文面向工程实践与研究团队,横向对比了 2024–2025 年间若干代表性开源及工业级大语言模型(DeepSeek、Mistral、Gemma、Llama、Qwen、Kimi 等)的架构差异与设计取舍。我们不只罗列参数与基准成绩,更关注'为何做出这些设计',梳理出模型在稀疏性(MoE)、注意力变体(GQA、MLA、滑动窗口)、归一化放置(Pre-Norm vs Post-Norm)以及长上下文(KV-cache)优化等关键维度上的异同。
当下的 LLM 发展并非完全颠覆 Transformer 基础,而是在「注意力实现、归一化策略、稀疏性、KV-cache 优化」层面进行密集的工程折衷。核心趋势集中在两点:一是通过稀疏激活(MoE)在不显著增加推理成本的前提下提升模型容量;二是针对长上下文与内存瓶颈提出工程化方案(如 MLA、GQA、局部注意力)。同时,tokenizer 选择、KV-cache 大小、FlashAttention 支持度等工程细节对端到端延迟的影响往往比单纯的架构改动更为关键。
DeepSeek 系列
DeepSeek V3 / R1
作为旗舰架构代表,DeepSeek V3 及其推理增强版 R1 以 MoE 与 Multi-Head Latent Attention (MLA) 为核心亮点,旨在平衡'总参数巨大'与'推理激活参数少'。
关键设计
- MoE 结构:用多个专家(FeedForward)替换标准 FFN,路由器仅激活少数专家。例如 V3 总参数约 671B,但推理时仅激活约 37B。
- 共享专家策略:引入始终被激活的 shared expert,提升通用模式学习效率,避免专家间重复学习。
- MLA 技术:不同于 GQA 共享 key/value head,MLA 将 key/value 压缩到低维存储于 KV-cache 中,推理时再投影回去,显著节省显存。
工程实践建议 若目标场景是长上下文或大量历史 KV cache,优先考虑 MLA 或其他 KV 压缩方法。在 MoE 设计中加入 shared-expert 可提升稳定性,但需重点关注路由器的负载均衡与稀疏性控制,防止专家塌陷。实现时需权衡额外的矩阵乘法开销与工程复杂度。
![图:MHA 与 GQA 对比示意图]
![图:MLA 与 MHA 对比示意图]
DeepSeek V3.2
V3.2 在 V3 基础上引入稀疏注意力(sparse attention),进一步优化效率,尤其在长上下文场景下表现突出。
关键设计
- 稀疏注意力:继续改善推理成本与上下文扩展能力。
- 发布节奏:与 Mistral 3 发布时间接近,两者在质量与低延迟部署上形成直接竞争。
工程实践建议 对于需要进一步压缩内存或扩展上下文的团队,V3.2 的 sparse attention 与 MLA 组合值得深挖,但需注意实现复杂度。
OLMo 系列 / Allen Institute
OLMo 系列以透明著称(公开训练数据与代码),OLMo 2 提供了清晰且工程友好的蓝图。
OLMo 2
关键设计
- RMSNorm 替代 LayerNorm:节约参数与计算资源。
- 归一化层放置:采用 Post-Norm 风格变体(置于残差路径内),旨在改善训练稳定性,区别于 GPT 系列的 Pre-LN。
- QK-norm:对查询/键进行归一化,进一步提升数值稳定性。
- MHA 保留:未像新架构那样激进采用 GQA/MLA。
工程实践建议 追求可解释、可复现路线的团队可参考 OLMo 风格。训练大型模型时,Post-Norm 变体配合适当的学习率调度能改善稳定性。实现 QK-norm 和 RMSNorm 替换前,建议先在小规模上进行消融实验。
![图:Post-Norm, Pre-Norm 与 OLMo 2 变体对比]
![图:Llama 3 与 OLMo 2 架构对比]
OLMo 3
在 OLMo 2 基础上演进,兼顾稳定性与性能。


