大模型训练技术架构、并行策略与优化方案详解 | 极客日志

PythonAI算法

大模型训练技术架构、并行策略与优化方案详解

综述由AI生成大模型训练涉及分布式并行加速、算法模型架构及内存计算优化三大核心领域。并行策略涵盖数据并行、模型并行、流水线并行和张量并行，常采用混合并行以提升效率。集群架构主要包括参数服务器模式和集合通讯模式，后者利用 Ring-All-Reduce 等机制优化通信。关键技术包括 Transformer 架构、MoE 稀疏模型、ZeRO 内存优化、混合精度训练及各类优化器。梳理了相关经典论文与技术方案，旨在帮助理解大规模模型训练的整体架构与优化路径。

雪落无声发布于 2025/2/6更新于 2026/6/222 浏览

01 大模型训练总体架构

如何利用计算中心成千上百的 AI 加速芯片集群，训练参数量超过百亿的大规模模型？并行计算是一种行之有效的方法。除了分布式并行计算相关的技术之外，在训练大模型的过程中还会融合更多的技术，如新的算法模型架构和内存/计算优化技术等。

本文梳理在大模型训练中使用到的相关技术点，主要分为三个方面来回顾现阶段使用多 AI 加速芯片训练大模型的主流方法：

分布式并行加速：并行训练主要分为数据并行（Data Parallel）、模型并行（Model Parallel）、流水线并行（Pipeline Parallel）、张量并行（Tensor Parallel）四种并行方式，通过上述四种主要的分布式并行策略作为大模型训练并行的主要策略。
算法模型架构：大模型训练离不开 Transformer 网络模型结构的提出，后来到了万亿级稀疏场景中经常遇到专家混合模型（MoE），都是大模型离不开的新算法模型结构。
内存和计算优化：关于内存优化技术主要由激活（Activation）重计算、内存高效的优化器、模型压缩组成；而计算优化则集中体现在混合精度训练、算子融合、梯度累加等技术上。

02 大模型训练的目标公式

超大模型训练的总体目标就是提升总的训练速度，减少大模型的训练时间。训练一个大模型基本上从按下回车的那一刻开始要 1 到 2 个月，是非常耗时的。下面看一下在大模型训练中的总训练速度的公式：

$$ \text{Total Time} = \frac{\text{Total Compute}}{\text{Single GPU Speed} \times \text{GPU Count} \times \text{Scaling Efficiency}} $$

上面公式当中，单卡速度主要由单块 AI 加速芯片的运算速度、数据 IO 来决定；而加速芯片数量这个很清楚，数量越多增加训练速度；而多卡加速比则是由计算和通讯效率决定。

我们再把使用到的技术与这个公式关联在一起：

单卡速度：单卡速度既然是运算速度和数据 IO 的快慢来决定，那么就需要对单卡训练进行优化，于是主要的技术手段有精度训练、算子融合、梯度累加来加快单卡的训练性能。
加速芯片数量：理论上，AI 芯片数量越多，模型训练越快。但是，随着训练数据集规模的进一步增长，加速比的增长并不明显。如数据并行就会出现局限性，当训练资源扩大到一定规模时，由于通信瓶颈的存在，增加计算资源的边际效应并不明显，甚至增加资源也没办法进行加速。这时候需要通讯拓扑进行优化，例如通过 ring-all-reduce 的通讯方式来优化训练模式。
多卡加速比：多卡加速比既然由计算、通讯效率决定，那么就需要结合算法和集群中的网络拓扑一起优化，于是有了数据并行 DP、模型并行 MP、流水线并行 PP 相互结合的多维度混合并行策略，来增加多卡训练的效率。

总的来说呢，超大模型训练的目标就是优化上面的公式，提升总训练速度。核心思想是将数据和计算有关的图/算子切分到不同设备上，同时尽可能降低设备间通信所需的代价，合理使用多台设备的计算资源，实现高效的并发调度训练，最大化提升训练速度。

03 大模型训练的集群架构

这里的集群架构是为了解决机器学习模型的分布式训练问题。深度学习的大模型目前主要是在集群中才能训练出来，而集群的架构也需要根据分布式并行、深度学习、大模型训练的技术来进行合理安排。

在 2012 年左右 Spark 采取了简单直观的数据并行的方法解决模型并行训练的问题，但由于 Spark 的并行梯度下降方法是同步阻断式的，且模型参数需通过全局广播的形式发送到各节点，因此 Spark 的并行梯度下降是相对低效的。

2014 年李沐提出了分布式可扩展的 Parameter Server 架构，很好地解决了机器学习模型的分布式训练问题。Parameter Server 不仅被直接应用在各大公司的机器学习平台上，而且也被集成在 TensorFlow、PyTorch、MindSpore、PaddlePaddle 等主流的深度框架中，作为机器学习分布式训练最重要的解决方案之一。

目前最流行的模式有两种：

参数服务器模式（Parameter Server, PS）
集合通讯模式（Collective Communication, CC）

其中参数服务器主要是有一个或者多个中心节点，这些节点称为 PS 节点，用于聚合参数和管理模型参数。而集合通信则没有管理模型参数的中心节点，每个节点都是 Worker，每个 Worker 负责模型训练的同时，还需要掌握当前最新的全局梯度信息。

参数服务器模式

参数服务器架构 Parameter Server，PS 架构包括两个部分：

把计算资源分为两个部分：参数服务器节点和工作节点。
- 参数服务器节点用来存储参数。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

Large Scale Distributed Deep Networks 2012 年的神作，要知道那个时候神经网络都不多，这是出自于 Google 大神 Jeff Dean 的文章。主要是神经网络进行模型划分，因为推出得比较早，所以会稍微 Native 一点，但是作为分布式并行的开创之作，稍微推荐一下。
Getting Started with Distributed Data Parallel PyTorch Distributed: Experiences on Accelerating Data Parallel Training. Facebook 为 PyTorch 打造的分布式数据并行策略算法 Distributed Data Parallel (DDP)。与 Data Parallel 的单进程控制多 GPU 不同，在 distributed 的帮助下，只需要编写一份代码，torch 就会自动将其分配给 n 个进程，分别在 n 个 GPU 上运行。不再有主 GPU，每个 GPU 执行相同的任务。对每个 GPU 的训练都是在自己的过程中进行的。每个进程都从磁盘加载其自己的数据。分布式数据采样器可确保加载的数据在各个进程之间不重叠。损失函数的前向传播和计算在每个 GPU 上独立执行。因此，不需要收集网络输出。在反向传播期间，梯度下降在所有 GPU 上均被执行，从而确保每个 GPU 在反向传播结束时最终得到平均梯度的相同副本。
Fully Sharded Data Parallel: faster AI training with fewer GPUs Facebook 发布的 FSDP（Fully Sharded Data Parallel），对标微软在 DeepSpeed 中提出的 ZeRO，FSDP 可以看成 PyTorch 中的 DDP 优化版本，本身也是数据并行，但是和 DDP 不同的是，FSDP 采用了 parameter sharding，所谓的 parameter sharding 就是将模型参数也切分到各个 GPUs 上，而 DDP 每个 GPU 都要保存一份 parameter，FSDP 可以实现更好的训练效率（速度和显存使用）。
Efficient Large-Scale Language Model Training on GPU Clusters 很好的一篇综述出品与 NVIDIA，论文中，NVIDIA 介绍了分布式训练超大规模模型的三种必须的并行技术：数据并行（Data Parallelism）、模型并行（Tensor Model Parallelism）和流水并行（Pipeline Model Parallelism）。
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training 在传统的数据并行中，模型参数被复制并在每次训练循环结束后被优化器更新。然而，当每个核的批量数不够大的时候，计算或许会变成一个瓶颈。例如，以 MLPerf 的 BERT 训练为例，在 512 个第三代 TPU 芯片上，LAMB 优化器的参数更新时间可以占到整个循环时间的 18%。Xu 等人在 2020 年提出了参数更新划分技术，这种分布式计算技术首先执行一个 reduce-scatter 操作，然后使得每个加速器有整合梯度的一部分。这样每个加速器就可以算出相应的被更新的局部参数。在下一步，每个被更新的局部参数被全局广播到各个加速器，这样使得每个加速器上都有被更新的全局参数。为了获得更高的加速比，同时用数据并行和模型并行去处理参数更新划分。在图像分割模型中，参数是被复制的，这种情况下参数更新划分类似于数据并行。然后，当参数被分布后到不同的核之后，就执行多个并发的参数更新划分。
PipeDream: Fast and Efficient Pipeline Parallel DNN Training 微软研究院宣布了 Fiddle 项目的创立，其包括了一系列的旨在简化分布式深度学习的研究项目。PipeDreams 是 Fiddle 发布的第一个侧重于深度学习模型并行训练的项目之一。其主要采用'流水线并行'的技术来扩展深度学习模型的训练。在 PipeDream 中主要克服流水线并行化训练的挑战，算法流程主要如下。首先，PipeDream 必须在不同的输入数据间，协调双向流水线的工作。然后，PipeDream 必须管理后向通道里的权重版本，从而在数值上能够正确计算梯度，并且在后向通道里使用的权重版本必须和前向通道里使用的相同。最后，PipeDream 需要流水线里的所有 stage 都花费大致相同的计算时间，这是为了使流水线得到最大的通量。
GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism GPipe 是 Google 发明的论文，专注于通过流水线并行扩展深度学习应用程序的训练负载。GPipe 把一个 L 层的网络，切分成 K 个 composite layers。每个 composite layer 运行在单独的 TPU core 上。这 K 个 core composite layers 只能顺序执行，但是 GPipe 引入了流水并行策略来缓解这个顺序执行的性能问题，把 mini-batch 细分为多个更小的 macro-batch，提高并行程度。GPipe 还用 recomputation 这个简单有效的技巧来降低内存，进一步允许训练更大的模型。
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 出自 NVIDIA，虽然这两篇文章都是在讲 Megatron 网络模型，实际上里面展开的都是模型并行等多维度并行的相关的技术点。其中第一篇论文共有两个主要的结论：1，利用数据和模型并行的分布式技术训练了具有 3.9B 参数的 BERT-large 模型，在 GLUE 的很多数据集上都取得了 SOTA 成绩。同时，还训练了具有 8.3B 参数的 GPT-2 语言模型，并在数据集 Wikitext103，LAMBADA，RACE 都上取得 SOTA 成绩。这篇论文，一方面体现了算力的重要性，另一方面体现了模型并行和数据并行技术关键性。这两项优化技术在加速模型训练和推断过程中至关重要。

Attention is all you need Google 首创的 Transformer 大模型，是现在所有大模型最基础的架构，现在 Transformer 已经成为除了 MLP、CNN、RNN 以外第四种最重要的深度学习算法架构。谷歌在 arxiv 发了一篇论文名字教 Attention Is All You Need，提出了一个只基于 attention 的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用 RNN 或者 CNN 来作为 encoder-decoder 的模型基础，而谷歌最新的只基于 Attention 的 Transformer 模型摒弃了固有的定式，并没有用任何 CNN 或者 RNN 的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Google 发布的首个预训练大模型 BERT，从而引爆了预训练大模型的潮流和趋势，这个不用介绍大家肯定有所听闻啦。BERT 的全称为 Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的 masked language model（MLM），以致能生成深度的双向语言表征。BERT 论文发表时提及在 11 个 NLP（Natural Language Processing，自然语言处理）任务中获得了新的 state-of-the-art 的结果，令人目瞪口呆。
An Image is Worth 16x16 Words: transformer for Image Recognition at Scale ViT Google 提出的首个使用 Transformer 的视觉大模型，基本上大模型的创新算法都是出自于 Google，不得不服。ViT 作为视觉转换器的使用，而不是 CNN 或混合方法来执行图像任务。结果是有希望的但并不完整，因为因为除了分类之外的基于视觉的任务：如检测和分割，还没有表现出来。此外，与 Vaswani 等人（2017 年）不同，与 CNN 相比，transformer 性能的提升受到的限制要大得多。作者假设进一步的预训练可以提高性能，因为与其他现有技术模型相比，ViT 具有相对可扩展性。
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding 好像 G 开头的模型都是 Google 的了一样魔性。在 ICLR 2021 上，Google 的进一步将 MoE 应用到了基于 Transformer 的神经机器翻译的任务上。GShard 将 Transformer 中的 Feedforward Network（FFN）层替换成了 MoE 层，并且将 MoE 层和数据并行巧妙地结合起来。在数据并行训练时，模型在训练集群中已经被复制了若干份。GShard 通过将每路数据并行的 FFN 看成 MoE 中的一个专家来实现 MoE 层，这样的设计通过在多路数据并行中引入 All-to-All 通信来实现 MoE 的功能。

Parameter Server for Distributed Machine Learning 亚马逊首席科学家李沐在读书时期发表的文章。工业界需要训练大型的机器学习模型，一些广泛使用的特定的模型在规模上的两个特点：1. 深度学习模型参数很大，超过单个机器的容纳能力有限；2. 训练数据巨大，需要分布式并行提速。这种需求下，当前类似 Map Reduce 的框架并不能很好适合。于是李沐大神在 OSDI 和 NIPS 上都发过文章，其中 OSDI 版本偏向于系统设计，而 NIPS 版本偏向于算法层面。关于深度学习分布式训练架构来说是一个奠基性的文章。
More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server GeePS: Scalable deep learning on distributed GPUs with a GPU-specialized parameter server. 分布式深度学习可以采用 BSP 和 SSP 两种模式。1 为 SSP 通过允许 faster worker 使用 staled 参数，从而达到平衡计算和网络通信开销时间的效果。SSP 每次迭代收敛变慢，但是每次迭代时间更短，在 CPU 集群上，SSP 总体收敛速度比 BSP 更快，但是在 GPU 集群上训练，2 为 BSP 总体收敛速度比 SSP 反而快很多。
Bandwidth Optimal All-reduce Algorithms for Clusters of Workstations Bringing HPC Techniques to Deep Learning. 百度在 17 年的时候联合 NVIDIA，提出了 ring-all-reduce 通讯方式，现在已经成为了业界通讯标准方式或者是大模型通讯的方式。过去几年中，神经网络规模不断扩大，而训练可能需要大量的数据和计算资源。为了提供所需的计算能力，我们使用高性能计算（HPC）常用的技术将模型缩放到数十个 GPU，但在深度学习中却没有充分使用。这种 ring allreduce 技术减少了在不同 GPU 之间进行通信所花费的时间，从而使他们可以将更多的时间花费在进行有用的计算上。在百度的硅谷 AI 实验室（SVAIL）中，我们成功地使用了这些技术来训练最先进的语音识别模型。我们很高兴将 Ring Allreduce 的实现发布为 TensorFlow 的库和补丁程序，并希望通过发布这些库，我们可以使深度学习社区更有效地扩展其模型。

大模型训练技术架构、并行策略与优化方案详解

01 大模型训练总体架构

02 大模型训练的目标公式

03 大模型训练的集群架构

参数服务器模式

更多推荐文章

相关免费在线工具

集合通讯模式

04 大模型训练相关论文

分布式并行策略相关

并行相关的经典论文

05 大模型算法相关

必须了解的基础大模型结构

具有里程碑意义性的大模型

超过万亿规模的稀疏大模型

06 内存和计算优化

优化器相关

内存优化相关论文

底层系统架构相关

混合精度训练

总结

更多推荐文章

相关免费在线工具

大模型训练技术架构、并行策略与优化方案详解

01 大模型训练总体架构

02 大模型训练的目标公式

03 大模型训练的集群架构

参数服务器模式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

集合通讯模式

04 大模型训练相关论文

分布式并行策略相关

并行相关的经典论文

05 大模型算法相关

必须了解的基础大模型结构

具有里程碑意义性的大模型

超过万亿规模的稀疏大模型

06 内存和计算优化

优化器相关

内存优化相关论文

底层系统架构相关

混合精度训练

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具