大语言模型 (LLM) 分布式高效训练技术综述：背景、并行、计算、内存、通信、容错、展望 | 极客日志

PythonAI算法

大语言模型 (LLM) 分布式高效训练技术综述：背景、并行、计算、内存、通信、容错、展望

大规模语言模型（LLM）分布式训练面临可扩展性、效率和可靠性三大挑战。综述了 LLM 训练系统的最新进展，涵盖 AI 加速器、网络、存储及调度基础设施。重点分析了混合并行、自动并行及异构并行策略，探讨了计算优化（如算子优化、混合精度训练）、内存优化（如激活重计算、ZeRO、卸载）及通信优化（如集体通信算法、调度、网络内聚合）。此外，文章还讨论了容错机制，包括故障分析、异常检测、检查点恢复及无检查点恢复技术。最后展望了光电计算等未来方向。

FrontendX发布于 2025/2/7更新于 2026/6/1627 浏览

大规模语言模型（LLMs），如 GPT 和 LLaMA，以其先进的能力正在彻底改变人工智能行业。训练这些模型需要大量的 GPU 集群和显著的计算时间，在可扩展性、效率和可靠性方面带来了主要挑战。本调查探讨了 LLMs 训练系统的最近进展，包括在 AI 加速器、网络、存储和调度方面的训练基础设施的创新。此外，调查涵盖了并行策略，以及在分布式 LLM 训练中的计算、通信和内存优化。它还包括在长时间训练期间维护系统可靠性的方法。通过检查当前的创新和未来的方向，本调查旨在为改进 LLM 训练系统和应对持续挑战提供有价值的见解。此外，传统的基于数字电路的计算系统在满足 LLMs 的计算需求方面面临重大限制，凸显了需要创新解决方案，如光子计算和光子网络。

大语言模型 (LLM) 分布式高效训练技术综述

1 引言

大规模语言模型（LLMs）正在改变人工智能行业，展示了在广泛的任务和应用中的卓越能力，包括个人助理 [1]、代码副驾驶 [2]、芯片设计 [3] 和科学发现 [4]。这一革命的成功建立在基于 transformer 的 LLMs 前所未有的规模上，如 GPT [5]、LLaMA [6]、Gemini [7] 等。此外，有证据表明 LLMs 的扩展尚未达到平台期 [8]。这一趋势显著改变了底层训练系统和基础设施的设计，因为 LLM 通常遵循相对固定的架构，其训练专门占据了大量的 GPU 集群超过延长的时间段。例如，在 Meta 的生产集群上，LLaMA-3 的预训练大约需要 54 天，使用 16K H100-80GB GPU [9]。LLM 训练突显了当今训练系统和基础设施在'SER'，即可扩展性、效率和可靠性方面的重大挑战。可扩展性要求基础设施和系统无缝适应数万个 GPU 或 AI 加速器的大规模集群，同时保持训练的正确性和模型的准确性。这需要在硬件配置、网络和训练框架方面的创新解决方案。效率侧重于在整个集群中最大化资源利用率，通常通过模型 FLOPs 利用率（MFU）来衡量。实现高 MFU 涉及优化计算、最小化通信开销，并以前所未有的规模有效管理内存。可靠性对于 LLM 训练的持续时间至关重要，通常持续数周到数月。系统必须保持一致的性能，并对各种类型的故障具有弹性，包括硬件故障、网络问题和软件错误。它应该能够快速检测并从这些故障中恢复，而不会显著损失进度或训练质量。这些相互关联的挑战需要系统和基础设施设计的全面方法，推动大规模分布式计算和高性能机器学习系统的界限，并为研究和创新开辟新途径。这篇综述论文旨在提供 LLM 训练系统和基础设施进展的全面概述，解决上述挑战。

大语言模型 (LLM) 分布式高效训练技术综述

2 背景

2.1 基于 Transformer 的 LLMs

当前最先进的 LLMs 主要是基于 Transformer 的。它们的核心架构围绕注意力机制构建 [10]，该机制允许模型动态地权衡句子中不同单词的重要性。图 2 描绘了一个典型的 Transformer 层的架构 [10]，该层可以多次堆叠以构建一个 LLM。输入文本首先被标记化为单个标记，然后通过嵌入层转换为标记向量 X。为了保持文本的顺序特性，将位置信息嵌入到标记向量中。然后，得到的标记向量被送入 Transformer 层，该层由一个注意力块和一个前馈神经网络（FFN）块组成。假设输入的标记向量是 X = [x1, x2, …, xn]。这些标记首先通过线性变换转换为查询 Q、键 K 和值 V 张量。注意力机制如下计算注意力输出：

注意力机制公式

其中 d 是键张量的维度。这个公式通过计算加权和来确保 LLM 可以专注于输入序列的相关部分，其中权重来源于查询和键之间的相似性。在注意力层之后，输出被传递到 FFN 进行进一步处理。如今，LLMs 通常遵循原始的仅解码器 Transformer 架构，但对注意力机制和 FFN 进行了修改以提高效率和性能。原始的注意力机制，称为多头注意力（MHA）[10]，由于对键 - 值缓存的二次计算复杂度和高内存消耗而受到限制。为了解决这些问题，提出了几种变体，如多查询注意力（MQA）[11]、组查询注意力（GQA）[12] 和多潜在注意力（MLA）[13]。FFN 组件的一个显著进步是混合专家（MoE）[14], [15] 架构，它采用稀疏激活的 FFN。在 MoE 中，每个输入只有一部分 FFN 层（或专家）被激活，显著减少了计算负载，同时保持了高模型容量。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

训练优化拓扑。 许多网络拓扑是与分布式训练算法共同设计的。铁路优化拓扑 [62] 增强了 GPU 到叶交换机的连接。在每个铁路中，跨不同服务器具有相同索引的 GPU 通过同一个叶交换机相互连接。这种配置通过减少数据流之间的网络干扰来提高集体通信性能。SuperPod 架构使用了一个铁路优化网络，能够连接超过 16,000 个 GPU [128]。字节跳动在其 MegaScale 系统设计中采用了三层铁路优化网络，连接了超过 10,000 个 GPU [71]。然而，铁路优化网络设计可能效率较低，因为它们需要将 GPU 连接到远处的交换机，这需要昂贵且耗电的光收发器。这些光组件增加了功耗和热量，导致网络故障率更高，这对于分布式 LLM 训练来说是重要的。阿里巴巴进一步优化了铁路优化拓扑，采用了一个名为 HPN [63] 的 2 层双平面架构。这种架构采用了最新的 51.2Tbps 单芯片交换机，支持一个 tier1 网络中的 1,000 个 GPU，并且在一个豆荚内支持多达 15,000 个 GPU。对 GPT/OPT-175B 模型训练的网络流量分析显示，99% 的 GPU 对不承载任何流量，并且不到 0.25% 的 GPU 对处理流水线/张量并行和数据并行流量 [64]。基于这些发现，铁路唯一拓扑 [64] 在铁路优化网络中消除了不同铁路之间的连接。每个铁路通过专用但独立的 Clos 网络连接。不同铁路上的 GPU 之间的通信通过通过内部芯片到芯片互连转发数据来管理。这种方可以有效降低成本，同时保持性能。HammingMesh [65] 将 GPU 组织成具有 2D-环面拓扑的组，并通过稀疏连接的交换机连接这些 2D-环面组。这种设计旨在在不牺牲训练性能的情况下节省成本。鉴于 GPU 仅通过 PCIe 连接，BiGraph [129] 提出了一种新的网络架构，将节点内 GPU 通信导出到节点外，绕过 PCIe 带宽瓶颈。它采用两层网络，通过 Clos 架构相互连接，具有支持应用控制流量路由的唯一最短路径。

流水线泡沫。 高效的微批次调度算法可以减少流水线泡沫。GPipe [151] 引入了一个填充 - 排空调度，一次性注入所有微批次进行前向传递执行，然后是反向传递。Gpipe 由于前向和反向传递的预热和冷却，引入了显著的流水线泡沫。PipeDream [134], [135] 引入了一个 1F1B（1 个前向 1 个反向）调度，一旦相应的前向传递完成，就执行微批次的反向传递，以减少异步场景中的流水线泡沫。DAPPLE [152] 采用早期反向调度，在每个阶段的开始首先注入固定数量的微批次，然后通过轮询交错前向和反向传递。交错 1F1B [153] 适应 1F1B 调度，但为每个 GPU 分配多个阶段（即循环流水线放置）。流水线泡沫以更高的通信和峰值内存消耗为代价减少了。Chimera [136] 引入了一个双向流水线来减少泡沫，通过权重复制。Hanayo [157] 进一步提出了一个波浪形流水线，将多个对称阶段分配给一个 GPU，以提高流水线利用率。零泡沫 [156] 将反向计算分为两部分：激活和参数梯度计算。它按 1F1B 安排前向和激活梯度计算，然后用参数梯度计算填充泡沫，这以更高的峰值内存消耗减少了泡沫。Breadth-First [159] 在循环流水线放置中一次性运行所有微批次，以减少与分片数据并行结合时的通信开销。TeraPipe [154] 沿序列维度拆分微批次，并利用更细粒度的标记并行来减少流水线泡沫。然而，TeraPipe 的内存开销很大，因为它基于 GPipe 调度。Seq1F1B [158] 将序列拆分成块，并使用 1F1B 调度来降低峰值内存消耗，同时实现低流水线泡沫率。DynaPipe [160] 使用动态微批次方法对具有可变长度输入的 LLMs 进行多任务训练。它引入了一种内存感知的自适应调度算法和提前通信计划，以进一步减少流水线泡沫率。Tessel [155] 是一个两阶段方法，包括重复模式构建和调度完成，以自动搜索指定分区策略的高效流水线调度。DISTMM [161] 启动双倍微批次以绕过由多模态训练的大批量需求引起的依赖性障碍，从而减少空闲周期。GraphPipe [162] 保持 DNN 图拓扑结构，并将其划分为可以同时执行的阶段，以提高流水线利用率并减少内存消耗。

当今 LLMs 的上下文窗口迅速增长，最强大的 LLM 可以支持数百万 token [7]。这种超长序列导致 LLM 训练的内存和计算需求显著增加：激活的内存占用线性增加，注意力机制的复杂度呈二次方增长。在反向传播中重新计算激活可以减少峰值内存消耗，但也引入了显著的开销（全部重新计算时为 30%）。大张量并行度引入了显著的通信开销。序列并行（图 8(d)) [169], [170] 被提出以适应长序列训练，并在内存容量内高效地在多个 GPU 上分布计算。它将输入数据沿序列维度划分为多个块，每个块被送入一个 GPU 进行计算。由于序列并行复制了模型参数，因此通常与张量和流水线并行结合使用，以扩展 LLM 训练。当与张量并行一起使用时，序列并行在多个 GPU 上分布了注意力的内存和计算，但引入了非张量并行区域内的冗余内存消耗和计算。Megatron-SP [170] 沿着序列维度拆分这些计算，减少了冗余激活计算和内存消耗，而没有增加通信。尽管序列并行在多个 GPU 上划分了内存、计算和通信，但二次因果注意力在训练效率方面仍然存在显著挑战，包括键 - 值张量通信开销、IO 感知注意力计算开销和由于因果注意力掩码导致的 GPU 之间负载不平衡。大多数序列并行方法的注意力是基于环形的 [169], [173], [175], [176], [178], [179]。Ring Self-Attention [169] 利用序列并行，并以环形通信方式计算自注意力，以扩展 LLM 训练的上下文窗口。它首先在 GPU 之间传输键张量以计算注意力分数，然后根据传输的注意力分数和值张量以类似方式计算自注意力输出。DistFlashAttn [176] 同时传输键 - 值张量块，利用 IO 感知 FlashAttention [115] 内核，并通过用早期 token 的空闲周期填充后期 token 的计算来平衡不同 GPU 的计算。Megatron Context Parallel [173] 也利用 FlashAttention 内核，并消除了由低三角因果掩码引起的不必要计算。它通过交换一半的块与对称 GPU，进一步平衡了 GPU 之间的计算。DistFlashAttn 和 Context Parallel 还在单独的 CUDA 流中重叠了键 - 值张量通信和注意力计算。Striped Attention [178] 通过为每个 GPU 分配一个在序列中均匀分布的 token 子集来解决不平衡问题，而不是连续的块。BurstAttention [179] 在每个 GPU 上使用 FlashAttention 计算注意力，并使用双缓冲区来重叠通信和计算。Blockwise Ring Attention [175] 将 Ring Self-Attention [169] 扩展到块状注意力，通过以小块计算注意力来减少内存占用。受到 N 体模拟的启发，WallFacer [180] 首先将 GPU 划分为子组，并通过异步 AllGather 在每个子组内复制查询和键 - 值张量。注意力计算利用多个环形 P2P 通信来提高效率。最后需要一个异步 ReduceScatter 来分发注意力输出。DeepSpeed-Ulysses [172] 与以前的基于环的方法不同，通过拆分头维度而不是序列维度，并利用 All-to-All 将分区维度从序列转移到头。DeepSpeed-Ulysses 可以与现有的注意力实现（例如，FlashAttention）无缝结合，并且 GPU 之间的工作负载自然平衡。然而，DeepSpeed-Ulysses 的并行度受到头数的限制，特别是对于使用 MQA [11] 和 GQA [12] 的 LLMs。LoongTrain [174] 和 USP [171] 是并发工作，集成了 DeepSpeed-Ulysses 和 Ring Attention 的优势。它们将 GPU 组织成二维网格，形成混合的 ulysses 和 ring 风格的进程组。在训练期间，它们首先在 ulysses 组之间执行 All-to-All 以将分区从序列维度切换到头维度，然后在 ring 组中使用 Ring-Attention 进行注意力计算。LoongTrain 进一步提出了 Double-Ring-Attention，以充分利用节点间通信的可用带宽，并重叠通信与计算。DSP [177] 根据多维变换器（如 DiT [246]）的计算阶段动态切换并行维度。

稀疏激活。 随着模型大小的增加，并非所有专家都能适应并训练在单个设备上。因此，GShard [15] 将 MoE 的思想扩展到分布式设置中的 Transformers，专家分布在不同的工作器上，并通过 All-to-All 通信进行协作，如图 9 所示。随后的专家并行研究通常遵循相同的范式。例如，Switch Transformer [181] 在 T5 模型上结合了分布式 MoE 训练的设计。但与 GShard 使用的前 2 个路由算法不同，Switch Transformer 将每个 token 路由到仅有的前 1 个专家，以最大化计算效率。此外，DeepSpeed-MoE [183] 提出了一种新的分布式 MoE 架构，它在每个工作器中应用共享专家，并将更多的专家放置在更深层，以平衡通信成本与训练精度。专家并行可以有效地与常规的 3D 并行集成。例如，GShard、Switch Transformer 和 DeepSpeed-MoE 都把专家并行视为混合并行的正交维度。为了有效的混合训练，DeepSpeed-TED [249] 提出了一种混合并行算法，结合了数据、张量和专家并行，以启用 MoE 模型的训练。作者将 MoE 参数划分为预定义大小的'瓦片'，以避免优化器内存峰值过高，并提出了像 Duplicate Token Dropping (DTD) 和激活检查点这样的通信优化，以消除 All-to-All 通信中的重复数据。然而，由于 MoE 的动态特性，选择最优的混合并行计划具有挑战性，并且在运行时在不同的并行策略之间切换也会带来相当的开销。因此，一些研究如 Tutel [182] 设计了一种自适应并行策略切换算法，它对所有可能的最优策略应用相同的分布模型布局，并且可以在每次迭代中动态切换并行策略，而不会产生任何额外开销。由于一般矩阵乘法（GeMMs）要求所有专家的输入大小一致，现有的 MoE 训练框架通常执行 token 丢弃和填充，以匹配相同的专家容量，这会浪费计算。Megablocks [185] 通过实现块稀疏矩阵乘法来优化分组 GeMMs，并支持单个内核中不同批量大小的专家计算，以避免 MoE 训练中的不必要 token 丢弃。另一个支持分组 GeMMs 的框架是 ScatterMoE [184]，它实现了 ParallelLinear 内核，该内核融合了分组 GeMMs 和分散的读写操作，以减少 top-k（k ≥ 2）门控的内存占用。

通信优化。 专家并行中的 All-to-all 通信可能会严重影响 MoE 的训练效率，特别是在网络环境不佳的情况下。现有的分布式训练系统尝试通过使通信任务与计算任务重叠来优化 MoE 的性能，以便一些通信成本可以被隐藏。例如，Tutel [182] 沿专家容量维度将输入张量划分为组，并重叠不同组之间的计算和通信，以隐藏 All-to-All 开销。FasterMoE [191], [192] 使用与 Tutel 类似的策略，但沿专家维度拆分张量。此外，Tutel [182] 还通过在节点内部聚合小消息为单个大块来优化 All-to-All 内核实现，然后交换不同节点之间的数据。这种优化也用于 FasterMoE 和 ScheMoE [187]。基于 Tutel 中的重叠策略，PipeMoE [186] 基于工作负载对通信和计算任务的执行时间进行建模，并设计了自适应算法，以找到最小化训练时间的最佳分区数。ScheMoE [187] 考虑了 All-to-All 通信前的数据压缩方法，并将耗时操作模块化，包括数据压缩、集体通信和专家计算。ScheMoE 然后提出了一种自适应最优调度算法，以流水线方式调度通信和计算操作，以提高训练效率。专家并行通常与 MoE 训练中的其他并行策略相互作用。通过细粒度任务调度，可以减少通信开销。例如，Lina [188] 系统地分析了分布式训练和推理期间 MoE 的 All-to-All 开销，并发现当 All-to-All 与 AllReduce 操作重叠时，All-to-All 延迟会延长。Lina 提出优先考虑 All-to-All 而不是 AllReduce，以提高其带宽并减少分布式训练中的阻塞期。此外，Lina 结合了张量划分和流水线，以类似于 Tutel 的方式执行微操作调度。Lina 还根据专家的受欢迎程度在推理期间动态调度资源，以最小化开销。Janus [189] 设计了一种以数据为中心的范式，将数据保持在原地，并根据参数服务器上的 GPU 移动专家。以数据为中心的范式使用细粒度异步通信，并允许专家使用非阻塞通信原语（如 pull）在 GPU 之间移动。Janus 实现了一种拓扑感知策略，以有效地在节点之间拉动专家，并支持专家预取，将所有外部专家拉到本地 CPU 内存中。

研究人员还通过沿不同维度划分操作员来探索自动化数据和模型并行。OptCNN [198] 沿其输出张量的可划分维度划分操作员，并使用分析性能模型选择最优的并行化策略，包括可并行化的维度和并行度，这定义了如何在不同设备上并行化单个层。FlexFlow [199] 进一步将搜索空间扩展到 Sample-Operator-AttributeParameter (SOAP)，其中几乎包括了输入和输出张量的所有可划分维度，并引入了一种新的执行模拟器进行准确的性能建模。FlexFlow 使用 MCMC 抽样有效地找到最优的并行化策略。Tofu [200] 和 HyPar [201] 开发了动态规划算法，通过最小化总通信成本而不是端到端性能，来确定每个操作员在混合数据和模型并行空间中的最优分区。TensorOpt [204] 在给定内存预算下使用前沿跟踪算法优化并行化策略。AutoMap [202] 采用蒙特卡洛树搜索（MCTS）选择由 PartIR [212] 定义的一系列分区规则，通过学习得到的评分器为一组选定的重要操作员传播整个并行化策略。最近的工作还设计了自动化数据、模型和流水线并行的方法。Piper [209] 设计了一个两级动态规划方法，以找到最优的混合数据、张量和流水线并行结合激活重计算。它首先将模型划分为流水线的小分区，然后在每个分区内拆分操作员。Alpa [21] 将并行化视为两个层次：操作员间和操作员内并行化，然后自动派生每个并行化级别的有效并行执行计划。Unity [210] 通过将它们表示为统一的并行计算图上的替换，联合优化并行化和代数变换。Aceso [211] 提出了一种迭代瓶颈缓解方法，显著减少了搜索时间。它在每一步识别性能瓶颈，并调整策略以缓解瓶颈，直到收敛。nnScaler [213] 引入了三个原语，以启用与任意分区和分区模型的空间 - 时间调度的搜索空间的组合。领域专家可以对原语应用约束，以构建有效且小的搜索空间，这些空间可以以低开销自动探索。AutoDDL [215] 通过迭代更新每层的 SBP [214] 分布，定制坐标下降算法，并快速发现具有近乎最优通信成本的最优策略。通用自动并行框架需要有效的系统支持各种并行化策略，以及用于发现最优并行化策略的快速优化算法。这是因为并行化通常涉及复杂的计算和通信操作员，特别是对于模型并行化，它划分了操作员。以前的工作已经开发了支持各种并行化策略的高效系统，要么通过构建在现代 DL 框架 [21], [213] 之上，要么从头开始实现 [199]。Mesh-TensorFlow [196] 观察到实现并行化策略的固有复杂性，并首先提出将设备集群抽象为多维网格，并将并行化抽象为划分迭代空间（即张量维度）。通过将张量和网格维度映射，可以轻松实现高性能的混合数据和模型并行化策略。例如，数据和模型并行化分别划分批次和隐藏维度。GSPMD [197] 进一步提供了一种统一的方式来实现各种通用并行方案，基于 JAX [250] 和 XLA [251] 的简单张量分片注释。OneFlow [214] 提出了 SBP（分割、广播、部分值）抽象进行分区，并允许用户指定张量的放置和 SBP 签名，以实现不同的并行化策略。PartIR [212] 将模型与其分区解耦，并为用户设计了一个编译器堆栈，通过计划逐步组合 SPMD 分片策略。与 TVM [252] 类似，Slapo [203] 定义了一组全面的调度原语用于并行化和子图优化，如操作员融合和激活检查点。这些调度与执行分离，并保留原始模型结构以进行逐步优化。

在 LLM 训练过程中，异构性不仅反映在硬件上，还反映在模型中。训练可能涉及几个不同模型的交互。一个具体的例子是通过人类反馈的强化学习（RLHF）。RLHF 是一种训练方法，旨在使 AI 系统更贴近人类的偏好 [255]，利用人类在判断适当行为方面的优势，而不是展示。这种方法特别受到关注，尤其是用于微调大型语言模型。然而，由于近端策略优化（PPO）[256] 算法的特殊性，RLHF 训练引入了模型异构性，使得 RLHF 训练过程与预训练和监督微调非常不同。原则上，RLHF 包括三个不同的阶段：第一阶段是监督微调，第二阶段是奖励模型的训练，第三阶段是 PPO 训练。模型异构性在第三阶段呈现，如图 10 所示。PPO 训练阶段包括两个不同的过程，即生成数据的推理过程和更新演员模型和评论家模型权重的训练过程。PPO 训练通过这两个过程的协作来执行。此外，训练阶段引入了更高的内存成本，因为我们需要同时提供多个自回归生成模型和奖励模型的副本，以及更多的时间成本，因为我们必须等待经验生成完成后才能更新权重。已经提出了许多框架来支持 RLHF 训练。例如，DeepSpeed-Chat [233] 使用混合引擎在训练和推理之间无缝切换模型分区，如在推理期间使用张量并行来提高吞吐量，在训练期间使用 ZeRO [145] 或 LoRA [257] 来提高内存利用率，为 RLHF 训练提供了卓越的系统效率。HuggingFace TRL [234] 可以充分利用各种参数高效微调（PEFT）方法，如 LoRA 或 QLoRA [258]，以节省内存成本，并使用由 unsloth [259] 设计的专用内核来提高 RLHF 的训练速度。ColossalAI-Chat [253] 是另一个端到端 RLHF 训练框架，也支持 LoRA，并支持使用 ZeRO [145] 来减少内存冗余。然而，上述工作采用了平面化策略进行模型放置，即将 RLHF 中的四个模型放置在同一设备上，然后使用 ZeRO 或 LoRA 等方法最小化内存成本。但是，仅使用 ZeRO 在训练较大模型时会导致内存瓶颈，而使用像 LoRA 这样的高效参数微调策略会损害模型性能。为了解决这个问题，OpenRLHF [235] 使用 Ray [260] 和 vLLM [261] 将奖励模型分布到不同的设备上，避免将所有四个模型都放在 PPO 的同一设备上。类似地，Adpative Placement and Parallelism (APP) 框架 [236] 提出了两种其他模型放置策略，即交错策略和分离策略。它捕捉到生成部分和训练部分在 PPO 训练期间可以独立运行的事实，并且一些串行化可以通过将它们放置在不同设备上来消除，这引入了额外的通信，但可以与计算很好地重叠。同时，还有一些工作将前两个阶段中的并行策略以细粒度调度的方式应用到 RLHF 的第三阶段。例如，ReaLHF [237] 通过重新分配参数，在第三阶段的不同子阶段之间切换最合适的并行模式，大大扩展了优化空间。PUZZLE [238] 根据不同阶段的亲和性重新安排任务执行顺序，以便具有更好亲和性的阶段可以有效覆盖执行并提高训练效率。

自注意力相对于序列长度表现出二次时间和内存复杂度。由自注意力引起的大量内存消耗和对高带宽内存（HBM）的频繁访问限制了变换器模型的性能和上下文长度。为了优化自注意力，提出了大量工作。我们关注精确的注意力优化，而像线性注意力这样的有损优化不在讨论范围内。内存高效注意力主要是为了缓解大内存成本。Rabe 等人 [287] 证明，自注意力需要 O(logn) 的内存复杂度而不是 O(n^2)。通过使用延迟 softmax，softmax 中的除法∑j exp(sj) 可以推迟到注意力操作的最后来进行。因此，求和可以递增地处理，只需要一个标量（即 O(1)）来维护中间结果，而不会改变输出。自注意力需要额外的 O(logn) 内存复杂度来保持查询列表中的附加索引，以顺序计算所有查询的结果。FlashAttention 系列进一步展示了快速和内存高效的精确注意力与 IO 感知性、高并行性和平衡的工作负载在 GPU 上。在 FlashAttention [115] 中，提出了一种 IO 感知平铺算法，以减少基于在线 softmax 的慢 HBM 和快片上 SRAM 之间的内存读写次数。更具体地说，softmax 可以通过跟踪包括最大分数和指数分数总和在内的归一化统计数据，逐块计算。因此，平铺算法将自注意力中的所有计算操作链，包括矩阵乘法、softmax、矩阵乘法等，融合在一个 cuda 内核中，以减少 HBM 访问。FlashAttention2 [116] 通过在序列长度维度上增加并行性和改进线程块内数据共享的 warp 级调度，进一步提高了 FlashAttention 中的低占用率和不必要的共享内存读写。此外，流行的训练系统 [174] 通常采用 FlashAttention-2 进行高性能。FlashAttention-3 [262] 通过挖掘新推出的硬件功能来加速 H100 GPU 上的注意力，因为以前的 FlashAttention 实现基于 A100 GPU。基于 FlashAttention-2，重新设计了一种交错块状 GEMM 和 softmax 算法，以隐藏 softmax 中的非 GEMM 操作与异步 WGMMA 指令的 GEMM。此外，通过利用 Tensor Cores 和张量内存加速器（TMA）的异步性，通过 warp 专门的软件流水线方案，使整体计算与数据移动重叠。Blockwise Parallel Transformer (BPT) [263] 通过扩展 FlashAttention 中的平铺算法来进一步减少大量内存需求，将前馈网络融合起来。还针对各种架构优化了注意力机制，利用硬件特定特性。例如，SWattention [264] 为 Sunway 新架构设计，建立在 FlashAttention 之上。同样，Bikshand 等人 [265] 在 H100 GPU 上实现 FlashAttention-2，使用 Cutlass 库。他们利用 TMA 和 WarpGroup Matrix-Multiply-Accumulate (WGMMA) 指令分别优化数据复制和 GEMM 操作。此外，基于 Cutlass 库，精心设计了基于张量布局变换和两个 GEMM 之间的数据复制与计算之间的软件流水线。注意力机制还针对分布式 LLM 训练中常见的变长序列进行了优化。这些变长序列如果填充到最大长度，可能会产生显著的内存和计算成本。FlashAttention-2 通过不可分割地并行化序列长度维度来高效处理变长输入。ByteTransformer [266] 专注于无填充变换器，针对变长输入，维护一个位置数组，在计算期间记录原始张量和中间打包张量之间有效 token 的映射关系。这种长序列的融合多头注意力算法采用针对未填充张量的优化分组 GEMM。这种优化减少了填充引起的内存和计算开销，从而提高了性能。

许多基于以太网的网络内聚合系统依赖于可编程交换机，并且可以用于分布式 LLM 训练。SwitchML [362] 支持在分布式训练的后向阶段将集体通信操作卸载到可编程网络交换机。由于完整的模型更新可能超过交换机的存储容量，SwitchML 通过交换机流式传输聚合，每次处理有限数量的向量元素的聚合函数。SwitchML 有两个限制。首先，处理浮点运算时，SwitchML 不能直接对浮点张量执行集体通信（如 AllReduce）。相反，它使用类似块浮点的方法将浮点值转换为 32 位整数。其次，SwitchML 主要在 DPDK 上实现，虽然有 RDMA 功能实现，但很难与训练框架集成。为了更好地促进分布式模型训练，FPISA [363] 在可编程交换机上直接运行 P4 [373] 程序来实现浮点计算。因此，训练框架可以将 FP16 张量的集体通信操作卸载到交换机，而无需将它们转换为 32 位整数。NetReduce [364] 支持与 RoCE 兼容的网络内聚合，充分利用 RoCE 的拥塞控制和可靠性设计，无需在交换机中进行昂贵的网络协议处理堆栈。NetReduce 使用附加到以太网交换机的 FPGA 板进行了原型设计。AllReduce-Switch [365] 与 NetReduce 密切相关，并且与其网络协议兼容。它引入了一种针对网络内聚合任务量身定制的新型交换机架构，并使用 FPGA 硬件实现了原型。PANAMA [366] 和 ATP [367] 也通过它们为共享环境设计的网络内聚合框架为该领域做出了贡献。PANAMA 专注于通过管理多个并发训练作业之间的带宽分配来优化网络负载。它解决了传统拥塞控制可能无法充分支持同时训练操作的挑战。ATP 则支持多个并发租户同时运行多个作业，强调对共享环境中不同工作负载的支持。某些工作针对特定的训练工作负载进行了定制，使它们不适合分布式 LLM 训练。例如，Libra [374] 是为使用参数服务器架构的稀疏模型训练而设计的。它将频繁更新的参数聚合卸载到可编程交换机，而将不经常更新的参数留给服务器处理。这种方法有效地减少了服务器负载。另一方面，iSwitch [375] 是为强化学习训练任务中的参数聚合而设计的。尽管其基于 FPGA 的实现支持本地浮点运算，但它在显著较低的带宽下运行。此外，iSwitch 在聚合期间存储了整个梯度向量，这对于强化学习工作负载是可行的，但对于大规模模型，尤其是 LLMs 来说，并不具有很好的扩展性。

来自不同来源的实证证据强调了 LLM 训练中故障的频繁性。例如，在 384 个 GPU 的集群上，Bloom 的平均每周经历 1-2 次 GPU 故障 [292]。Meta 的 175B OPT 模型在 992 个 A100 GPU 上进行了全面的培训记录 [398]，在两周内记录了 40 多次中断，归因于硬件、基础设施和其他外部因素。更多近期的研究进一步强调了这一问题。Acme [23] 在其使用超过 1,000 个 A100 GPU 的训练过程中平均报告每 1-2 天发生一次故障。字节跳动的 MegaScale 项目 [71]，使用 12,288 个 Ampere GPU，在几周内经历了 100 多次故障。Meta 的 LLaMA3 在 16,384 个 H100 GPU 的集群上进行了 54 天的预训练，期间经历了 466 次作业中断 [9]。频繁的故障主要是由于这些系统的复杂性和规模，以及延长的训练周期。整个训练系统包括我们之前调查过的各个组件的庞大数组。此外，同步训练进一步加剧了这个问题，因为任何单个节点的错误都可能导致整个作业失败，使系统特别容易受到即使是孤立的硬件或软件故障的影响。即使在单个节点上观察到的低至 1.5% 的日故障率，如阿里巴巴的集群 [383] 所观察到的，当扩展到具有 1,000 个 GPU 的系统时，也会转化为惊人的 84.8% 的日故障率。然而，训练系统规模的扩大趋势仍在继续，强调了容错机制在维护系统可靠性方面的挑战。这些故障背后的原因多种多样，来自 LLM 训练系统的各个组件。根据 Acme [23]，最严重的影响来自硬件故障，如 GPU（例如，CUDA-Error、ECC-Error）、NVLink 和网络系统（例如，NCCL-Timeout-Error、Connection-Error）。阿里巴巴 C4 [377] 也有类似的观察结果。C4 进一步观察到，大多数错误（约 82.5%）局限于特定节点甚至单个设备，尽管用户观察到的大多数错误是 NCCL 错误。LLaMA3 预训练 [9] 还报告说，78% 的故障是硬件问题。此外，最新一代 GPU（A100 和 H100）倾向于表现出较高的错误率，可能由于快速发展、匆忙交付和增加的功耗 [377], [399]。除了硬件，分布式训练框架、数据预处理管道或库依赖中的软件相关问题可能导致崩溃或意外行为 [23], [378], [399]。模型本身的复杂性质可以引入不稳定性，如损失尖峰、数值溢出或下溢、梯度爆炸或优化困难 [398], [400]。数据中心的外部因素，如停电或冷却系统故障，进一步导致系统不稳定。例如，集群服务器房间的高温也可能导致 GPU 过热，从而导致 NVLink-Error 或 ECC-Error [23] 或训练速度不稳定 [9]。这些频繁和多样化的 LLM 故障导致 GPU 的显著浪费。这种效率低下主要表现为两种方式：故障恢复和性能下降。首先，LLM 训练作业定期保存检查点，以维护进度。发生故障时，系统维护人员必须首先定位和诊断问题，然后通过回滚到先前的检查点来重新启动训练。然而，一些硬件故障可能很难主动检测，并且通常需要大量的时间来诊断和恢复，导致 LLM 训练的长时间停滞。其次，由于网络链路故障 [377] 或异常计算减速 [71] 导致的集群中的落后者，可以显著降低 MFU，进一步加剧整体训练效率的下降。Meta 的 175B OPT 模型的训练就是一个例子 [398]。虽然基于 MFU 的理想训练时间估计为大约 25 天，但实际训练持续了大约 57 天。这意味着惊人的 56% 的总时间被浪费在处理各种故障上，突显了系统不稳定对资源利用率和 LLM 训练效率的严重影响。

统计监控是一种系统性的方法，用于观察和分析 LLM 训练过程中的各种指标和指示器。该方法涉及收集、处理和解释数据，以识别异常或与预期行为的偏差。在典型的设置中，每个 GPU 都有一个专用的监控进程，负责收集基本信息和运行时统计数据 [71], [378], [379]。然后将这些统计数据作为心跳消息传输到中央监控节点进行进一步分析。未能发送心跳消息的节点被视为已失败。这个监控系统的主要目标是及时检测异常，允许快速恢复，以最小化训练中断并保持整体效率。LLM 训练中监控的大多数运行时统计数据与硬件相关，包括 GPU 和网络指标。最近的工作 [71], [378], [379] 使用 NVIDIA DCGM [401] 收集与 GPU 相关的统计数据，包括 SM 块利用率、SM 占用率、SM 管道利用率、PCIe 流量率、NVLink 流量率等。一个经常出现的问题是 GPU 内存行重映射，它在硬件中无缝地用稀疏的单元替换已知的降级内存单元。Vela [378] 通过利用 DCGM 中的 DCGM_FI_DEV_ROW_REMAP_PENDING 统计数据来检测这个问题。Megascale [71] 和 Transom [380] 还通过分析训练日志中发生的错误来检测错误。除了 GPU 指标外，网络统计数据对于监控分布式训练性能至关重要。MegaScale [71] 跟踪 RDMA 流量指标以检测潜在的异常。它还开发了可视化系统，手动识别效率低下的 GPU。Unicorn [379] 检测诸如 NCCL 超时、TCP 超时和任务挂起等错误，并在训练期间延迟通知。C4 [377] 收集连接细节，如 RDMA IP 和 QP 号码，以及传输层的消息统计数据，包括传输计数、大小和持续时间，以检测训练减速和挂起。集体通信活动也可以通过 PyTorch 内置的 NCCL 飞行记录器 [273] 进行监控，该记录器将集体元数据和堆栈跟踪捕获到环形缓冲区，以便稍后诊断。Meta 进一步与 PyTorch 共同设计了 NCCLX [9]，允许 PyTorch 访问其内部状态，以实现快速准确的故障检测。NCCLX 跟踪每个 NCCLX 通信的内核和网络活动，这可以帮助诊断通信问题。Vela [378] 实现了一个增强的 MultiNIC 健康检查器，收集每对节点上每个端口的节点网络带宽数据。这些信息可以用来检测具有降级 RoCE/GDR 性能的节点。利用 LLM 训练的关键特征作为先验知识，Transom [380] 开发了机器学习算法进行异常检测。统计监控还使 Google 的 TPUv4 超级计算机 [376] 具有弹性。每个 TPUv4 机器都配备了一个 healthd 守护进程，实时监控 IC 互联（芯片间互联）、PCIe 链接和 TPU ASIC。检测到的严重症状将通知集群调度程序采取适当措施，如驱逐受影响的作业或重新安排它们。

大语言模型 (LLM) 分布式高效训练技术综述：背景、并行、计算、内存、通信、容错、展望

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

大语言模型 (LLM) 分布式高效训练技术综述：背景、并行、计算、内存、通信、容错、展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具