大规模语言模型在分布式基础设施上的高效训练：综述

引言

像 GPT 和 LLaMA 这样的大型语言模型（LLM）以其复杂的能力正在革新 AI 行业。训练这些模型需要庞大的 GPU 集群和大量的计算时间，在可扩展性、效率和可靠性方面带来了重大挑战。本综述探讨了 LLM 训练系统的最新进展，包括在训练基础设施中使用 AI 加速器、网络、存储和调度的创新。此外，综述还涵盖了并行策略以及在分布式 LLM 训练中针对计算、通信和内存的优化。它还包括在长时间训练期间保持系统可靠性的方法。

大型语言模型（LLM）正在变革 AI 行业，在个人助手、代码辅助、芯片设计和科学发现等广泛任务和应用中展示了卓越的能力。这场革命的成功建立在以 GPT、LLaMA、Gemini 等为代表的前所未有规模的基于变压器的 LLM 之上。证据表明 LLM 的规模化尚未达到瓶颈。这种趋势显著改变了基础训练系统和基础设施的设计，因为 LLM 通常遵循相对固定的架构，其训练独占了庞大的 GPU 集群长达数月。

LLM 训练在可扩展性、效率和可靠性（SER）方面对当今的训练系统和基础设施提出了重大挑战。可扩展性要求基础设施和系统能够无缝适应成千上万的 GPU 或 AI 加速器的大型集群，同时保持训练正确性和模型精度。效率关注于最大化整个集群的资源利用率，通常以模型浮点运算（MFU）来衡量。可靠性对于 LLM 训练至关重要，通常训练持续数周到数月。系统必须保持一致的性能，并对各种类型的故障具有弹性。

一、LLM 架构与训练特点

Transformer 架构是目前 LLM 的基础。其核心机制包括自注意力（Self-Attention）和前馈神经网络（FFN）。随着模型参数量的增加，训练过程面临巨大的显存压力。例如，LLaMA-3 的预训练在 Meta 的生产集群上使用 16K H100-80GB GPU 耗时约 54 天。训练过程中，激活值（Activations）占用的显存往往比模型权重更大，尤其是在批量大小（Batch Size）较大时。

二、训练基础设施创新

2.1 AI 加速器

现代 LLM 训练主要依赖高性能 GPU 或专用 AI 芯片（如 TPU）。这些加速器具备高带宽内存（HBM）和强大的矩阵乘法单元。为了支持大规模训练，多卡互联技术至关重要，如 NVIDIA 的 NVLink 和 InfiniBand/RoCE 网络。

2.2 网络基础设施

分布式训练中的通信开销是主要瓶颈之一。RDMA（远程直接内存访问）技术允许节点间直接传输数据，绕过 CPU，降低延迟。高性能网络拓扑（如 Dragonfly+）被设计用于减少跨机架通信的跳数。

2.3 分布式存储系统

LLM 训练需要读取海量数据集。传统的文件系统可能成为 I/O 瓶颈。采用并行文件系统（如 Lustre, GPFS）或对象存储优化方案，结合数据预取（Prefetching）和缓存机制，可以显著提升数据加载速度。

三、分布式并行策略

为了在单卡无法容纳模型的情况下进行训练，必须采用并行策略。

3.1 数据并行（Data Parallelism, DP）

将数据分片到不同设备上，每个设备持有完整的模型副本，计算梯度后同步。简单但受限于显存容量。

3.2 张量并行（Tensor Parallelism, TP）

将单个算子（如矩阵乘法）拆分到多个设备上执行。这能显著降低单卡显存需求，但增加了通信频率。

3.3 流水线并行（Pipeline Parallelism, PP）

将模型的不同层分配到不同设备上，形成流水线。通过微批次（Micro-batches）重叠计算与通信，提高吞吐量。

3.4 混合并行

实际系统中常结合上述策略，如 Megatron-LM 和 DeepSpeed 采用的 DP+TP+PP 组合。

四、计算优化

4.1 混合精度训练

使用 FP16 或 BF16 代替 FP32 进行前向和反向传播，配合动态损失缩放（Dynamic Loss Scaling），可减少显存占用并提升计算速度。

4.2 算子融合

将多个小算子合并为一个大算子，减少内核启动开销和中间结果写入显存的次数。

五、内存优化

5.1 零冗余优化器（ZeRO）

DeepSpeed 提出的 ZeRO 技术将优化器状态、梯度和参数分片存储在不同设备上，大幅降低每卡显存占用。

大规模语言模型在分布式基础设施上的高效训练：综述