大规模语言模型在分布式基础设施上的高效训练:综述
引言
像 GPT 和 LLaMA 这样的大型语言模型(LLM)以其复杂的能力正在革新 AI 行业。训练这些模型需要庞大的 GPU 集群和大量的计算时间,在可扩展性、效率和可靠性方面带来了重大挑战。本综述探讨了 LLM 训练系统的最新进展,包括在训练基础设施中使用 AI 加速器、网络、存储和调度的创新。此外,综述还涵盖了并行策略以及在分布式 LLM 训练中针对计算、通信和内存的优化。它还包括在长时间训练期间保持系统可靠性的方法。
大型语言模型(LLM)正在变革 AI 行业,在个人助手、代码辅助、芯片设计和科学发现等广泛任务和应用中展示了卓越的能力。这场革命的成功建立在以 GPT、LLaMA、Gemini 等为代表的前所未有规模的基于变压器的 LLM 之上。证据表明 LLM 的规模化尚未达到瓶颈。这种趋势显著改变了基础训练系统和基础设施的设计,因为 LLM 通常遵循相对固定的架构,其训练独占了庞大的 GPU 集群长达数月。
LLM 训练在可扩展性、效率和可靠性(SER)方面对当今的训练系统和基础设施提出了重大挑战。可扩展性要求基础设施和系统能够无缝适应成千上万的 GPU 或 AI 加速器的大型集群,同时保持训练正确性和模型精度。效率关注于最大化整个集群的资源利用率,通常以模型浮点运算(MFU)来衡量。可靠性对于 LLM 训练至关重要,通常训练持续数周到数月。系统必须保持一致的性能,并对各种类型的故障具有弹性。
一、LLM 架构与训练特点
Transformer 架构是目前 LLM 的基础。其核心机制包括自注意力(Self-Attention)和前馈神经网络(FFN)。随着模型参数量的增加,训练过程面临巨大的显存压力。例如,LLaMA-3 的预训练在 Meta 的生产集群上使用 16K H100-80GB GPU 耗时约 54 天。训练过程中,激活值(Activations)占用的显存往往比模型权重更大,尤其是在批量大小(Batch Size)较大时。
二、训练基础设施创新
2.1 AI 加速器
现代 LLM 训练主要依赖高性能 GPU 或专用 AI 芯片(如 TPU)。这些加速器具备高带宽内存(HBM)和强大的矩阵乘法单元。为了支持大规模训练,多卡互联技术至关重要,如 NVIDIA 的 NVLink 和 InfiniBand/RoCE 网络。
2.2 网络基础设施
分布式训练中的通信开销是主要瓶颈之一。RDMA(远程直接内存访问)技术允许节点间直接传输数据,绕过 CPU,降低延迟。高性能网络拓扑(如 Dragonfly+)被设计用于减少跨机架通信的跳数。
2.3 分布式存储系统
LLM 训练需要读取海量数据集。传统的文件系统可能成为 I/O 瓶颈。采用并行文件系统(如 Lustre, GPFS)或对象存储优化方案,结合数据预取(Prefetching)和缓存机制,可以显著提升数据加载速度。
三、分布式并行策略
为了在单卡无法容纳模型的情况下进行训练,必须采用并行策略。
3.1 数据并行(Data Parallelism, DP)
将数据分片到不同设备上,每个设备持有完整的模型副本,计算梯度后同步。简单但受限于显存容量。
3.2 张量并行(Tensor Parallelism, TP)
将单个算子(如矩阵乘法)拆分到多个设备上执行。这能显著降低单卡显存需求,但增加了通信频率。
3.3 流水线并行(Pipeline Parallelism, PP)
将模型的不同层分配到不同设备上,形成流水线。通过微批次(Micro-batches)重叠计算与通信,提高吞吐量。
3.4 混合并行
实际系统中常结合上述策略,如 Megatron-LM 和 DeepSpeed 采用的 DP+TP+PP 组合。
四、计算优化
4.1 混合精度训练
使用 FP16 或 BF16 代替 FP32 进行前向和反向传播,配合动态损失缩放(Dynamic Loss Scaling),可减少显存占用并提升计算速度。
4.2 算子融合
将多个小算子合并为一个大算子,减少内核启动开销和中间结果写入显存的次数。
五、内存优化
5.1 零冗余优化器(ZeRO)
DeepSpeed 提出的 ZeRO 技术将优化器状态、梯度和参数分片存储在不同设备上,大幅降低每卡显存占用。


