大规模语言模型在分布式基础设施上的高效训练:综述
综述了大规模语言模型在分布式基础设施上的高效训练技术。内容涵盖 LLM 架构特点及 SER 挑战,详细分析了 AI 加速器、高性能网络与存储系统的创新。重点讨论了数据并行、张量并行及流水线并行等策略,以及混合精度、ZeRO 优化器和激活重计算等内存与计算优化手段。此外,文章还介绍了梯度压缩、通信重叠等通信优化技术,以及检查点机制和弹性调度等可靠性保障方案。最后展望了光学计算等未来方向,为构建大规模机器学习基础设施提供了系统性参考。

综述了大规模语言模型在分布式基础设施上的高效训练技术。内容涵盖 LLM 架构特点及 SER 挑战,详细分析了 AI 加速器、高性能网络与存储系统的创新。重点讨论了数据并行、张量并行及流水线并行等策略,以及混合精度、ZeRO 优化器和激活重计算等内存与计算优化手段。此外,文章还介绍了梯度压缩、通信重叠等通信优化技术,以及检查点机制和弹性调度等可靠性保障方案。最后展望了光学计算等未来方向,为构建大规模机器学习基础设施提供了系统性参考。

像 GPT 和 LLaMA 这样的大型语言模型(LLM)以其复杂的能力正在革新 AI 行业。训练这些模型需要庞大的 GPU 集群和大量的计算时间,在可扩展性、效率和可靠性方面带来了重大挑战。本综述探讨了 LLM 训练系统的最新进展,包括在训练基础设施中使用 AI 加速器、网络、存储和调度的创新。此外,综述还涵盖了并行策略以及在分布式 LLM 训练中针对计算、通信和内存的优化。它还包括在长时间训练期间保持系统可靠性的方法。
大型语言模型(LLM)正在变革 AI 行业,在个人助手、代码辅助、芯片设计和科学发现等广泛任务和应用中展示了卓越的能力。这场革命的成功建立在以 GPT、LLaMA、Gemini 等为代表的前所未有规模的基于变压器的 LLM 之上。证据表明 LLM 的规模化尚未达到瓶颈。这种趋势显著改变了基础训练系统和基础设施的设计,因为 LLM 通常遵循相对固定的架构,其训练独占了庞大的 GPU 集群长达数月。
LLM 训练在可扩展性、效率和可靠性(SER)方面对当今的训练系统和基础设施提出了重大挑战。可扩展性要求基础设施和系统能够无缝适应成千上万的 GPU 或 AI 加速器的大型集群,同时保持训练正确性和模型精度。效率关注于最大化整个集群的资源利用率,通常以模型浮点运算(MFU)来衡量。可靠性对于 LLM 训练至关重要,通常训练持续数周到数月。系统必须保持一致的性能,并对各种类型的故障具有弹性。
Transformer 架构是目前 LLM 的基础。其核心机制包括自注意力(Self-Attention)和前馈神经网络(FFN)。随着模型参数量的增加,训练过程面临巨大的显存压力。例如,LLaMA-3 的预训练在 Meta 的生产集群上使用 16K H100-80GB GPU 耗时约 54 天。训练过程中,激活值(Activations)占用的显存往往比模型权重更大,尤其是在批量大小(Batch Size)较大时。
现代 LLM 训练主要依赖高性能 GPU 或专用 AI 芯片(如 TPU)。这些加速器具备高带宽内存(HBM)和强大的矩阵乘法单元。为了支持大规模训练,多卡互联技术至关重要,如 NVIDIA 的 NVLink 和 InfiniBand/RoCE 网络。
分布式训练中的通信开销是主要瓶颈之一。RDMA(远程直接内存访问)技术允许节点间直接传输数据,绕过 CPU,降低延迟。高性能网络拓扑(如 Dragonfly+)被设计用于减少跨机架通信的跳数。
LLM 训练需要读取海量数据集。传统的文件系统可能成为 I/O 瓶颈。采用并行文件系统(如 Lustre, GPFS)或对象存储优化方案,结合数据预取(Prefetching)和缓存机制,可以显著提升数据加载速度。
为了在单卡无法容纳模型的情况下进行训练,必须采用并行策略。
将数据分片到不同设备上,每个设备持有完整的模型副本,计算梯度后同步。简单但受限于显存容量。
将单个算子(如矩阵乘法)拆分到多个设备上执行。这能显著降低单卡显存需求,但增加了通信频率。
将模型的不同层分配到不同设备上,形成流水线。通过微批次(Micro-batches)重叠计算与通信,提高吞吐量。
实际系统中常结合上述策略,如 Megatron-LM 和 DeepSpeed 采用的 DP+TP+PP 组合。
使用 FP16 或 BF16 代替 FP32 进行前向和反向传播,配合动态损失缩放(Dynamic Loss Scaling),可减少显存占用并提升计算速度。
将多个小算子合并为一个大算子,减少内核启动开销和中间结果写入显存的次数。
DeepSpeed 提出的 ZeRO 技术将优化器状态、梯度和参数分片存储在不同设备上,大幅降低每卡显存占用。
在反向传播时重新计算部分激活值而非保存它们,以空间换时间,减少显存峰值。
将不活跃的模型参数卸载到 CPU 内存或磁盘,仅在需要时加载回 GPU。
通过量化或稀疏化技术减少传输的梯度数据量。
利用异步通信库(如 NCCL),使梯度聚合与下一轮计算同时进行,隐藏通信延迟。
硬件故障(GPU 掉线)、网络分区和软件错误是常见风险。长周期训练中,故障不可避免。
定期保存模型状态到持久化存储。当节点恢复后,从最近检查点继续训练。
采用弹性调度框架,自动检测故障节点并迁移任务,最小化进度损失。
基于传统数字电路的计算系统在满足 LLM 的计算需求方面面临重大限制,突显出诸如光学计算和光网络等创新解决方案的必要性。此外,面向特定领域的模型微调(Fine-tuning)和低资源部署也是重要研究方向。
本综述全面概述了 LLM 训练系统和基础设施的进展。从分布式训练基础设施到训练系统,涵盖了 GPU 集群、高性能网络和分布式存储系统的创新方法。我们探讨了分布式训练系统的关键方面,包括提高可扩展性和效率的并行策略、计算、通信和内存优化。深入研究了提高训练可靠性的容错机制。通过综合最近的进展并确定未来的研究方向,旨在为研究人员和实践者提供对改进 LLM 训练系统最有前景途径的见解。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online