大模型多 GPU 分布式训练并行策略详解与选择指南 | 极客日志

PythonAI算法

大模型多 GPU 分布式训练并行策略详解与选择指南

综述由AI生成大模型在多 GPU 环境下的分布式训练并行策略。涵盖数据并行（DP/DDP）、模型并行（张量并行 TP/流水线并行 PP）及混合并行（HP）。分析了各策略的原理、优缺点及适用场景，如 DP 适合单机多卡，TP 解决显存不足，PP 处理层间通信。最后提供了单节点与多节点环境下的策略选择建议，帮助开发者根据硬件资源和模型规模优化训练效率。

花里胡哨发布于 2025/2/7更新于 2026/5/3121 浏览

三、分布式训练并行策略

分布式训练系统的核心目标是将原本在单一计算节点上进行的模型训练过程，转化为能在多个计算节点上并行执行，以加速训练速度并支持更大规模的模型和数据集。

在单节点模型训练中，系统结构主要由两大部分组成：数据和模型。训练过程由多个数据小批次（Mini-batch）完成。数据表示一个数据小批次。训练系统会利用数据小批次根据损失函数和优化算法生成梯度，从而对模型参数进行修正。

针对大语言模型多层神经网络的执行过程，模型训练过程可以抽象为一个计算图（Computational Graph）。这个图由多个相互连接的算子（Operator）构成，每个算子对应神经网络中的一个层（Neural Network Layer），如卷积层、全连接层等。参数（Weights）则是这些层在训练过程中不断更新的权重。

计算图的执行过程可以分为前向传播和反向传播两个阶段。

「前向计算（Forward Pass）」

输入数据：数据从输入层开始，被送入计算图的第一个算子。
算子执行：每个算子接收输入数据，执行相应的数学运算（如矩阵乘法、激活函数等），并产生输出。
数据传递：算子的输出作为后续算子的输入，沿着计算图向前传播。
输出生成：当数据到达计算图的末端，即输出层，产生最终的预测结果。

「反向计算（Backward Pass）」

损失计算：在前向传播完成后，使用损失函数比较预测输出与实际标签，计算损失值。
梯度计算：从输出层开始，反向遍历计算图，根据损失值和算子的导数，计算每个算子的梯度。
参数更新：利用计算出的梯度，根据选择的优化算法（如梯度下降、Adam 等），更新模型参数。
传播回溯：反向计算过程从输出层向输入层递归进行，直到所有参数都被更新。

根据单设备模型训练流程，可以看出，如果进行并行加速，可以从数据和模型两个维度考虑：

对数据进行切分（Partition），并将同一个模型 copy 到多个设备上，每个设备并行执行不同的数据分片，即 「数据并行（Data Parallelism，DP）」。
对模型进行拆分，将模型中的算子分发到多个设备分别完成，即 「模型并行（Model Parallelism，MP）」。
训练超大规模语言模型时，同时对数据和模型进行并行，即 「混合并行（Hybrid Parallelism，HP）」。

1、数据并行 DP

数据并行是最常用的并行训练方式，主要分为 DataParallel(DP) 和 DistributedDataParallel(DDP) 两种。

「DP」

DP 是早期使用的数据并行方案，通过 torch.nn.DataParallel() 来调用，代码如下:

# 设置可见的 GPU
import os
os.environ['CUDA_VISIBLE_DEVICES'] = "0,1,2,3"

# 将模型放到 GPU 0 上，必须先把模型放在 GPU 上，后面才可以调用 DP
model.cuda()

# 构建 DataParallel 数据并行化
model = torch.nn.DataParallel(model)

DP 核心思想是将一个大的 batch 数据分割成多个子 batch，并将子 batch 分配给不同的 GPU 进行并行计算。

「前向传播：」

模型和完整的 mini-batch 数据被放置在 Master GPU（例如 GPU:0）上。
GPU:0 将 mini-batch 数据分割成若干个子 batch，并将这些子 batch 分发（scatter）到其它 GPU 上。
GPU:0 将自身的模型参数复制到其它 GPU，确保每个 GPU 上的模型参数完全相同。
每个 GPU 在单独的线程上对其 sub-mini-batch 的数据前向传播，计算出各自的输出结果。
GPU:0 收集所有 GPU 的输出结果。

「反向传播：」

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 初始化分布式环境
import torch.distributed as dist
import torch.optim as optim
import argparse

# 1) 指定通信后端为 nccl（NVIDIA Collective Communications Library），
#    这是针对 GPU 集群优化的高性能通信库
dist.init_process_group(backend='nccl')

# 2）从命令行接收 local_rank 参数，该参数表示当前 GPU 在本地机器上的编号，用于后续的设备设置
parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", default=-1, type=int)
args = parser.parse_args()

# 3) 设置 cuda
# 根据 local_rank 设置当前进程使用的 GPU 设备，创建对应的 device 对象
torch.cuda.set_device(args.local_rank)
device = torch.device("cuda", args.local_rank)

# 模型设置
# 将模型封装进 DistributedDataParallel，
# 指定模型运行在 local_rank 对应的 GPU 上，同时将模型移动到相应的设备
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank], output_device=args.local_rank)
model.to(device)

# Dataset 设置
from torch.utils.data import DataLoader, DistributedSampler
Test_data = FunDataset(args.input)
# 创建 DistributedSampler，用于在分布式环境中对数据集进行采样，确保每个进程处理不同的数据子集
test_sample = DistributedSampler(Test_data)
# 使用 DataLoader 加载数据，指定 sampler 为 DistributedSampler，确保数据的分布式加载和处理
test_data_dataset = DataLoader(dataset=Test_data, batch_size=args.batch_size, shuffle=False,
                               collate_fn=Test_data.collate__fn,
                               drop_last=False, sampler=test_sample)

# 优化器初始化（应在循环外）
optimizer = optim.SGD(model.parameters(), lr=0.001)

# 运行的时候需要设置
for epoch in range(num_epochs):
    # 在每个 epoch 开始时，更新 DistributedSampler 的 epoch，确保数据的随机重排
    test_data_dataset.sampler.set_epoch(epoch)
    # 遍历数据集，前向传播计算预测值，计算损失，执行反向传播和参数更新
    for data, label in trainloader:
        prediction = model(data)
        loss = loss_fn(prediction, label)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

output=L4(L3(L2(L1(input)))))

大模型多 GPU 分布式训练并行策略详解与选择指南

三、分布式训练并行策略

1、数据并行 DP

更多推荐文章

相关免费在线工具

2、模型并行 MP

1）张量并行

2）流水线并行

3、混合并行 HP

1）DP+PP

2）3D 并行 (DP+PP+TP)

四、分布式训练并行策略选择

1、单节点并行化策略

2、多节点并行化策略

更多推荐文章

相关免费在线工具

大模型多 GPU 分布式训练并行策略详解与选择指南

三、分布式训练并行策略

1、数据并行 DP

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2、模型并行 MP

1）张量并行

2）流水线并行

3、混合并行 HP

1）DP+PP

2）3D 并行 (DP+PP+TP)

四、分布式训练并行策略选择

1、单节点并行化策略

2、多节点并行化策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具