分布式训练框架的编程基础与 PyTorch RPC 实践

为什么会有这篇文章：虽然工作内容不是 infra，但是我比较喜欢研究训练方法，魔改训练框架造轮子。正好最近看到 OpenRLHF 用 ray 管理 VLLM 的方案，感觉很有意思，遂研究了一下，发现 VLLM 的 TP 切分和 Megatron 是一套逻辑，用 torch 的 rpc 也可以代替 ray 的远程调用，所以打算用 Megatron+TorchRPC+VLLM 实现一套类似的框架，后期再把 VLLM 原地换掉直接 megatron 推理。在开始这个大工程之前，正好有机会写下这篇文章，就算是开工仪式了。

本文的主要内容

本文主要是从编程的角度，对LLM 训练框架所涉及的一些前置编程知识进行讲解，并且会举一些应用技巧，对应到当前的 LLM 训练框架，辅助理解训练框架的代码逻辑。举个例子，下面是一段 megatron 初始化多卡通信组的代码：

rank = torch.distributed.get_rank()
for ranks in rank_generator.get_ranks('dp'): # 迭代生成所有数据并行 ranks 的列表
    group = torch.distributed.new_group(
        ranks, timeout=timeout, pg_options=get_nccl_options('dp', nccl_comm_cfgs)
    ) # 根据数据并行 ranks 创建通信组
    group_gloo = torch.distributed.new_group(ranks, timeout=timeout, backend="gloo")
    if rank in ranks: # 如果当前 rank 属于这个数据并行 ranks，则保存创建的通信组
        _DATA_PARALLEL_GROUP = group
        _DATA_PARALLEL_GROUP_GLOO = group_gloo
        _DATA_PARALLEL_GLOBAL_RANKS = ranks

读完本文你会了解：

什么是 rank、什么是 world_size，什么是通信组 group

为什么这段代码是先建通信组，再根据 rank in ranks 决定是否保存？判断 rank in ranks 了再创建 group 行不行？

在子进程和子线程中创建通信组有什么区别和要注意的地方。

backend="gloo"：什么是 backend，gloo backend 是干什么的，为什么不用 nccl backend。

再比如下面是一段 deepspeed 在参数上注册的回调函数：

def create_reduce_and_remove_grad_hooks(self):
    self.grad_accs = []
    for i, param_group in enumerate(self.bit16_groups): # 遍历混精优化器的参数
        for param in param_group:
            if param.requires_grad:
                def wrapper(param, i):
                    param_tmp = param.expand_as(param) # 在原始的参数上建立一个视图
                    grad_acc = param_tmp.grad_fn.next_functions[][] 

                     ():
                        .reduce_ready_partitions_and_remove_grads(param, i)

                    ._grad_acc_hooks.append(grad_acc.register_hook(reduce_partition_and_remove_grads)) 
                    .grad_accs.append(grad_acc)
                wrapper(param, i)

分布式训练框架的编程基础与 PyTorch RPC 实践

本文的主要内容

更多推荐文章

相关免费在线工具

训练框架是干什么的

Hello World

启动命令

rank & world size

后端 backend

训练脚本开始阶段的一些小细节

set device

固定随机种子

通信算子

规约

聚集

广播

点对点通信、p2p

其他通信算子

关于通信模式

通信组

创建单个通信组

创建多个通信组

分布式训练 demo

register_hook

多进程

RPC

后记

更多推荐文章

相关免费在线工具

分布式训练框架的编程基础与 PyTorch RPC 实践

本文的主要内容

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

训练框架是干什么的

Hello World

启动命令

rank & world size

后端 backend

训练脚本开始阶段的一些小细节

set device

固定随机种子

通信算子

规约

聚集

广播

点对点通信、p2p

其他通信算子

关于通信模式

通信组

创建单个通信组

创建多个通信组

分布式训练 demo

register_hook

多进程

RPC

后记

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具