大模型推理中的张量并行:详解 4 种通信计算重叠模式
详细解析了大模型推理中张量并行的四种通信计算重叠优化模式。首先介绍了朴素版张量并行存在的通信阻塞问题,随后深入探讨了基于分布式 Gemm 的重叠方案、请求间的流级重叠方案以及请求内的序列分块重叠方案。文章分析了各方案的原理、优缺点及适用场景,指出通信计算重叠已成为提升推理性能的关键技术,并展望了其在未来大模型推理引擎中的普及趋势。

详细解析了大模型推理中张量并行的四种通信计算重叠优化模式。首先介绍了朴素版张量并行存在的通信阻塞问题,随后深入探讨了基于分布式 Gemm 的重叠方案、请求间的流级重叠方案以及请求内的序列分块重叠方案。文章分析了各方案的原理、优缺点及适用场景,指出通信计算重叠已成为提升推理性能的关键技术,并展望了其在未来大模型推理引擎中的普及趋势。

张量并行(Tensor Parallelism, TP)目前已经是大模型推理的一个必备技术。然而,张量并行存在一个显著的缺点,即通信开销。当推理采用 PCIe 类卡互联时,该缺点更加明显。
针对通信开销的缺点,训练框架已经有了通信计算重叠优化(Communication-Computation Overlap),而目前部分开源的推理引擎如 vLLM 和 SGLang 早期版本并未完全实现该功能。近期开源的大模型推理引擎 ZhiLight 支持张量并行通信计算重叠。预计在 2025 年,张量并行通信计算重叠将会是所有主流开源框架的必备功能。
本文结合当前最新的论文与工程实践,介绍张量并行通信计算重叠的几种做法。
标准的 Transformer 张量并行结构中,每次 Transformer 前向需要进行 2 次 AllReduce 操作。这会导致模型前向执行 AllReduce 的时候,计算的 GPU 处于空闲状态,造成资源浪费。
当我们说到张量并行计算通信重叠,一个最直观的实现是分布式 Gemm + AllReduce 的重叠。目前 TransformerEngine、PyTorch (TorchTitan) 和字节 Flux 都是采取类似的实现。
在分布式 Gemm + AllReduce 中,A @ B 的计算过程如下:
在重叠版本中,原来的 A 按照列切分,计算的时候再按照行分块计算。分为两个 step:
这是张量并行通信与计算重叠的另一种实现方式(参考 Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference)。该方法的特点包括:
类似的这种做法还有 Nanoflow。从理论上讲,这种方法不需要重写一个计算通信的 kernel,但是整体调度实现会很复杂。
第 3 种通信计算重叠方式如 ISO: Overlap of Computation and Communication within Sequence For LLM Inference 所述。该方法看起来与前几种均不一样,核心在于对分布式 Attention 实现的深入理解。
以单张卡不同流的图示为例,将这张图扩展到多卡场景:
具体流程为:每张卡在序列维度分块执行。分块 0 执行的时候没有通信,分块 1 执行的时候,执行分块 0 的通信。MLP 的计算通信重叠通常与 Gemm 版本类似,重点在于 Attention 如何实现通信计算重叠。
在实际工程中,选择哪种重叠策略取决于具体的硬件环境和业务需求:
| 方案 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 朴素版 | 实现简单,兼容性好 | 通信阻塞严重,GPU 利用率低 | 小规模测试,PCIe 连接较差环境 |
| Gemm 重叠 | 利用矩阵乘法特性,减少等待时间 | 需要算子融合支持,调试复杂 | 高吞吐推理,支持 Tensor Core 的显卡 |
| 请求间重叠 | 提升多并发下的整体吞吐量 | 调度逻辑复杂,显存占用增加 | 高并发服务,多租户场景 |
| 请求内重叠 | 降低单个请求的延迟 | 实现难度最高,对 Attention 结构改动大 | 低延迟敏感型应用,长序列处理 |
张量并行通信计算重叠是提升大模型推理性能的关键技术之一。随着硬件互联带宽的提升(如 NVLink)以及软件栈的成熟,通信计算重叠将成为标准配置。开发者在选择推理引擎或进行自研优化时,应重点关注其对不同重叠模式的支持程度,并根据实际部署环境的网络拓扑和负载特征进行权衡。
未来,随着 MoE 架构和大模型规模的进一步扩大,通信瓶颈将更加突出,细粒度的通信计算重叠优化将是持续演进的方向。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online