Qwen2.5-VL-32B 多卡部署：vLLM 通信瓶颈与 llama.cpp 流水线并行实战

前言：一次典型的硬件适配翻车

最近手头有一台配备 4 张 NVIDIA A30（24GB 显存） 的服务器，总显存 96GB。按理说，这配置足以吞下 FP16 精度的 32B 模型（约 65GB 权重）。但在实际部署 Qwen2.5-32B-VL-Instruct 满血版时，却遇到了诡异的情况。

使用业界标杆 vLLM 进行部署时，系统陷入了死锁——显存占满，推理无反应，最终超时。而切换到 Ollama（底层基于 llama.cpp）后，不仅成功跑通，运行还相当流畅。同样的硬件、同样的模型，为何两个主流框架的表现天差地别？

这背后其实是 PCIe 通信瓶颈、Tensor Parallelism（张量并行） 与 Pipeline Parallelism（流水线并行） 机制差异的典型体现。

硬件环境分析

1. NVIDIA A30 的特性

A30 是基于 Ampere 架构的中端推理卡，拥有 24GB HBM2 显存，带宽 933 GB/s。但在多卡互联上有个关键短板：

NVLink 缺失：虽然规格书支持，但很多通用服务器或云实例并未物理配置 NVLink Bridge。我的这台服务器就没有。
PCIe 独木桥：没有 NVLink 这种'高速私家路'，GPU 间通信只能走 PCIe 总线。

实际拓扑检查如下：

nvidia-smi topo -m

![图：nvidia-smi topo -m 输出示例]

缩写	含义	典型场景
X	自身（Self）	GPU 内部环路
PXB	PCIe x16 桥接	同一 PCIe 树下的 GPU 直接互联
SYS	系统总线	通过 CPU/主板南桥间接连接
PIX	PCIe 交换机	多 GPU 通过 PCIe 交换机互联

在我的环境中，显卡之间最多只有两卡连通，且多为 SYS 模式。这意味着 vLLM 如果强行双卡部署，也必须依赖 SYS 链接形式，延迟极高。

故障复现：vLLM 加载模型'卡死'

尝试用 vLLM 拉起 4 卡推理时，脚本大致如下：

#!/bin/bash
echo "########### start vl by vllm... ##########"
export GLOO_SOCKET_IFNAME="enp210s0f0" # 多网卡需指明
export CUDA_VISIBLE_DEVICES="1,2,3,4"
 VLLM_LOGGING_LEVEL=
 VLLM_ATTENTION_BACKEND=

vllm serve /model/Qwen2.5-VL-32B-Instruct \
  --gpu-memory-utilization 0.8 \
  --dtype auto \
  --host 0.0.0.0 \
  --port 7860 \
  --tensor-parallel-size 2 \
  --kv-cache-dtype fp8 \
  --max-model-len 10000 \
  --limit-mm-per-prompt image=4,video=1 \
  --api-key yourkey

Qwen2.5-VL-32B 多卡部署：vLLM 通信瓶颈与 llama.cpp 流水线并行实战