多卡部署 Qwen-VL 大模型：vLLM 通信瓶颈与 llama.cpp 实践 | 极客日志

PythonAI算法

多卡部署 Qwen-VL 大模型：vLLM 通信瓶颈与 llama.cpp 实践

综述由AI生成记录了在 4 张 NVIDIA A30 显卡上部署 Qwen-VL-32B 模型的实战经验。发现 vLLM 因依赖张量并行（TP），在无 NVLink 的 PCIe 环境下导致 NCCL 通信死锁；而 Ollama 基于 llama.cpp 采用流水线并行（PP）或层级切分，显著降低通信频率从而成功运行。结论是：有 NVLink 优先选 vLLM，无 NVLink 且多卡 PCIe 环境建议使用 llama.cpp 或强制 vLLM 开启 Pipeline Parallelism。

游戏玩家发布于 2026/4/6更新于 2026/5/2023 浏览

多卡部署 Qwen-VL 大模型：vLLM 通信瓶颈与 llama.cpp 实践

踩坑实录：多卡跑大模型 Qwen-VL，为何 vLLM 模型加载卡死而 llama.cpp 奇迹跑通还更快？

前言：部署经历

针对 Qwen2.5-32B-VL-Instruct 满血版模型的部署实战。手头的环境是一台配备了 4 张 NVIDIA A30（24GB 显存） 的服务器。按理说，96GB 的总显存足以吞下 FP16 精度的 32B 模型（约 65GB 权重）。然而，在使用业界标杆 vLLM 进行部署时，系统却陷入了诡异的'死锁'——显存占满，但推理毫无反应，最终超时报错。

尝试切换到 Ollama（底层基于 llama.cpp），奇迹发生了：不仅部署成功，而且运行流畅。这引发了我深深的思考：同样的硬件，同样模型，为何两个主流框架的表现天差地别？

本文将围绕PCIe 通信瓶颈、Tensor Parallelism（张量并行） 与 Pipeline Parallelism（流水线并行） 的进行分析。

第一部分：硬件环境

1.1 NVIDIA A30

在 NVIDIA 的产品谱系中，A30 是一款基于 Ampere 架构的中端推理卡，拥有 24GB HBM2 显存，带宽 933 GB/s。属性如下：

NVLink 的缺失：虽然 A30 规格书支持 NVLink，但在很多通用服务器或云实例中，并没有物理配置 NVLink Bridge，就比如我的服务器上。
PCIe 的独木桥：当卡与卡之间没有 NVLink 这种'高速私家路'时，所有通信都必须走 PCIe 总线。

实际环境补充：本文服务器显卡连 4 卡 PCIe 都没联通，最多只有两卡。采用 VLLM 时，如果两卡部署也必须选择 SYS 链接的形式。下面是卡联通情况：

nvidia-smi topo -m

缩写	含义	典型场景
X	自身（Self）	GPU 内部环路
PXB	PCIe x16 桥接（Direct PCIe Bridge）	同一 PCIe 树下的 GPU 直接互联
SYS	系统总线（System Bus）	通过 CPU/主板南桥间接连接
PIX	PCIe 交换机（PCIe Switch）	多 GPU 通过 PCIe 交换机互联

1.2 故障复现：vLLM 加载模型'卡死'

在使用 vLLM 尝试拉起 4 卡推理时，部署脚本如下：

#!/bin/bash
echo "###########start vl by vllm...##########"
export GLOO_SOCKET_IFNAME="enp210s0f0" # 多网卡需要指明
export CUDA_VISIBLE_DEVICES="1,2,3,4"
export VLLM_LOGGING_LEVEL="DEBUG"
 VLLM_ATTENTION_BACKEND=
vllm serve /model/Qwen3-VL-32B-Instruct \
 --gpu-memory-utilization 0.8\
 --dtype auto \
 --host 0.0.0.0 \
 --port 7860\
 --tensor-parallel-size 2\
 --kv-cache-dtype fp8 \
 --max-model-len 10000\
 --limit-mm-per-prompt image=4,video=1\
 --api-key yourkey

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

#!/bin/bash
echo "###########start llm by ollama...##########"
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OLLAMA_NUM_PARALLEL=10
nohup ollama run qwen3-vl-32b-instruct-bf16:latest >/ollama_models/logs/qwen3vl_32.log 2>&1 &
echo "Models started in background. Check logs in /ollama_models/logs/"

# 告诉 vLLM 不要切分张量，而是切分层
vllm serve Qwen/Qwen3-32B-VL-Instruct \
 --tensor-parallel-size 1 \
 --pipeline-parallel-size 4

多卡部署 Qwen-VL 大模型：vLLM 通信瓶颈与 llama.cpp 实践

踩坑实录：多卡跑大模型 Qwen-VL，为何 vLLM 模型加载卡死而 llama.cpp 奇迹跑通还更快？

前言：部署经历

第一部分：硬件环境

1.1 NVIDIA A30

1.2 故障复现：vLLM 加载模型'卡死'

更多推荐文章

相关免费在线工具

1.3 换成 Ollama 继续实验，成功。

第二部分：深度解析 vLLM 在弱通信环境下不好用

2.1 什么是张量并行（TP）？

2.2 致命的 All-Reduce 通信风暴

2.3 A30 的用 vlm 跑多卡数据路径

第三部分：Ollama (llama.cpp) 的玩法

3.1 不同的切分逻辑：切蛋糕 vs 切千层饼

3.2 通信频率的降维打击

3.3 GGUF 格式的助攻

第四部分：实践中优先使用了工具 GPUStack，也印证了这点。

第五部分：给技术人的避坑指南与架构建议

5.1 目前能用 VLLM 就不用 Ollama

5.2 弱通信环境下的生存法则

结语

更多推荐文章

相关免费在线工具

多卡部署 Qwen-VL 大模型：vLLM 通信瓶颈与 llama.cpp 实践

踩坑实录：多卡跑大模型 Qwen-VL，为何 vLLM 模型加载卡死而 llama.cpp 奇迹跑通还更快？

前言：部署经历

第一部分：硬件环境

1.1 NVIDIA A30

1.2 故障复现：vLLM 加载模型'卡死'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 换成 Ollama 继续实验，成功。

第二部分：深度解析 vLLM 在弱通信环境下不好用

2.1 什么是张量并行（TP）？

2.2 致命的 All-Reduce 通信风暴

2.3 A30 的用 vlm 跑多卡数据路径

第三部分：Ollama (llama.cpp) 的玩法

3.1 不同的切分逻辑：切蛋糕 vs 切千层饼

3.2 通信频率的降维打击

3.3 GGUF 格式的助攻

第四部分：实践中优先使用了工具 GPUStack，也印证了这点。

第五部分：给技术人的避坑指南与架构建议

5.1 目前能用 VLLM 就不用 Ollama

5.2 弱通信环境下的生存法则

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具