没有NVLink的多卡环境，vLLM部署Qwen-VL为何卡死？llama.cpp却跑通了 | 极客日志

编程语言AI算法

没有NVLink的多卡环境，vLLM部署Qwen-VL为何卡死？llama.cpp却跑通了

在4×NVIDIA A30（无NVLink）服务器上部署Qwen2.5-32B-VL-Instruct时，vLLM因默认张量并行导致PCIe通信瓶颈，模型加载后卡死；切换Ollama/llama.cpp采用流水线并行（层级切分）后成功运行，并分析了通信频率的差异。还尝试了GPUStack但因其依赖vLLM而失败。最后给出弱通信环境下多卡推理的避坑指南：优先使用llama.cpp/GGUF量化，或强制vLLM走流水线并行。

游戏玩家发布于 2026/6/27更新于 2026/7/22 浏览

没有NVLink的多卡环境，vLLM部署Qwen-VL为何卡死？llama.cpp却跑通了

部署背景

我手头有一台4×NVIDIA A30（24GB显存）的服务器，目标是部署Qwen2.5-32B-VL-Instruct满血版。96GB总显存按说足够装下FP16的65GB权重，但实际过程一波三折。

硬件环境：A30的通信短板

A30基于Ampere架构，有24GB HBM2，带宽933 GB/s。不过这个型号在很多服务器上并没有配置NVLink Bridge，我这台也不例外。下面是多卡互联拓扑的实际状况：

nvidia-smi topo -m

缩写	含义	典型场景
X	自身（Self）	GPU 内部环路
PXB	PCIe x16 桥接（Direct PCIe Bridge）	同一 PCIe 树下的 GPU 直接互联
SYS	系统总线（System Bus）	通过 CPU/主板南桥间接连接
PIX	PCIe 交换机（PCIe Switch）	多 GPU 通过 PCIe 交换机互联

实际上4张卡之间最多只有两卡能走P2P，其他都要经过系统总线(SYS)，通信绕路CPU内存。

vLLM加载卡死的复现

先用vLLM尝试，脚本如下：

#!/bin/bash
echo "###########start vl by vllm...##########"
export GLOO_SOCKET_IFNAME="enp210s0f0" # 多网卡需要指明
export CUDA_VISIBLE_DEVICES="1,2,3,4"
export VLLM_LOGGING_LEVEL="DEBUG"
export VLLM_ATTENTION_BACKEND="FLASH_ATTN"
vllm serve /model/Qwen3-VL-32B-Instruct \
  --gpu-memory-utilization 0.8 \
  --dtype auto \
  --host 0.0.0.0 \
  --port 7860 \
  --tensor-parallel-size 2 \
  --kv-cache-dtype fp8 \
  --max-model-len 10000 \
  --limit-mm-per-prompt image=4,video=1 \
  --api-key yourkey

现象：模型权重加载到接近100%显存时卡死，NCCL通信初始化超时，GPU利用率掉到0，最终报NCCL错误。不是OOM，是通信堵塞。

转到Ollama，成功了

换成Ollama加载GGUF格式（自备FP16），启动脚本：

#!/bin/bash
echo "###########start llm by ollama...##########"
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OLLAMA_NUM_PARALLEL=10
nohup ollama run qwen3-vl-32b-instruct-bf16:latest >/ollama_models/logs/qwen3vl_32. 2>&1 &

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

vllm serve Qwen/Qwen3-32B-VL-Instruct \
  --tensor-parallel-size 1 \
  --pipeline-parallel-size 4

没有NVLink的多卡环境，vLLM部署Qwen-VL为何卡死？llama.cpp却跑通了

部署背景

硬件环境：A30的通信短板

vLLM加载卡死的复现

转到Ollama，成功了

更多推荐文章

相关免费在线工具

原因分析：张量并行 vs 流水线并行

vLLM的张量并行（TP）与通信风暴

llama.cpp的流水线并行（PP）与低通信

工具链踩坑：GPUStack的失败

避坑指南：弱通信环境下的多卡部署决策

更多推荐文章

相关免费在线工具

没有NVLink的多卡环境，vLLM部署Qwen-VL为何卡死？llama.cpp却跑通了

部署背景

硬件环境：A30的通信短板

vLLM加载卡死的复现

转到Ollama，成功了

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

原因分析：张量并行 vs 流水线并行

vLLM的张量并行（TP）与通信风暴

llama.cpp的流水线并行（PP）与低通信

工具链踩坑：GPUStack的失败

避坑指南：弱通信环境下的多卡部署决策

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具