DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8
本文记录在 NVIDIA DGX Spark(Grace Blackwell GB10 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04.4 LTS(aarch64),CUDA 版本为 13.0,用户权限为 admin。核心依赖包括 FlashAttention 2.8.3、Triton 3.6.0 及 vLLM ≥ 0.15.1,所有命令已针对生产环境验证。
一、初始化部署环境
我们先来搭建基础 Python 环境。使用 uv 管理虚拟环境能显著提升安装效率。
mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U
✅ 验证:确保 Python 版本为 3.12,且 PyTorch 能正常识别 CUDA 设备。
二、编译与安装关键依赖
1. FlashAttention 2.8.3
当前官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐优先下载社区构建的版本,若无则从源码编译。
方案 A:预编译 wheel(首选) 假设已下载对应版本的 wheel 文件:
uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
--no-build-isolation --no-cache-dir
方案 B:源码编译 若没有可用 wheel,需设置并行数防止 OOM:
export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir
🔔 注意:源码编译前请确保系统已安装
build-essential,cmake,nvidia-cuda-toolkit,python3-dev。编译耗时约 0.5–1 小时。
2. 升级 Triton
vLLM 对 Triton 版本有要求,需升级至 3.6.0 以上。
uv pip install --upgrade "triton>=3.6.0"
三、部署 vLLM 推理服务
1. 安装 vLLM
vLLM ≥ 0.15.1 已支持 cu130 + aarch64。我们自动获取最新版本并指定索引源。
# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed )
CUDA_VERSION=130
CPU_ARCH=$( -m)
uv pip install \
https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
--extra-index-url https://download.pytorch.org/whl/cu


