DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8
本文记录在 NVIDIA DGX Spark(Grace Blackwell 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04.4 LTS (aarch64) + CUDA 13.0,适配 Qwen3-Coder-Next-FP8 模型。
一、初始化部署环境
首先创建工作目录并配置 Python 虚拟环境。这里推荐使用 uv 工具来加速依赖安装过程。
mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U
二、依赖安装:FlashAttention 与 Triton
2.1 FlashAttention 编译
当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel。建议优先下载社区构建版本,若无则从源码编译。
方案 A:预编译 wheel(首选)
# 替换为实际下载的 wheel 路径
uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
--no-build-isolation --no-cache-dir
方案 B:源码编译
若无法获取 wheel,可尝试源码编译,注意限制并发以防 OOM。
export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir
⚠️ 注意:源码编译需提前安装
build-essential,cmake,nvidia-cuda-toolkit,python3-dev。编译耗时约 0.5–1 小时。
2.2 升级 Triton
vLLM 对 Triton 版本有要求,需确保版本 >= 3.6.0。
uv pip install --upgrade "triton>=3.6.0"
三、部署 vLLM 推理服务
3.1 安装 vLLM
vLLM ≥ v0.15.1 已支持 cu130 + aarch64。以下脚本自动获取最新版本并安装。
# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed 's/^v//')
CUDA_VERSION=130
CPU_ARCH=$( -m)
uv pip install \
https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
--extra-index-url https://download.pytorch.org/whl/cu


