DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)
本文详细记录在 NVIDIA DGX Spark(Grace Blackwell 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程,包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤,适配 aarch64 + CUDA 13.0 环境。
环境规格
- 硬件平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)
- 操作系统:Ubuntu 24.04.4 LTS(aarch64)
- CUDA Version:13.0(
nvcc --version确认) - 用户:
admin - 模型:
Qwen/Qwen3-Coder-Next-FP8(FP8 量化) - 核心依赖:vLLM ≥ 0.15.1(需支持 CUDA 13.0 + aarch64 +
cu130wheel)
一、初始化 vLLM 部署环境
首先创建工作目录并配置 Python 虚拟环境。这里使用 uv 来管理依赖,效率更高。
mkdir -p ~/vllm
cd ~/vllm
uv venv --python3.12 --seed-source .venv/bin/activate
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U
✅ 验证:确保
python --version显示 3.12,且torch能正常导入。
二、安装依赖(FlashAttention 2.8.3 + Triton 3.6.0)
2.1 安装 FlashAttention
当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel(截至文档版本)。推荐优先下载社区构建的 aarch64 版本,若无可用 wheel 则从源码编译(设置 MAX_JOBS=4 防 OOM)。
方案 A:预编译 wheel(首选)
# 替换为实际下载的 wheel 路径
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl \
--no-build-isolation --no-cache-dir
方案 B:源码编译(若无 wheel)
export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir
🔔 注意:源码编译需提前安装 , , , 。编译耗时约 0.5–1 小时。


