DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0)
摘要:本文详细记录在 NVIDIA DGX Spark(Grace Blackwell 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程,包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤,适配 aarch64 + CUDA 13.0 环境,所有命令经实测验证,可直接用于生产部署。
硬件平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)
操作系统:Ubuntu 24.04.4 LTS(aarch64)
CUDA Version:13.0(nvcc --version 确认)
用户:admin
模型:Qwen/Qwen3-Coder-Next-FP8(FP8 量化)
核心依赖:vLLM ≥ 0.15.1(需支持 CUDA 13.0 + aarch64 + cu130 wheel)
一、在 Spark 上初始化 vLLM 部署环境(用户:admin)
mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U
✅ 验证:
二、依赖安装(FlashAttention 2.8.3 + Triton 3.6.0)
2.1 安装 FlashAttention(aarch64 + CUDA 13.0)
⚠️ 重要:当前 FlashAttention 官方暂未提供
cu130 + aarch64的预编译 wheel(截至 v2.8.3)。
✅ 推荐方案:下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取。
✅ 若暂无可用 wheel,可从源码编译(设置MAX_JOBS=4防 OOM)—— 但本方案优先推荐预编译 wheel
方案 A:预编译 wheel(首选)
# 示例:假设已下载 wheel(替换为实际路径)
# 如:https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.9cxx11abiTRUE-cp312-cp312-linux_aarch64.whl
# 若无,请使用下面方案 B 源码编译
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir


