DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 兼容版)
硬件环境
- 平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)
- 系统:Ubuntu 24.04.4 LTS(aarch64)
- CUDA:13.0
- 用户:admin
- 模型:Qwen/Qwen3-Coder-Next-FP8
一、在 Spark 上初始化 vLLM 部署环境
mkdir -p ~/vllm
cd ~/vllm
uv venv --python3.12
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U
二、依赖安装(FlashAttention 2.8.3 + Triton 3.6.0)
2.1 安装 FlashAttention(aarch64 + CUDA 13.0)
⚠️ 重要:当前 FlashAttention 官方暂未提供
cu130 + aarch64的预编译 wheel。推荐下载社区构建版本或从源码编译。
方案 A:预编译 wheel(首选)
# 示例:假设已下载 wheel(替换为实际路径)
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir
方案 B:源码编译(若无 wheel)
export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir
🔔 注意:源码编译需提前安装
build-essential,cmake,nvidia-cuda-toolkit,python3-dev
2.2 升级 Triton 至 3.6.0+
uv pip install --upgrade "triton>=3.6.0"
三、部署 vLLM(aarch64, CUDA 13.0)
3.1 安装 vLLM(指定 cu130 + aarch64 wheel)
✅ 官方 vLLM ≥ v0.15.1 已提供
cu130 + aarch64wheel


