DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境。

硬件平台：NVIDIA DGX Spark（Grace Blackwell GB10 架构） 操作系统：Ubuntu 24.04.4 LTS（aarch64） CUDA Version：13.0 用户：admin 模型：Qwen/Qwen3-Coder-Next-FP8（FP8 量化） 核心依赖：vLLM ≥ 0.15.1

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

⚠️ 重要：当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐下载社区构建版本或从源码编译。

方案 A：预编译 wheel（首选）

# 示例：假设已下载 wheel（替换为实际路径）
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir

方案 B：源码编译（若无 wheel）

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意：源码编译需提前安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。

2.2 升级 Triton 至 3.6.0+

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

✅ 官方 vLLM ≥ v0.15.1 已提供 cu130 + aarch64 wheel。

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

⚠️ 重要：当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐下载社区构建版本或从源码编译。

方案 A：预编译 wheel（首选）

# 示例：假设已下载 wheel（替换为实际路径）
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir

方案 B：源码编译（若无 wheel）

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意：源码编译需提前安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。

2.2 升级 Triton 至 3.6.0+

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

✅ 官方 vLLM ≥ v0.15.1 已提供 cu130 + aarch64 wheel。

指标	结果
GPU 使用率	>90%
显存占用（模型加载后）	~110+ GB
推理吞吐	~35–45 tokens/sec

字段	值
Url	`http://localhost:8000/v1`
模型 ID	（留空或填 `Qwen/Qwen3-Coder-Next-FP8`）
密钥	（留空）

参数	推荐值	说明
`temperature`	`1.0`	代码生成任务平衡创造性与准确性
`top_p`	`0.95`	核采样，过滤低概率 token
`top_k`	`40`	避免生成低频无意义 token
`max_tokens`	`2048`	建议 ≤ 2048；可升至 4096
函数调用	原生 (native)	Qwen3-Coder-Next-FP8 自带函数调用

问题	解决方案
`ImportError: libcurand.so.10...`	确认 CUDA Toolkit 13.0 安装完整：`apt install nvidia-cuda-toolkit`
`CUDA driver version is insufficient`	`nvidia-smi` 显示驱动版本 ≥ 550.54.15
FlashAttention 加载失败	确认 wheel 名称含 `linux_aarch64` 且 `cu130`
vLLM 启动报 `Triton not installed`	重新运行 `uv pip install --upgrade triton`，确保 ≥3.6.0

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

更多推荐文章

相关免费在线工具

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI（在 Spark 本机上，非容器部署）

4.1 启动服务（使用 `uvx`，与 vllm 共用 python 虚拟环境）

4.2 连接 vLLM 后端（API 地址）

五、容器化部署 Open WebUI（在另外一台机器上）

5.1 架构图说明

5.2 创建并运行 OpenWebUI 容器

5.3 配置 OpenWebUI 容器连接 vLLM 地址

六、模型采样参数推荐（Qwen3-Coder-Next-FP8）

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

更多推荐文章

相关免费在线工具

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 cu130 + aarch64 wheel）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 cu130 + aarch64 wheel）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI（在 Spark 本机上，非容器部署）

4.1 启动服务（使用 uvx，与 vllm 共用 python 虚拟环境）

4.2 连接 vLLM 后端（API 地址）

五、容器化部署 Open WebUI（在另外一台机器上）

5.1 架构图说明

5.2 创建并运行 OpenWebUI 容器

5.3 配置 OpenWebUI 容器连接 vLLM 地址

六、模型采样参数推荐（Qwen3-Coder-Next-FP8）

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

4.1 启动服务（使用 `uvx`，与 vllm 共用 python 虚拟环境）