DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 版）

在 NVIDIA DGX Spark 上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04 LTS（aarch64）与 CUDA 13.0，核心依赖包括 FlashAttention 2.8.3、Triton 3.6.0 及 vLLM 0.15.1。步骤涵盖虚拟环境初始化、模型加载配置、单卡模式启动及性能实测，显存占用约 110GB，推理吞吐达 35–45 tokens/sec。同时提供本地容器化部署方案及故障排查指南，适配生产环境直接复用。

观心发布于 2026/4/5更新于 2026/4/274 浏览

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

本文记录在 NVIDIA DGX Spark（Grace Blackwell GB10 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04.4 LTS（aarch64），CUDA 版本为 13.0，用户权限为 admin。核心依赖包括 FlashAttention 2.8.3、Triton 3.6.0 及 vLLM ≥ 0.15.1，所有命令已针对生产环境验证。

一、初始化部署环境

我们先来搭建基础 Python 环境。使用 uv 管理虚拟环境能显著提升安装效率。

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

✅ 验证：确保 Python 版本为 3.12，且 PyTorch 能正常识别 CUDA 设备。

二、编译与安装关键依赖

1. FlashAttention 2.8.3

当前官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐优先下载社区构建的版本，若无则从源码编译。

方案 A：预编译 wheel（首选） 假设已下载对应版本的 wheel 文件：

uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
  --no-build-isolation --no-cache-dir

方案 B：源码编译 若没有可用 wheel，需设置并行数防止 OOM：

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意：源码编译前请确保系统已安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。编译耗时约 0.5–1 小时。

2. 升级 Triton

vLLM 对 Triton 版本有要求，需升级至 3.6.0 以上。

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM 推理服务

1. 安装 vLLM

vLLM ≥ 0.15.1 已支持 cu130 + aarch64。我们自动获取最新版本并指定索引源。

# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed )


 CUDA_VERSION=130
 CPU_ARCH=$( -m)


uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
  --extra-index-url https://download.pytorch.org/whl/cu

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

我们先来搭建基础 Python 环境。使用 uv 管理虚拟环境能显著提升安装效率。

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

✅ 验证：确保 Python 版本为 3.12，且 PyTorch 能正常识别 CUDA 设备。

二、编译与安装关键依赖

1. FlashAttention 2.8.3

当前官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐优先下载社区构建的版本，若无则从源码编译。

方案 A：预编译 wheel（首选） 假设已下载对应版本的 wheel 文件：

uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
  --no-build-isolation --no-cache-dir

方案 B：源码编译 若没有可用 wheel，需设置并行数防止 OOM：

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意：源码编译前请确保系统已安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。编译耗时约 0.5–1 小时。

2. 升级 Triton

vLLM 对 Triton 版本有要求，需升级至 3.6.0 以上。

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM 推理服务

1. 安装 vLLM

vLLM ≥ 0.15.1 已支持 cu130 + aarch64。我们自动获取最新版本并指定索引源。

# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed )


 CUDA_VERSION=130
 CPU_ARCH=$( -m)


uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
  --extra-index-url https://download.pytorch.org/whl/cu

参数	推荐值	说明
`temperature`	`1.0`	代码生成任务平衡创造性与准确性
`top_p`	`0.95`	核采样，过滤低概率 token
`top_k`	`40`	避免生成低频无意义 token
`max_tokens`	`2048`	建议 ≤ 2048；可升至 4096
函数调用	原生 (native)	Qwen3-Coder-Next-FP8 自带函数调用

问题	解决方案
`ImportError: libcurand.so.10...`	确认 CUDA Toolkit 13.0 安装完整：`apt install nvidia-cuda-toolkit`
`CUDA driver version is insufficient`	`nvidia-smi` 显示驱动版本 ≥ 550.54.15
FlashAttention 加载失败	确认 wheel 名称含 `linux_aarch64` 且 `cu130`
vLLM 启动报 `Triton not installed`	重新运行 `uv pip install --upgrade triton`，确保 ≥ 3.6.0

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 版）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、编译与安装关键依赖

1. FlashAttention 2.8.3

2. 升级 Triton

三、部署 vLLM 推理服务

1. 安装 vLLM

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 版）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、编译与安装关键依赖

1. FlashAttention 2.8.3

2. 升级 Triton

三、部署 vLLM 推理服务

1. 安装 vLLM

更多推荐文章

相关免费在线工具

2. 启动服务

📊 性能实测

四、部署 Open WebUI

1. 本机直接部署

2. 配置后端连接

3. 容器化跨机部署

五、模型采样参数推荐

六、故障排查

七、参考资料

更多推荐文章

相关免费在线工具

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 版）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、编译与安装关键依赖

1. FlashAttention 2.8.3

2. 升级 Triton

三、部署 vLLM 推理服务

1. 安装 vLLM

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0 版）

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、编译与安装关键依赖

1. FlashAttention 2.8.3

2. 升级 Triton

三、部署 vLLM 推理服务

1. 安装 vLLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 启动服务

📊 性能实测

四、部署 Open WebUI

1. 本机直接部署

2. 配置后端连接

3. 容器化跨机部署

五、模型采样参数推荐

六、故障排查

七、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具