DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0） | 极客日志

PythonAI算法

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）。记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。包含 FlashAttention 编译、vLLM wheel 安装、模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境。提供单机与容器化部署方案，含性能实测数据及故障排查指南。

星河入梦发布于 2026/4/9更新于 2026/7/2138 浏览

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

摘要：本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境，所有命令经实测验证，可直接用于生产部署。

硬件平台：NVIDIA DGX Spark（Grace Blackwell GB10 架构）
操作系统：Ubuntu 24.04.4 LTS（aarch64）
CUDA Version：13.0（nvcc --version 确认）
用户：admin
模型：Qwen/Qwen3-Coder-Next-FP8（FP8 量化）
核心依赖：vLLM ≥ 0.15.1（需支持 CUDA 13.0 + aarch64 + cu130 wheel）

一、在 Spark 上初始化 vLLM 部署环境（用户：`admin`）

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

✅ 验证：

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

⚠️ 重要：当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel（截至 v2.8.3）。
✅ 推荐方案：下载社区构建的 aarch64 版本 Dao-AILab/flash-attention 获取。
✅ 若暂无可用 wheel，可从源码编译（设置 MAX_JOBS=4 防 OOM）—— 但本方案优先推荐预编译 wheel

方案 A：预编译 wheel（首选）

# 示例：假设已下载 wheel（替换为实际路径）
# 如：https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.9cxx11abiTRUE-cp312-cp312-linux_aarch64.whl
# 若无，请使用下面方案 B 源码编译
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

uv pip install --upgrade "triton>=3.6.0"

# 获取最新版本号（自动解析 tag，去掉 'v' 前缀）
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed 's/^v//')
# 固定参数（DGX Spark 环境）
export CUDA_VERSION=130
export CPU_ARCH=$(uname -m)
# 安装 wheel（使用官方 GitHub Releases + PyTorch cu130 索引）
uv pip install\
 https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu${CUDA_VERSION}-cp38-abi3-manylinux_2_35_${CPU_ARCH}.whl \
 --extra-index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}

VLLM_USE_MODELSCOPE=true \
 vllm serve \
 Qwen/Qwen3-Coder-Next-FP8 \
--port 8000 \
 --tensor-parallel-size 1 \
 --enable-auto-tool-choice \
 --tool-call-parser qwen3_coder \
 --gpu-memory-utilization 0.8

指标	结果
GPU 使用率	>90%
显存占用（模型加载后）	~110+ GB
推理吞吐	~35–45 tokens/sec（实测：单次请求最大 40±5）

HF_ENDPOINT=https://hf-mirror.com \
DATA_DIR=~/open-webui/data \
 uvx --python3.12 \
 open-webui@latest serve \
--port 8080

字段	值
Url	`http://localhost:8000/v1`
模型 ID	（留空或填 `Qwen/Qwen3-Coder-Next-FP8`）
密钥	（留空）

services:
openwebui:
image: ghcr.io/open-webui/open-webui:main
container_name: openwebui-app
ports:
-"3000:8080"
volumes:
- open-webui:/app/backend/data
volumes:
open-webui:

docker compose up -d

参数	推荐值	说明
`temperature`	`1.0`	代码生成任务平衡创造性与准确性
`top_p`	`0.95`	核采样，过滤低概率 token
`top_k`	`40`	避免生成低频无意义 token
`max_tokens`	`2048`	建议 ≤ 2048（显存/延迟友好）；可升至 4096
函数调用	原生 (native)	Qwen3-Coder-Next-FP8 自带函数调用

问题	解决方案
`ImportError: libcurand.so.10...`	确认 CUDA Toolkit 13.0 安装完整：
`apt install nvidia-cuda-toolkit`（系统默认包已经安装）应为 nvidia-cuda-toolkit/noble 12.0.140~12.0.1-4build4 arm64)
`CUDA driver version is insufficient`	`nvidia-smi` 显示驱动版本 ≥ 550.54.15（DGX Spark 默认已满足）
FlashAttention 加载失败	确认 wheel 名称含 `linux_aarch64` 且 `cu130`；禁用 `-no-build-isolation` 时需手动安装 `nvidia-cu-cdp-dev`
vLLM 启动报 `Triton not installed`	重新运行 `uv pip install --upgrade triton`，确保 ≥3.6.0

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：`admin`）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

更多推荐文章

相关免费在线工具

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI（在 Spark 本机上，非容器部署）

4.1 启动服务（使用 `uvx`，与 vllm 共用 python 虚拟环境）

4.2 连接 vLLM 后端（API 地址）

五、容器化部署 Open WebUI（在另外一台机器上，Win11 主机）

5.1 架构图

5.2 创建并运行 OpenWebUI 容器

注意：如果 C 盘空间不足，docker desktop 可以迁移 WSL 镜像的位置

5.3 在 nvidia sync 增加 custom 的端口映射

5.4 配置 OpenWebUI 容器连接 vLLM 地址（已经通过 Sync 映射到主机）配置：

六、模型采样参数推荐（Qwen3-Coder-Next-FP8）

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

更多推荐文章

相关免费在线工具

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8（CUDA 13.0）

一、在 Spark 上初始化 vLLM 部署环境（用户：admin）

二、依赖安装（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention（aarch64 + CUDA 13.0）

方案 A：预编译 wheel（首选）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方案 B：源码编译（若无 wheel）

2.2 升级 Triton 至 3.6.0+

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM（指定 cu130 + aarch64 wheel）

3.2 启动 vLLM 推理服务（单卡模式）

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI（在 Spark 本机上，非容器部署）

4.1 启动服务（使用 uvx，与 vllm 共用 python 虚拟环境）

4.2 连接 vLLM 后端（API 地址）

五、容器化部署 Open WebUI（在另外一台机器上，Win11 主机）

5.1 架构图

5.2 创建并运行 OpenWebUI 容器

注意：如果 C 盘空间不足，docker desktop 可以迁移 WSL 镜像的位置

5.3 在 nvidia sync 增加 custom 的端口映射

5.4 配置 OpenWebUI 容器连接 vLLM 地址（已经通过 Sync 映射到主机）配置：

六、模型采样参数推荐（Qwen3-Coder-Next-FP8）

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

一、在 Spark 上初始化 vLLM 部署环境（用户：`admin`）

3.1 安装 vLLM（指定 `cu130` + `aarch64` wheel）

4.1 启动服务（使用 `uvx`，与 vllm 共用 python 虚拟环境）