DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0) | 极客日志

PythonAI算法

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

在 NVIDIA DGX Spark（Grace Blackwell 架构）上完成 vLLM 推理服务与 Open WebUI 的全流程部署。涵盖 CUDA 13.0 环境下 FlashAttention 源码编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载及性能调优。支持本地 uv 环境与远程 Docker 容器化两种接入方式，提供详细的参数配置与常见故障排查方案，实测单卡吞吐可达 40 tokens/s，适用于生产级代码生成场景。

忘忧发布于 2026/3/26更新于 2026/7/651 浏览

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

本文详细记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程，包含 FlashAttention 编译、vLLM wheel 安装、Qwen3-Coder-Next-FP8 模型加载等关键步骤，适配 aarch64 + CUDA 13.0 环境。

环境规格

硬件平台：NVIDIA DGX Spark（Grace Blackwell GB10 架构）
操作系统：Ubuntu 24.04.4 LTS（aarch64）
CUDA Version：13.0（nvcc --version 确认）
用户：admin
模型：Qwen/Qwen3-Coder-Next-FP8（FP8 量化）
核心依赖：vLLM ≥ 0.15.1（需支持 CUDA 13.0 + aarch64 + cu130 wheel）

一、初始化 vLLM 部署环境

首先创建工作目录并配置 Python 虚拟环境。这里使用 uv 来管理依赖，效率更高。

mkdir -p ~/vllm
cd ~/vllm
uv venv --python3.12 --seed-source .venv/bin/activate
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url=https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

✅ 验证：确保 python --version 显示 3.12，且 torch 能正常导入。

二、安装依赖（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention

当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel（截至文档版本）。推荐优先下载社区构建的 aarch64 版本，若无可用 wheel 则从源码编译（设置 MAX_JOBS=4 防 OOM）。

方案 A：预编译 wheel（首选）

# 替换为实际下载的 wheel 路径
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl \
  --no-build-isolation --no-cache-dir

方案 B：源码编译（若无 wheel）

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意：源码编译需提前安装 , , , 。编译耗时约 0.5–1 小时。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

build-essential

cmake

nvidia-cuda-toolkit

python3-dev

uv pip install --upgrade "triton>=3.6.0"

# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed 's/^v//')

# 固定参数（DGX Spark 环境）
export CUDA_VERSION=130
export CPU_ARCH=$(uname -m)

# 安装 wheel（使用官方 GitHub Releases + PyTorch cu130 索引）
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu${CUDA_VERSION}-cp38-abi3-manylinux_2_35_${CPU_ARCH}.whl \
  --extra-index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}

VLLM_USE_MODELSCOPE=true \
  vllm serve \
  Qwen/Qwen3-Coder-Next-FP8 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --gpu-memory-utilization 0.8

HF_ENDPOINT=https://hf-mirror.com \
DATA_DIR=~/open-webui/data \
uvx --python3.12 open-webui@latest serve \
--port 8080

字段	值
Url	`http://localhost:8000/v1`
模型 ID	`Qwen/Qwen3-Coder-Next-FP8`
密钥	留空

services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: openwebui-app
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:

docker compose up -d

参数	推荐值	说明
`temperature`	`1.0`	平衡创造性与准确性
`top_p`	`0.95`	核采样，过滤低概率 token
`top_k`	`40`	避免生成低频无意义 token
`max_tokens`	`2048`	建议 ≤ 2048（显存友好），可升至 4096
函数调用	原生 (native)	Qwen3-Coder-Next-FP8 自带函数调用

问题	解决方案
`ImportError: libcurand.so.10...`	确认 CUDA Toolkit 13.0 安装完整：`apt install nvidia-cuda-toolkit`
`CUDA driver version is insufficient`	`nvidia-smi` 显示驱动版本 ≥ 550.54.15
FlashAttention 加载失败	确认 wheel 名称含 `linux_aarch64` 且 `cu130`；禁用 `-no-build-isolation` 时需手动安装 `nvidia-cu-cdp-dev`
vLLM 启动报 `Triton not installed`	重新运行 `uv pip install --upgrade triton`，确保 ≥3.6.0

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

环境规格

一、初始化 vLLM 部署环境

二、安装依赖（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

更多推荐文章

相关免费在线工具

2.2 升级 Triton

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM

3.2 启动 vLLM 推理服务

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI

4.1 本地部署（Spark 本机）

4.2 连接 vLLM 后端

五、容器化部署（远程主机）

5.1 架构说明

5.2 创建并运行容器

5.3 配置网络映射

5.4 配置 Open WebUI 连接地址

六、模型采样参数推荐

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

更多推荐文章

相关免费在线工具

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

环境规格

一、初始化 vLLM 部署环境

二、安装依赖（FlashAttention 2.8.3 + Triton 3.6.0）

2.1 安装 FlashAttention

方案 A：预编译 wheel（首选）

方案 B：源码编译（若无 wheel）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 升级 Triton

三、部署 vLLM（aarch64, CUDA 13.0）

3.1 安装 vLLM

3.2 启动 vLLM 推理服务

📊 性能实测（DGX Spark GB10）

四、部署 Open WebUI

4.1 本地部署（Spark 本机）

4.2 连接 vLLM 后端

五、容器化部署（远程主机）

5.1 架构说明

5.2 创建并运行容器

5.3 配置网络映射

5.4 配置 Open WebUI 连接地址

六、模型采样参数推荐

七、故障排查（aarch64 / CUDA 13.0 专项）

八、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具