DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8

本文记录在 NVIDIA DGX Spark（Grace Blackwell 架构）上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04.4 LTS (aarch64) + CUDA 13.0，适配 Qwen3-Coder-Next-FP8 模型。

一、初始化部署环境

首先创建工作目录并配置 Python 虚拟环境。这里推荐使用 uv 工具来加速依赖安装过程。

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

二、依赖安装：FlashAttention 与 Triton

2.1 FlashAttention 编译

当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel。建议优先下载社区构建版本，若无则从源码编译。

方案 A：预编译 wheel（首选）

# 替换为实际下载的 wheel 路径
uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
  --no-build-isolation --no-cache-dir

方案 B：源码编译

若无法获取 wheel，可尝试源码编译，注意限制并发以防 OOM。

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

⚠️ 注意：源码编译需提前安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。编译耗时约 0.5–1 小时。

2.2 升级 Triton

vLLM 对 Triton 版本有要求，需确保版本 >= 3.6.0。

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM 推理服务

3.1 安装 vLLM

vLLM ≥ v0.15.1 已支持 cu130 + aarch64。以下脚本自动获取最新版本并安装。

# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed 's/^v//')


 CUDA_VERSION=130
 CPU_ARCH=$( -m)


uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
  --extra-index-url https://download.pytorch.org/whl/cu

指标	结果
GPU 使用率	>90%
显存占用	~110+ GB
推理吞吐	~35–45 tokens/sec

字段	值
Url	`http://localhost:8000/v1`
模型 ID	`Qwen/Qwen3-Coder-Next-FP8`
密钥	留空

参数	推荐值	说明
`temperature`	`1.0`	平衡创造性与准确性
`top_p`	`0.95`	核采样，过滤低概率 token
`top_k`	`40`	避免低频无意义 token
`max_tokens`	`2048`	建议 ≤ 2048，可升至 4096
函数调用	原生	模型自带能力

问题	解决方案
`ImportError: libcurand.so.10...`	确认 CUDA Toolkit 13.0 安装完整：`apt install nvidia-cuda-toolkit`
`CUDA driver version is insufficient`	`nvidia-smi` 显示驱动版本 ≥ 550.54.15
FlashAttention 加载失败	确认 wheel 名称含 `linux_aarch64` 且 `cu130`
vLLM 启动报 `Triton not installed`	重新运行 `uv pip install --upgrade triton`

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、依赖安装：FlashAttention 与 Triton

2.1 FlashAttention 编译

2.2 升级 Triton

三、部署 vLLM 推理服务

3.1 安装 vLLM

更多推荐文章

相关免费在线工具

3.2 启动服务

性能实测

四、部署 Open WebUI

4.1 本地非容器部署

4.2 连接 vLLM 后端

五、远程容器化部署

5.1 架构图示

5.2 创建 Docker Compose

5.3 端口映射与配置

六、模型采样参数推荐

七、故障排查

八、参考资料

更多推荐文章

相关免费在线工具

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8 (CUDA 13.0)

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8

一、初始化部署环境

二、依赖安装：FlashAttention 与 Triton

2.1 FlashAttention 编译

2.2 升级 Triton

三、部署 vLLM 推理服务

3.1 安装 vLLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 启动服务

性能实测

四、部署 Open WebUI

4.1 本地非容器部署

4.2 连接 vLLM 后端

五、远程容器化部署

5.1 架构图示

5.2 创建 Docker Compose

5.3 端口映射与配置

六、模型采样参数推荐

七、故障排查

八、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具