跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0)

NVIDIA DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8 全流程记录。涵盖 FlashAttention 编译、vLLM wheel 安装、模型加载等关键步骤,适配 aarch64 + CUDA 13.0 环境。提供本机及跨主机容器化部署方案,包含性能参数配置与常见故障排查指南,所有命令经实测验证可直接用于生产部署。

王初壹发布于 2026/3/24更新于 2026/6/620 浏览
DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0)

DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8

环境信息

  • 硬件平台:NVIDIA DGX Spark(Grace Blackwell GB10 架构)
  • 操作系统:Ubuntu 24.04.4 LTS(aarch64)
  • CUDA Version:13.0(nvcc --version 确认)
  • 用户:admin
  • 模型:Qwen/Qwen3-Coder-Next-FP8(FP8 量化)
  • 核心依赖:vLLM ≥ 0.15.1(需支持 CUDA 13.0 + aarch64 + cu130 wheel)

一、在 Spark 上初始化 vLLM 部署环境(用户:admin)

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source .venv
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

二、依赖安装(FlashAttention 2.8.3 + Triton 3.6.0)

2.1 安装 FlashAttention(aarch64 + CUDA 13.0)

⚠️ 重要:当前 FlashAttention 官方暂未提供 cu130 + aarch64 的预编译 wheel(截至 v2.8.3)。 ✅ 推荐方案:下载社区构建的 aarch64 版本获取,若无可用 wheel,可从源码编译(设置 MAX_JOBS=4 防 OOM)。

方案 A:预编译 wheel(首选)
# 示例:假设已下载 wheel(替换为实际路径)
uv pip install /path/to/flash_attn-2.8.3+cu130torch2.5.0cxx11abiFALSE-cp312-cp312-linux_aarch64.whl --no-build-isolation --no-cache-dir 
方案 B:源码编译(若无 wheel)
export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir 

🔔 注意:源码编译需提前安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。 ⏱️ 编译耗时约 0.5–1 小时(取决于 I/O 和内存)

2.2 升级 Triton 至 3.6.0+
uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM(aarch64, CUDA 13.0)

3.1 安装 vLLM(指定 cu130 + aarch64 wheel)

✅ 官方 vLLM ≥ v0.15.1 已提供 cu130 + aarch64 wheel。 ✅ 本部署采用最新稳定版(截至 2026.2 为 v0.15.1,请以 API 实际返回为准)。

# 获取最新版本号(自动解析 tag,去掉 'v' 前缀)
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed 's/^v//')
# 固定参数(DGX Spark 环境)
export CUDA_VERSION=130
export CPU_ARCH=$(uname -m)
# 安装 wheel(使用官方 GitHub Releases + PyTorch cu130 索引)
uv pip install\
 https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu${CUDA_VERSION}-cp38-abi3-manylinux_2_35_${CPU_ARCH}.whl \
 --extra-index-url https://download.pytorch.org/whl/cu${CUDA_VERSION}
3.2 启动 vLLM 推理服务(单卡模式)
VLLM_USE_MODELSCOPE=true \
 vllm serve \
 Qwen/Qwen3-Coder-Next-FP8 \
--port 8000 \
 --tensor-parallel-size 1 \
 --enable-auto-tool-choice \
 --tool-call-parser qwen3_coder \
 --gpu-memory-utilization 0.8
📊 性能实测(DGX Spark GB10)
指标结果
GPU 使用率>90%
显存占用(模型加载后)~110+ GB
推理吞吐~35–45 tokens/sec(实测:单次请求最大 40±5)

✅ 输出 token 速率与测评一致,可能使用 FlashAttention 的原因。 运行 1 个请求的情况,在 40tokens/秒。 运行 2 个请求的情况:59~70tokens/秒。

四、部署 Open WebUI(在 Spark 本机上,非容器部署)

4.1 启动服务(使用 uvx,与 vllm 共用 python 虚拟环境)
HF_ENDPOINT=https://hf-mirror.com \
DATA_DIR=~/open-webui/data \
 uvx --python3.12\
 open-webui@latest serve \
--port 8080

✅ 访问地址:http://<dgx-spark-ip>:8080 ⚠️ 若运行于 DGX Spark 本机,直接打开 http://localhost:8080

4.2 连接 vLLM 后端(API 地址)

在 Open WebUI 中配置,管理员面板->设置->外部连接,OpenAI 接口,点击加号:

字段值
Urlhttp://localhost:8000/v1
模型 ID(留空或填 Qwen/Qwen3-Coder-Next-FP8)
密钥(留空)

✅ 配置成功后测试:点击 验证链接,应显示 已验证服务器链接。

五、容器化部署 Open WebUI(在另外一台机器上,Win11 主机)

5.1 架构图

Local Workstation (Win11 + Docker Desktop) <-> NVIDIA DGX Spark (GB10)

推理负载:OpenAI-compatible REST API (POST /chat/completions) HTTP/1.1 over TCP GPU: Blackwell, CPU: Grace (aarch64), CUDA: 13.0

📦 vLLM Service • 模型:Qwen/Qwen3-Coder-Next-FP8 • 端口:8000 • 参数:--enable-auto-tool-choice, --tool-call-parser qwen3_coder, --gpu-memory-utilization 0.8

🐳 Docker Desktop 🌐 Open WebUI Container • 镜像:ghcr.io/open-webui/open-webui:main • 端口:3000 • 外部连接(替换冒号):http://host.docker.internal:8000/v1/

🔄 网络映射 映射:host:8000 → dgx-spark:8000(跨主机通信)

5.2 创建并运行 OpenWebUI 容器

创建 docker-compose.yml 文件:

services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: openwebui-app
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:

在命令窗口里运行命令:

docker compose up -d 
注意:如果 C 盘空间不足,docker desktop 可以迁移 WSL 镜像的位置

在设置->Resources -> Docker Engine 指定 data-root 的位置,例如:

{
  "data-root": "/mnt/host/d/wsl_distro/docker-desktop-data/data-root"
}
5.3 配置端口映射

确保本地 Docker 能够访问 DGX Spark 的 8000 端口。

5.4 配置 OpenWebUI 容器连接 vLLM 地址(已经通过 Sync 映射到主机)配置:

http://host.docker.internal:8000/v1 (若 host.docker.internal 不可用,可改为 DGX Spark 宿主机局域网 IP)

六、模型采样参数推荐(Qwen3-Coder-Next-FP8)

参数推荐值说明
temperature1.0代码生成任务平衡创造性与准确性
top_p0.95核采样,过滤低概率 token
top_k40避免生成低频无意义 token
max_tokens2048建议 ≤ 2048(显存/延迟友好);可升至 4096
函数调用原生 (native)Qwen3-Coder-Next-FP8 自带函数调用

🔧 在 Open WebUI → 管理员面板 → 模型 → Qwen/Qwen3-Coder-Next-FP8 → 高级参数 中配置后,所有新会话自动生效。

七、故障排查(aarch64 / CUDA 13.0 专项)

问题解决方案
ImportError: libcurand.so.10...确认 CUDA Toolkit 13.0 安装完整:apt install nvidia-cuda-toolkit
CUDA driver version is insufficientnvidia-smi 显示驱动版本 ≥ 550.54.15(DGX Spark 默认已满足)
FlashAttention 加载失败确认 wheel 名称含 linux_aarch64 且 cu130;禁用 -no-build-isolation 时需手动安装 nvidia-cu-cdp-dev
vLLM 启动报 Triton not installed重新运行 uv pip install --upgrade triton,确保 ≥3.6.0

🔍 关键诊断命令:

八、参考资料

  • NVIDIA DGX Spark 官方技术文档
  • vLLM aarch64 + GPU 安装指南
  • Open WebUI 快速上手指南 python+uv

目录

  1. DGX Spark 部署 vLLM 与 Open WebUI 运行 Qwen3-Coder-Next-FP8
  2. 环境信息
  3. 一、在 Spark 上初始化 vLLM 部署环境(用户:admin)
  4. 二、依赖安装(FlashAttention 2.8.3 + Triton 3.6.0)
  5. 2.1 安装 FlashAttention(aarch64 + CUDA 13.0)
  6. 方案 A:预编译 wheel(首选)
  7. 示例:假设已下载 wheel(替换为实际路径)
  8. 方案 B:源码编译(若无 wheel)
  9. 2.2 升级 Triton 至 3.6.0+
  10. 三、部署 vLLM(aarch64, CUDA 13.0)
  11. 3.1 安装 vLLM(指定 cu130 + aarch64 wheel)
  12. 获取最新版本号(自动解析 tag,去掉 'v' 前缀)
  13. 固定参数(DGX Spark 环境)
  14. 安装 wheel(使用官方 GitHub Releases + PyTorch cu130 索引)
  15. 3.2 启动 vLLM 推理服务(单卡模式)
  16. 📊 性能实测(DGX Spark GB10)
  17. 四、部署 Open WebUI(在 Spark 本机上,非容器部署)
  18. 4.1 启动服务(使用 uvx,与 vllm 共用 python 虚拟环境)
  19. 4.2 连接 vLLM 后端(API 地址)
  20. 五、容器化部署 Open WebUI(在另外一台机器上,Win11 主机)
  21. 5.1 架构图
  22. 5.2 创建并运行 OpenWebUI 容器
  23. 注意:如果 C 盘空间不足,docker desktop 可以迁移 WSL 镜像的位置
  24. 5.3 配置端口映射
  25. 5.4 配置 OpenWebUI 容器连接 vLLM 地址(已经通过 Sync 映射到主机)配置:
  26. 六、模型采样参数推荐(Qwen3-Coder-Next-FP8)
  27. 七、故障排查(aarch64 / CUDA 13.0 专项)
  28. 八、参考资料
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 与 HTML 实现爱心动态效果代码教程
  • 安卓系统Chrome内核:Android System WebView
  • OpenClaw 多 Agent 路由:Gateway 托管多个 AI 大脑
  • Flutter 基于 web3dart 连接以太坊构建 DApp 及 OpenHarmony 适配
  • C++ 哈希表原理与模拟实现
  • Flutter 使用 tflite_web 在鸿蒙 Web 环境下实现 AI 推理适配
  • Docker 部署 Python 实战指南
  • Flutter for OpenHarmony 实战:使用 money2 实现高精度金融计算
  • Windows 至鸿蒙:ToDesk、Splashtop、TeamViewer、向日葵跨平台远控对比
  • Docker 部署 AI 量化分析平台及波浪理论实战
  • 从多库并存到一库多能:金仓数据库融合架构实践
  • 二分查找实战:旋转排序数组最小值与点名问题
  • C++ 智能指针详解:原理、实现与内存安全
  • C++ 类与对象:封装特性的实现与实战应用
  • 本地部署大模型与搭建个人知识库指南
  • WSL Ubuntu 安装 Golang Python Node.js Java Docker Podman 开发环境配置
  • 结合大模型与爬虫的数据提取实践
  • AirSim 无人机仿真平台:环境搭建与实战应用
  • 默认安全治理实践:水平越权检测与前端安全防控
  • 网络安全从零开始入门学习路线与基础指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online