跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
PythonAI算法

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 版)

在 NVIDIA DGX Spark 上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04 LTS(aarch64)与 CUDA 13.0,核心依赖包括 FlashAttention 2.8.3、Triton 3.6.0 及 vLLM 0.15.1。步骤涵盖虚拟环境初始化、模型加载配置、单卡模式启动及性能实测,显存占用约 110GB,推理吞吐达 35–45 tokens/sec。同时提供本地容器化部署方案及故障排查指南,适配生产环境直接复用。

观心发布于 2026/4/5更新于 2026/4/274 浏览
DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8(CUDA 13.0 版)

DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8

本文记录在 NVIDIA DGX Spark(Grace Blackwell GB10 架构)上部署 vLLM 推理服务并接入 Open WebUI 的完整流程。环境基于 Ubuntu 24.04.4 LTS(aarch64),CUDA 版本为 13.0,用户权限为 admin。核心依赖包括 FlashAttention 2.8.3、Triton 3.6.0 及 vLLM ≥ 0.15.1,所有命令已针对生产环境验证。

一、初始化部署环境

我们先来搭建基础 Python 环境。使用 uv 管理虚拟环境能显著提升安装效率。

mkdir -p ~/vllm
cd ~/vllm
uv venv --python 3.12 --seed-source
source .venv/bin/activate
pip install torch==2.9.1+cu130 --index-url https://download.pytorch.org/whl/cu130
uv pip install setuptools==80.10.2
uv pip install packaging -U

✅ 验证:确保 Python 版本为 3.12,且 PyTorch 能正常识别 CUDA 设备。

二、编译与安装关键依赖

1. FlashAttention 2.8.3

当前官方暂未提供 cu130 + aarch64 的预编译 wheel。推荐优先下载社区构建的版本,若无则从源码编译。

方案 A:预编译 wheel(首选) 假设已下载对应版本的 wheel 文件:

uv pip install /path/to/flash_attn-2.8.3+cu130-cp312-cp312-linux_aarch64.whl \
  --no-build-isolation --no-cache-dir

方案 B:源码编译 若没有可用 wheel,需设置并行数防止 OOM:

export MAX_JOBS=4
export CMAKE_BUILD_PARALLEL_LEVEL=2
uv pip install flash-attn --no-build-isolation --no-cache-dir

🔔 注意:源码编译前请确保系统已安装 build-essential, cmake, nvidia-cuda-toolkit, python3-dev。编译耗时约 0.5–1 小时。

2. 升级 Triton

vLLM 对 Triton 版本有要求,需升级至 3.6.0 以上。

uv pip install --upgrade "triton>=3.6.0"

三、部署 vLLM 推理服务

1. 安装 vLLM

vLLM ≥ 0.15.1 已支持 cu130 + aarch64。我们自动获取最新版本并指定索引源。

# 获取最新版本号
export VLLM_VERSION=$(curl -s https://api.github.com/repos/vllm-project/vllm/releases/latest | jq -r '.tag_name' | sed )


 CUDA_VERSION=130
 CPU_ARCH=$( -m)


uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v/vllm-+cu-cp38-abi3-manylinux_2_35_.whl \
  --extra-index-url https://download.pytorch.org/whl/cu
's/^v//'
# 固定参数
export
export
uname
# 安装 wheel
${VLLM_VERSION}
${VLLM_VERSION}
${CUDA_VERSION}
${CPU_ARCH}
${CUDA_VERSION}

⚠️ 若下载失败,可提前将 wheel 文件下载至本地后执行 uv pip install ./vllm-xxx.whl。

2. 启动服务

单卡模式下,加载 Qwen3-Coder-Next-FP8 模型。

VLLM_USE_MODELSCOPE=true \
vllm serve \
  Qwen/Qwen3-Coder-Next-FP8 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --gpu-memory-utilization 0.8
📊 性能实测

在 GB10 架构下,显存占用约 110GB,GPU 使用率超过 90%。推理吞吐表现如下:

  • 单请求:约 35–45 tokens/sec
  • 双请求并发:可达 59–70 tokens/sec

四、部署 Open WebUI

1. 本机直接部署

使用 uvx 启动,与 vLLM 共用 Python 虚拟环境。

HF_ENDPOINT=https://hf-mirror.com \
DATA_DIR=~/open-webui/data \
uvx --python3.12 open-webui@latest serve \
--port 8080

访问地址:http://localhost:8080。

2. 配置后端连接

在 Open WebUI 管理员面板 -> 设置 -> 外部连接中添加 OpenAI 接口:

  • Url: http://localhost:8000/v1
  • 模型 ID: Qwen/Qwen3-Coder-Next-FP8
  • 密钥: 留空

点击'验证链接'确认显示 已验证服务器链接。

3. 容器化跨机部署

若需在 Win11 主机通过 Docker Desktop 访问 DGX Spark 上的服务,需配置端口映射。

docker-compose.yml 示例:

services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: openwebui-app
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:

运行命令:

docker compose up -d

💡 提示:若 C 盘空间不足,可在 Docker Desktop 设置中迁移 WSL 镜像位置。

网络配置: 在 Docker 网络设置中增加自定义端口映射,将宿主机端口转发至 DGX Spark 宿主机 IP(如 host.docker.internal:8000)。Open WebUI 配置中的 API 地址应指向映射后的地址。

五、模型采样参数推荐

参数推荐值说明
temperature1.0代码生成任务平衡创造性与准确性
top_p0.95核采样,过滤低概率 token
top_k40避免生成低频无意义 token
max_tokens2048建议 ≤ 2048;可升至 4096
函数调用原生 (native)Qwen3-Coder-Next-FP8 自带函数调用

在 Open WebUI 的高级参数面板中配置后,新会话将自动生效。

六、故障排查

问题解决方案
ImportError: libcurand.so.10...确认 CUDA Toolkit 13.0 安装完整:apt install nvidia-cuda-toolkit
CUDA driver version is insufficientnvidia-smi 显示驱动版本 ≥ 550.54.15
FlashAttention 加载失败确认 wheel 名称含 linux_aarch64 且 cu130
vLLM 启动报 Triton not installed重新运行 uv pip install --upgrade triton,确保 ≥ 3.6.0

七、参考资料

  • NVIDIA DGX Spark 官方技术文档
  • vLLM aarch64 + GPU 安装指南
  • Open WebUI 快速上手指南

目录

  1. DGX Spark 部署 vLLM + Open WebUI 运行 Qwen3-Coder-Next-FP8
  2. 一、初始化部署环境
  3. 二、编译与安装关键依赖
  4. 1. FlashAttention 2.8.3
  5. 2. 升级 Triton
  6. 三、部署 vLLM 推理服务
  7. 1. 安装 vLLM
  8. 获取最新版本号
  9. 固定参数
  10. 安装 wheel
  11. 2. 启动服务
  12. 📊 性能实测
  13. 四、部署 Open WebUI
  14. 1. 本机直接部署
  15. 2. 配置后端连接
  16. 3. 容器化跨机部署
  17. 五、模型采样参数推荐
  18. 六、故障排查
  19. 七、参考资料
  • 💰 8折买阿里云服务器限时8折了解详情
  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 脚本使用指南:运行方式与开发环境
  • 人形机器人躯干系统设计与结构方案
  • OpenCode 开源 AI 编程助手完全使用指南
  • C++ 类和对象进阶:构造、析构与运算符重载
  • 解决 PKIX path building failed:SSL 证书导入 Java 信任库
  • Python 项目通用目录结构详解
  • Python+AI 零基础入门指南与实操路径
  • AI 工具普及时代,为何单纯的技术能力不再值钱?
  • 基于 UDP 协议的手机通话语音局域网传输 Python 脚本
  • Linux 进程间通信:匿名管道原理与实现
  • Web 前端基础:HTML 核心语法与常用标签
  • 无需修改系统配置加速 Git Clone 与子模块下载
  • Python 调用 TradingView-Screener 实现多维度选股策略
  • Stable Diffusion 3.5 中文云端使用教程
  • 前缀和算法原理与应用:一维与二维区间求和优化
  • 如何使用 Kiro 进行 Python 开发
  • Trae 与 Qoder 正式支持 Skills,打造专属 AI 编程助手
  • nanobot AI Agent 框架原理与架构深度解析
  • 如何自定义 Subway 图标:源文件编辑与颜色调整
  • Project AirSim 无人机避障算法解析

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online