跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI 实战指南

NVIDIA DGX Spark 基于 Blackwell 架构与 Grace CPU ARM64 环境,部署 Stable Diffusion 3.5 需适配 CUDA 13 及特定 PyTorch 版本。通过 NVIDIA 官方源安装依赖,利用 128GB 显存实现模型常驻,结合 ComfyUI 工作流优化生成效率。重点解决 ARM 架构下的库缺失问题,并配置高性能启动脚本以支持高并发与秒级出图,确保在个人 AI 超级计算机上获得流畅的创作体验。

王初壹发布于 2026/4/9更新于 2026/5/2213 浏览
NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI 实战指南

前言

随着 NVIDIA Blackwell 架构的问世,DGX Spark(Personal AI Supercomputer)将桌面级 AI 算力推向了新的高度。这台设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64),并运行在最新的 CUDA 13 环境下。

然而,最强硬件往往伴随着最复杂的环境配置。由于 Grace CPU 采用 ARM (aarch64) 架构,且 CUDA 13 过于前沿,传统的 PyTorch 安装方法极易失败。本文将详细介绍如何在这台超级计算机上部署 Stable Diffusion 3.5 Large,并利用其 128GB 海量显存开启高性能模式,实现秒级、零延迟的创作体验。

硬件环境规格

本次部署基于 NVIDIA 最新一代个人 AI 超级计算机:

  • Platform: NVIDIA DGX Spark
  • Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
  • VRAM: 128GB HBM3e (Unified Memory Architecture)
  • CPU: NVIDIA Grace CPU (144-core ARM64)
  • Software Stack: NVIDIA AI Enterprise
  • CUDA Version: CUDA 13.0

核心挑战与优势:挑战在于标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12,直接安装会导致找不到 GPU。优势在于 128GB 显存允许我们将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存,彻底消除模型加载时间。

第一步:构建兼容 CUDA 13 的基础环境

1.1 创建 Conda 环境

推荐使用 Python 3.11,它在 ARM 架构下的库支持最完善。

conda create -n sd-runtime python=3.11 -y
conda activate sd-runtime
1.2 安装适配 ARM + CUDA 13 的 PyTorch

这是最关键的一步。由于 CUDA 13 非常新,必须使用 NVIDIA 官方 PyPI 索引来获取正确的 wheel 包。

# 确保 pip 是最新的
pip install --upgrade pip

# 从 NVIDIA 官方源安装 PyTorch
# 注意:NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com
1.3 验证环境

安装完成后,务必验证 PyTorch 是否成功链接到了 Blackwell GPU。

python -c "import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"
  • 预期输出:
    • CUDA Available: True
    • Device Name: NVIDIA GB10 (或相关 Blackwell 代号)
    • CUDA Version: 13.x

第二步:下载 Stable Diffusion 3.5 Large

SD3.5 是门控模型,请确保您已在 Hugging Face 签署协议并持有 Access Token。

# 1. 安装下载工具
pip install huggingface_hub

# 2. 配置环境变量 (使用国内镜像加速)
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
export HF_TOKEN="你的_HF_Token_粘贴在这里"

# 3. 创建目录
mkdir -p ~/workspaces/models/stabilityai/

# 4. 高速下载 (包含 Checkpoint 和 T5/CLIP 编码器)
huggingface-cli download stabilityai/stable-diffusion-3.5-large \
--token $HF_TOKEN \
--local-dir ~/workspaces/models/stabilityai/stable-diffusion-3.5-large

第三步:部署 ComfyUI 与修复 ARM 依赖

3.1 克隆与安装
cd ~/workspaces
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 安装常规依赖 (使用 --no-deps 防止破坏 Torch 环境)
pip install -r requirements.txt --no-deps

# 核心修复:补齐 ARM 架构下缺失的特殊库
# 如果缺少这些,ComfyUI 启动时会报错 No module named kornia_rs 或 trampoline
pip install trampoline kornia_rs mako comfyui-workflow-templates sqlalchemy alembic requests
3.2 挂载模型 (软链接方案)

为了利用 DGX Spark 的存储性能,我们使用软链接映射模型。

# 1. 链接主模型
ln -s ~/workspaces/models/stabilityai/stable-diffusion-3.5-large/sd3.5_large.safetensors ./models/checkpoints/

# 2. 链接 CLIP 模型 (SD3 需要 3 个 CLIP)
# 注意:我们直接使用 FP16 精度的 T5,因为显存足够大
ln -s ~/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_l.safetensors ./models/clip/
ln -s ~/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_g.safetensors ./models/clip/
ln -s ~/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/t5xxl_fp16.safetensors ./models/clip/

第四步:高性能启动 (High VRAM Mode)

针对 128GB 显存,我们开启疯狗模式——让所有模型永久驻留显存,拒绝反复加载。

创建启动脚本 run_comfy.sh:

#!/bin/bash
WORKDIR="~/workspaces/ComfyUI"
PYTHON_PATH="/root/miniconda3/envs/sd-runtime/bin/python"

# 日志管理
LOG_DIR="$WORKDIR/logs"
mkdir -p "$LOG_DIR"
LOG_FILE="$LOG_DIR/server_$(date +%Y-%m-%d_%H-%M-%S).log"

cd "$WORKDIR" || exit

echo "🚀 Starting ComfyUI on DGX Spark (Blackwell)..."
echo "⚡ Mode: High VRAM (Force Resident)"

# --highvram: 强制模型常驻显存
nohup "$PYTHON_PATH" main.py \
--listen 0.0.0.0 \
--port 8188 \
--highvram \
> "$LOG_FILE" 2>&1 &

echo "✅ Service PID: $!"

启动服务:chmod +x run_comfy.sh && ./run_comfy.sh

第五步:导入 SD3.5 标准工作流 (JSON)

SD3.5 采用了分离式文本编码器架构(CLIP-L + CLIP-G + T5),默认工作流无法正常出图。

请复制下方完整的 JSON 代码,保存为 sd3_workflow.json,直接拖入 ComfyUI 浏览器界面即可使用。此工作流已针对 1024x1024 分辨率和 DGX Spark 进行了优化。

{"last_node_id":10,"last_link_id":16,"nodes":[{"id":1,"type":"KSampler","pos":[960,190],"size":{"0":315,"1":262},"flags":{},"order":0,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":1},{"name":"positive","type":"CONDITIONING","link":2},{"name":"negative","type":"CONDITIONING","link":3},{"name":"latent_image","type":"LATENT","link":4}],"outputs":[{"name":"LATENT","type":"LATENT","links":[5],"slot_index":0}],"properties":{"Node name for S&R":"KSampler"},"widgets_values":[1234567890,"randomize",30,4.5,"euler","sgm_uniform",1]},{"id":2,"type":"CheckpointLoaderSimple","pos":[50,50],"size":{"0":315,"1":98},"flags":{},"order":1,"mode":0,"outputs":[{"name":"MODEL","type":"MODEL","links":[1],"slot_index":0},{"name":"CLIP","type":"CLIP","links":[],"slot_index":1},{"name":"VAE","type":"VAE","links":[6],"slot_index":2}],"properties":{"Node name for S&R":"CheckpointLoaderSimple"},"widgets_values":["sd3.5_large.safetensors"]},{"id":3,"type":"TripleCLIPLoader","pos":[50,200],"size":{"0":315,"1":150},"flags":{},"order":2,"mode":0,"outputs":[{"name":"CLIP","type":"CLIP","links":[7,8],"slot_index":0}],"properties":{"Node name for S&R":"TripleCLIPLoader"},"widgets_values":["clip_l.safetensors","clip_g.safetensors","t5xxl_fp16.safetensors"]},{"id":4,"type":"CLIPTextEncode","pos":[450,100],"size":{"0":425,"1":180},"flags":{},"order":3,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":7}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[2],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["a highly detailed cyberpunk city, neon lights, 8k resolution, cinematic lighting, masterpiece, sharp focus, ray tracing, nvidia blackwell style"],"color":"#233","bgcolor":"#353"},{"id":5,"type":"CLIPTextEncode","pos":[450,350],"size":{"0":425,"1":180},"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":8}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[3],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["low quality, blurry, ugly, bad anatomy, watermark, text, jpeg artifacts"],"color":"#332","bgcolor":"#533"},{"id":6,"type":"EmptyLatentImage","pos":[50,450],"size":{"0":315,"1":106},"flags":{},"order":5,"mode":0,"outputs":[{"name":"LATENT","type":"LATENT","links":[4],"slot_index":0}],"properties":{"Node name for S&R":"EmptyLatentImage"},"widgets_values":[1024,1024,1]},{"id":7,"type":"VAEDecode","pos":[1300,190],"size":{"0":210,"1":46},"flags":{},"order":6,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":5},{"name":"vae","type":"VAE","link":6}],"outputs":[{"name":"IMAGE","type":"IMAGE","links":[9],"slot_index":0}],"properties":{"Node name for S&R":"VAEDecode"}},{"id":8,"type":"SaveImage","pos":[1550,190],"size":{"0":500,"1":600},"flags":{},"order":7,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":9}],"properties":{"Node name for S&R":"SaveImage"},"widgets_values":["ComfyUI"]}],"links":[[1,2,0,1,0,"MODEL"],[2,4,0,1,1,"CONDITIONING"],[3,5,0,1,2,"CONDITIONING"],[4,6,0,1,3,"LATENT"],[5,1,0,7,0,"LATENT"],[6,2,2,7,1,"VAE"],[7,3,0,4,0,"CLIP"],[8,3,0,5,0,"CLIP"],[9,7,0,8,0,"IMAGE"]],"groups":[],"config":{},"extra":{},"version":0.4}

流程如下:

[图片:ComfyUI 工作流界面]

效果如下:

[图片:生成结果示例]

工作流配置说明:
  1. TripleCLIPLoader: 这是核心。我们明确指定了 clip_l, clip_g 和 t5xxl_fp16。如果这三个没选对,生成的图片将无法理解你的 Prompt。
  2. Scheduler: sgm_uniform: Stable Diffusion 3 必须使用 SGM Uniform 调度器,否则画面会充满噪点。
  3. Resolution: 默认设为 1024x1024。在 Blackwell 上,你可以尝试将其改为 2048x2048 进行原生 4K 生成。

性能总结

在 DGX Spark 上完成上述部署后,性能表现如下:

  • 模型加载: 首次启动后,模型将永久驻留显存 (High VRAM Mode)。
  • 生成速度: 1024x1024 分辨率下,实现秒级出图。
  • 并发能力: 得益于 128GB 显存,你可以同时开启 Batch Size = 4 甚至更高,或者在后台同时运行一个 70B 的大语言模型而不发生 OOM。

资源占用:

[图片:资源监控截图]

目录

  1. 前言
  2. 硬件环境规格
  3. 第一步:构建兼容 CUDA 13 的基础环境
  4. 1.1 创建 Conda 环境
  5. 1.2 安装适配 ARM + CUDA 13 的 PyTorch
  6. 确保 pip 是最新的
  7. 从 NVIDIA 官方源安装 PyTorch
  8. 注意:NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
  9. 1.3 验证环境
  10. 第二步:下载 Stable Diffusion 3.5 Large
  11. 1. 安装下载工具
  12. 2. 配置环境变量 (使用国内镜像加速)
  13. 3. 创建目录
  14. 4. 高速下载 (包含 Checkpoint 和 T5/CLIP 编码器)
  15. 第三步:部署 ComfyUI 与修复 ARM 依赖
  16. 3.1 克隆与安装
  17. 安装常规依赖 (使用 --no-deps 防止破坏 Torch 环境)
  18. 核心修复:补齐 ARM 架构下缺失的特殊库
  19. 如果缺少这些,ComfyUI 启动时会报错 No module named kornia_rs 或 trampoline
  20. 3.2 挂载模型 (软链接方案)
  21. 1. 链接主模型
  22. 2. 链接 CLIP 模型 (SD3 需要 3 个 CLIP)
  23. 注意:我们直接使用 FP16 精度的 T5,因为显存足够大
  24. 第四步:高性能启动 (High VRAM Mode)
  25. 日志管理
  26. --highvram: 强制模型常驻显存
  27. 第五步:导入 SD3.5 标准工作流 (JSON)
  28. 工作流配置说明:
  29. 性能总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Windows Git 安装全流程与关键配置指南
  • 国内用户升级 GitHub Copilot 专业版支付指南
  • Rust WebAssembly 与 Three.js 结合实现高性能 3D 粒子系统
  • Python 常用第三方库整理:数据分析、爬虫与机器学习
  • Python OpenCV 调用海康威视工业相机
  • AI 时代普通人创作指南:工具选择与实战技巧
  • OpenClaw.ai:Agentic AI 时代的 Spring Framework 时刻
  • Obsidian App 无缝迁移至 Obsidian.nvim:全功能保留指南
  • AR 眼镜移动端应用软件概述与技术展望
  • Ubuntu 下 llama.cpp 编译与性能调优实战
  • WSL2 下 Webots 控制器地址错误 10.255.255.254 的原因与修复
  • 在 iPhone 和 iPad 上运行 Minecraft Java 版的 PojavLauncher 指南
  • AI 在前后端开发中的差异化落地指南:DAU 规模分层策略
  • GitHub Copilot Pro 学生免费认证与 VS Code 配置指南
  • 91n 边缘设备部署轻量 TensorFlow 模型全流程
  • GitHub AI Agent 开源生态概览
  • 本地部署指南:使用 Ollama 运行谷歌 Gemma 大模型
  • 微秒级低延时系统优化:脚本语言如何逼近 C++ 性能?
  • 基于 OneDNS 的高校办公网安全防护方案
  • MVP 到千万级并发:AI 在前后端开发中的差异化落地指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online