基于 NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI | 极客日志

PythonAI算法

基于 NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI

NVIDIA DGX Spark 搭载 Blackwell 架构 GPU 与 Grace CPU，运行 CUDA 13。介绍在该 ARM64 环境下构建兼容 PyTorch 基础环境，下载 Stable Diffusion 3.5 Large 模型，安装并修复 ComfyUI 依赖。通过软链接挂载模型，配置高显存模式实现秒级出图，并提供适配 TripleCLIPLoader 的标准工作流 JSON，支持原生 4K 生成及高并发任务。

疯疯癫癫发布于 2026/4/8更新于 2026/7/2138 浏览

基于 NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI

前言

随着 NVIDIA Blackwell 架构的问世，DGX Spark (Personal AI Supercomputer) 将桌面级 AI 算力推向了新的巅峰。这台设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64)，并运行在最新的 CUDA 13 环境下。

然而，'最强硬件'往往伴随着'最难环境'。由于 Grace CPU 采用 ARM (aarch64) 架构，且 CUDA 13 过于前沿，传统的 PyTorch 安装方法极易失败。

本文将手把手教你如何在这台超级计算机上部署 Stable Diffusion 3.5 Large，并利用其 128GB 海量显存开启高性能模式，实现秒级、零延迟的创作体验。

硬件环境规格 (DGX Spark Specs)

本次部署基于 NVIDIA 最新一代个人 AI 超级计算机：

Platform: NVIDIA DGX Spark (Personal AI Supercomputer)
Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
VRAM: 128GB HBM3e (Unified Memory Architecture)
CPU: NVIDIA Grace CPU (144-core ARM64)
Software Stack: NVIDIA AI Enterprise
CUDA Version: CUDA 13.0

核心挑战与优势：挑战：标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12，直接安装会导致找不到 GPU。优势：128GB 显存允许我们将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存，消除模型加载时间。

第一步：构建兼容 CUDA 13 的基础环境

1.1 创建 Conda 环境

推荐使用 Python 3.11，它在 ARM 架构下的库支持最完善。

conda create -n sd-runtime python=3.11 -y
conda activate sd-runtime

1.2 安装适配 ARM + CUDA 13 的 PyTorch

这是最关键的一步。由于 CUDA 13 非常新，必须使用 NVIDIA 官方 PyPI 索引来获取正确的 wheel 包。

# 1. 确保 pip 是最新的
pip install --upgrade pip

# 2. 从 NVIDIA 官方源安装 PyTorch
# 注意：NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com

1.3 验证环境 (关键)

安装完成后，务必验证 PyTorch 是否成功链接到了 Blackwell GPU。

python -c "import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"

预期输出：
CUDA Available: True

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 1. 安装下载工具
pip install huggingface_hub

# 2. 配置环境变量 (使用国内镜像加速)
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
export HF_TOKEN="你的_HF_Token_粘贴在这里"

# 3. 创建目录
mkdir -p /workspace/models/stabilityai/

# 4. 高速下载 (包含 Checkpoint 和 T5/CLIP 编码器)
huggingface-cli download stabilityai/stable-diffusion-3.5-large \
--token $HF_TOKEN \
--local-dir /workspace/models/stabilityai/stable-diffusion-3.5-large

cd /workspace
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 安装常规依赖 (使用 --no-deps 防止破坏 Torch 环境)
pip install -r requirements.txt --no-deps

# 🔥 核心修复：补齐 ARM 架构下缺失的特殊库
# 如果缺少这些，ComfyUI 启动时会报错 "No module named kornia_rs" 或 "trampoline"
pip install trampoline kornia_rs mako comfyui-workflow-templates sqlalchemy alembic requests

# 1. 链接主模型
ln -s /workspace/models/stabilityai/stable-diffusion-3.5-large/sd3.5_large.safetensors ./models/checkpoints/

# 2. 链接 CLIP 模型 (SD3 需要 3 个 CLIP)
# 注意：我们直接使用 FP16 精度的 T5，因为显存足够大
ln -s /workspace/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_l.safetensors ./models/clip/
ln -s /workspace/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_g.safetensors ./models/clip/
ln -s /workspace/models/stabilityai/stable-diffusion-3.5-large/text_encoders/t5xxl_fp16.safetensors ./models/clip/

#!/bin/bash
WORKDIR="/workspace/ComfyUI"
PYTHON_PATH="/root/miniconda3/envs/sd-runtime/bin/python"

# 日志管理
LOG_DIR="$WORKDIR/logs"
mkdir -p "$LOG_DIR"
LOG_FILE="$LOG_DIR/server_$(date "+%Y-%m-%d_%H-%M-%S").log"

cd "$WORKDIR" || exit
echo "🚀 Starting ComfyUI on DGX Spark (Blackwell)..."
echo "⚡ Mode: High VRAM (Force Resident)"

# --highvram: 强制模型常驻显存
nohup "$PYTHON_PATH" main.py \
--listen 0.0.0.0 \
--port 8188 \
--highvram \
> "$LOG_FILE" 2>&1 &

echo "✅ Service PID: $!"

{"last_node_id":10,"last_link_id":16,"nodes":[{"id":1,"type":"KSampler","pos":[960,190],"size":{"0":315,"1":262},"flags":{},"order":0,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":1},{"name":"positive","type":"CONDITIONING","link":2},{"name":"negative","type":"CONDITIONING","link":3},{"name":"latent_image","type":"LATENT","link":4}],"outputs":[{"name":"LATENT","type":"LATENT","links":[5],"slot_index":0}],"properties":{"Node name for S&R":"KSampler"},"widgets_values":[1234567890,"randomize",30,4.5,"euler","sgm_uniform",1]},{"id":2,"type":"CheckpointLoaderSimple","pos":[50,50],"size":{"0":315,"1":98},"flags":{},"order":1,"mode":0,"outputs":[{"name":"MODEL","type":"MODEL","links":[1],"slot_index":0},{"name":"CLIP","type":"CLIP","links":[],"slot_index":1},{"name":"VAE","type":"VAE","links":[6],"slot_index":2}],"properties":{"Node name for S&R":"CheckpointLoaderSimple"},"widgets_values":["sd3.5_large.safetensors"]},{"id":3,"type":"TripleCLIPLoader","pos":[50,200],"size":{"0":315,"1":150},"flags":{},"order":2,"mode":0,"outputs":[{"name":"CLIP","type":"CLIP","links":[7,8],"slot_index":0}],"properties":{"Node name for S&R":"TripleCLIPLoader"},"widgets_values":["clip_l.safetensors","clip_g.safetensors","t5xxl_fp16.safetensors"]},{"id":4,"type":"CLIPTextEncode","pos":[450,100],"size":{"0":425,"1":180},"flags":{},"order":3,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":7}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[2],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["a highly detailed cyberpunk city, neon lights, 8k resolution, cinematic lighting, masterpiece, sharp focus, ray tracing, nvidia blackwell style"],"color":"#233","bgcolor":"#353"},{"id":5,"type":"CLIPTextEncode","pos":[450,350],"size":{"0":425,"1":180},"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":8}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[3],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["low quality, blurry, ugly, bad anatomy, watermark, text, jpeg artifacts"],"color":"#332","bgcolor":"#533"},{"id":6,"type":"EmptyLatentImage","pos":[50,450],"size":{"0":315,"1":106},"flags":{},"order":5,"mode":0,"outputs":[{"name":"LATENT","type":"LATENT","links":[4],"slot_index":0}],"properties":{"Node name for S&R":"EmptyLatentImage"},"widgets_values":[1024,1024,1]},{"id":7,"type":"VAEDecode","pos":[1300,190],"size":{"0":210,"1":46},"flags":{},"order":6,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":5},{"name":"vae","type":"VAE","link":6}],"outputs":[{"name":"IMAGE","type":"IMAGE","links":[9],"slot_index":0}],"properties":{"Node name for S&R":"VAEDecode"}},{"id":8,"type":"SaveImage","pos":[1550,190],"size":{"0":500,"1":600},"flags":{},"order":7,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":9}],"properties":{"Node name for S&R":"SaveImage"},"widgets_values":["ComfyUI"]}],"links":[[1,2,0,1,0,"MODEL"],[2,4,0,1,1,"CONDITIONING"],[3,5,0,1,2,"CONDITIONING"],[4,6,0,1,3,"LATENT"],[5,1,0,7,0,"LATENT"],[6,2,2,7,1,"VAE"],[7,3,0,4,0,"CLIP"],[8,3,0,5,0,"CLIP"],[9,7,0,8,0,"IMAGE"]],"groups":[],"config":{},"extra":{},"version":0.4}

基于 NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI

前言

硬件环境规格 (DGX Spark Specs)

第一步：构建兼容 CUDA 13 的基础环境

1.1 创建 Conda 环境

1.2 安装适配 ARM + CUDA 13 的 PyTorch

1.3 验证环境 (关键)

更多推荐文章

相关免费在线工具

第二步：下载 Stable Diffusion 3.5 Large

第三步：部署 ComfyUI & 修复 ARM 依赖

3.1 克隆与安装

3.2 挂载模型 (软链接方案)

第四步：高性能启动 (High VRAM Mode)

第五步：导入 SD3.5 标准工作流 (JSON)

工作流配置说明：

性能总结

更多推荐文章

相关免费在线工具

基于 NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI

前言

硬件环境规格 (DGX Spark Specs)

第一步：构建兼容 CUDA 13 的基础环境

1.1 创建 Conda 环境

1.2 安装适配 ARM + CUDA 13 的 PyTorch

1.3 验证环境 (关键)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第二步：下载 Stable Diffusion 3.5 Large

第三步：部署 ComfyUI & 修复 ARM 依赖

3.1 克隆与安装

3.2 挂载模型 (软链接方案)

第四步：高性能启动 (High VRAM Mode)

第五步：导入 SD3.5 标准工作流 (JSON)

工作流配置说明：

性能总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具