NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI 实战

前言

随着 NVIDIA Blackwell 架构的问世，DGX Spark 将桌面级 AI 算力推向了新的高度。这台设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64)，运行在最新的 CUDA 13 环境下。

不过，'最强硬件'往往意味着'最复杂的环境'。由于 Grace CPU 采用 ARM (aarch64) 架构，且 CUDA 13 过于前沿，传统的 PyTorch 安装方法极易失败。本文将分享如何在这台超级计算机上部署 Stable Diffusion 3.5 Large，并利用其 128GB 海量显存开启高性能模式，实现秒级、零延迟的创作体验。

硬件环境规格

本次部署基于 NVIDIA 最新一代个人 AI 超级计算机：

Platform: NVIDIA DGX Spark
Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
VRAM: 128GB HBM3e (Unified Memory Architecture)
CPU: NVIDIA Grace CPU (144-core ARM64)
Software Stack: NVIDIA AI Enterprise
CUDA Version: CUDA 13.0

核心挑战与优势：标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12，直接安装会导致找不到 GPU。但得益于 128GB 显存，我们可以将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存，彻底消除模型加载时间。

构建兼容 CUDA 13 的基础环境

创建 Conda 环境

推荐使用 Python 3.11，它在 ARM 架构下的库支持最完善。

conda create -n sd-runtime python=3.11 -y
conda activate sd-runtime

安装适配 ARM + CUDA 13 的 PyTorch

这是最关键的一步。由于 CUDA 13 非常新，必须使用 NVIDIA 官方 PyPI 索引来获取正确的 wheel 包。

# 确保 pip 是最新的
pip install --upgrade pip

# 从 NVIDIA 官方源安装 PyTorch
# 注意：NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com

验证环境

安装完成后，务必验证 PyTorch 是否成功链接到了 Blackwell GPU。

python -c "import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"

预期输出应显示 CUDA Available 为 True，设备名称包含 GB10 或 Blackwell 代号，CUDA 版本为 13.x。

下载 Stable Diffusion 3.5 Large

SD3.5 是门控模型，请确保您已在 Hugging Face 签署协议并持有 Access Token。

# 安装下载工具
pip install huggingface_hub


 HF_ENDPOINT=https://hf-mirror.com
 HF_HUB_ENABLE_HF_TRANSFER=1
 HF_TOKEN=


 -p /workspace/models/stabilityai/


huggingface-cli download stabilityai/stable-diffusion-3.5-large \
--token  \
--local-dir /workspace/models/stabilityai/stable-diffusion-3.5-large

{"last_node_id":10,"last_link_id":16,"nodes":[{"id":1,"type":"KSampler","pos":[960,190],"size":{"0":315,"1":262},"flags":{},"order":0,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":1},{"name":"positive","type":"CONDITIONING","link":2},{"name":"negative","type":"CONDITIONING","link":3},{"name":"latent_image","type":"LATENT","link":4}],"outputs":[{"name":"LATENT","type":"LATENT","links":[5],"slot_index":0}],"properties":{"Node name for S&R":"KSampler"},"widgets_values":[1234567890,"randomize",30,4.5,"euler","sgm_uniform",1]},{"id":2,"type":"CheckpointLoaderSimple","pos":[50,50],"size":{"0":315,"1":98},"flags":{},"order":1,"mode":0,"outputs":[{"name":"MODEL","type":"MODEL","links":[1],"slot_index":0},{"name":"CLIP","type":"CLIP","links":[],"slot_index":1},{"name":"VAE","type":"VAE","links":[6],"slot_index":2}],"properties":{"Node name for S&R":"CheckpointLoaderSimple"},"widgets_values":["sd3.5_large.safetensors"]},{"id":3,"type":"TripleCLIPLoader","pos":[50,200],"size":{"0":315,"1":150},"flags":{},"order":2,"mode":0,"outputs":[{"name":"CLIP","type":"CLIP","links":[7,8],"slot_index":0}],"properties":{"Node name for S&R":"TripleCLIPLoader"},"widgets_values":["clip_l.safetensors","clip_g.safetensors","t5xxl_fp16.safetensors"]},{"id":4,"type":"CLIPTextEncode","pos":[450,100],"size":{"0":425,"1":180},"flags":{},"order":3,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":7}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[2],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["a highly detailed cyberpunk city, neon lights, 8k resolution, cinematic lighting, masterpiece, sharp focus, ray tracing, nvidia blackwell style"],"color":"#233","bgcolor":"#353"},{"id":5,"type":"CLIPTextEncode","pos":[450,350],"size":{"0":425,"1":180},"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":8}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[3],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["low quality, blurry, ugly, bad anatomy, watermark, text, jpeg artifacts"],"color":"#332","bgcolor":"#533"},{"id":6,"type":"EmptyLatentImage","pos":[50,450],"size":{"0":315,"1":106},"flags":{},"order":5,"mode":0,"outputs":[{"name":"LATENT","type":"LATENT","links":[4],"slot_index":0}],"properties":{"Node name for S&R":"EmptyLatentImage"},"widgets_values":[1024,1024,1]},{"id":7,"type":"VAEDecode","pos":[1300,190],"size":{"0":210,"1":46},"flags":{},"order":6,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":5},{"name":"vae","type":"VAE","link":6}],"outputs":[{"name":"IMAGE","type":"IMAGE","links":[9],"slot_index":0}],"properties":{"Node name for S&R":"VAEDecode"}},{"id":8,"type":"SaveImage","pos":[1550,190],"size":{"0":500,"1":600},"flags":{},"order":7,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":9}],"properties":{"Node name for S&R":"SaveImage"},"widgets_values":["ComfyUI"]}],"links":[[1,2,0,1,0,"MODEL"],[2,4,0,1,1,"CONDITIONING"],[3,5,0,1,2,"CONDITIONING"],[4,6,0,1,3,"LATENT"],[5,1,0,7,0,"LATENT"],[6,2,2,7,1,"VAE"],[7,3,0,4,0,"CLIP"],[8,3,0,5,0,"CLIP"],[9,7,0,8,0,"IMAGE"]],"groups":[],"config":{},"extra":{},"version":0.4}

NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI 实战

前言

硬件环境规格

构建兼容 CUDA 13 的基础环境

创建 Conda 环境

安装适配 ARM + CUDA 13 的 PyTorch

验证环境

下载 Stable Diffusion 3.5 Large

更多推荐文章

相关免费在线工具

部署 ComfyUI & 修复 ARM 依赖

克隆与安装

挂载模型 (软链接方案)

高性能启动 (High VRAM Mode)

导入 SD3.5 标准工作流

工作流配置说明

性能总结

更多推荐文章

相关免费在线工具

NVIDIA DGX Spark 部署 Stable Diffusion 3.5 与 ComfyUI 实战

前言

硬件环境规格

构建兼容 CUDA 13 的基础环境

创建 Conda 环境

安装适配 ARM + CUDA 13 的 PyTorch

验证环境

下载 Stable Diffusion 3.5 Large

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

部署 ComfyUI & 修复 ARM 依赖

克隆与安装

挂载模型 (软链接方案)

高性能启动 (High VRAM Mode)

导入 SD3.5 标准工作流

工作流配置说明

性能总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具