在 NVIDIA DGX Spark部署 Stable Diffusion 3.5 并使用ComfyUI

Ne0inhk

22 Mar 2026 — 7 min read

📖 前言

随着 NVIDIA Blackwell 架构的问世，DGX Spark (Personal AI Supercomputer) 将桌面级 AI 算力推向了新的巅峰。这台怪兽级设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64)，并运行在最新的 CUDA 13 环境下。

然而，“最强硬件"往往伴随着"最难环境”。由于 Grace CPU 采用 ARM (aarch64) 架构，且 CUDA 13 过于前沿，传统的 PyTorch 安装方法极易失败。

本文将手把手教你如何在这台超级计算机上部署 Stable Diffusion 3.5 Large，并利用其 128GB 海量显存 开启高性能模式，实现秒级、零延迟的创作体验。

🛠️ 硬件环境规格 (DGX Spark Specs)

本次部署基于 NVIDIA 最新一代个人 AI 超级计算机：

Platform: NVIDIA DGX Spark (Personal AI Supercomputer)
Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
VRAM: 128GB HBM3e (Unified Memory Architecture)
CPU: NVIDIA Grace CPU (144-core ARM64)
Software Stack: NVIDIA AI Enterprise
CUDA Version: CUDA 13.0

💡 核心挑战与优势：挑战：标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12，直接安装会导致找不到 GPU。优势：128GB 显存允许我们将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存，消除模型加载时间。

📦 第一步：构建兼容 CUDA 13 的基础环境

1.1 创建 Conda 环境

推荐使用 Python 3.11，它在 ARM 架构下的库支持最完善。

conda create -n sd-runtime python=3.11-y conda activate sd-runtime

1.2 安装适配 ARM + CUDA 13 的 PyTorch

这是最关键的一步。由于 CUDA 13 非常新，必须使用 NVIDIA 官方 PyPI 索引 来获取正确的 wheel 包。

# 1. 确保 pip 是最新的 pip install--upgrade pip # 2. 从 NVIDIA 官方源安装 PyTorch# 注意：NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包 pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com

1.3 验证环境 (关键)

安装完成后，务必验证 PyTorch 是否成功链接到了 Blackwell GPU。

python -c"import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"

预期输出：
CUDA Available: True
Device Name: NVIDIA GB10 (或相关 Blackwell 代号)
CUDA Version: 13.x

📥 第二步：下载 Stable Diffusion 3.5 Large

SD3.5 是门控模型，请确保您已在 Hugging Face 签署协议并持有 Access Token。

# 1. 安装下载工具 pip install huggingface_hub # 2. 配置环境变量 (使用国内镜像加速)exportHF_ENDPOINT=https://hf-mirror.com exportHF_HUB_ENABLE_HF_TRANSFER=1exportHF_TOKEN="你的_HF_Token_粘贴在这里"# 3. 创建目录mkdir-p /home/david/workspaces/models/stabilityai/ # 4. 高速下载 (包含 Checkpoint 和 T5/CLIP 编码器) huggingface-cli download stabilityai/stable-diffusion-3.5-large \--token$HF_TOKEN\ --local-dir /home/david/workspaces/models/stabilityai/stable-diffusion-3.5-large

🖥️ 第三步：部署 ComfyUI & 修复 ARM 依赖

3.1 克隆与安装

cd /home/david/workspaces git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI # 安装常规依赖 (使用 --no-deps 防止破坏 Torch 环境) pip install-r requirements.txt --no-deps # 🔥 核心修复：补齐 ARM 架构下缺失的特殊库# 如果缺少这些，ComfyUI 启动时会报错 "No module named kornia_rs" 或 "trampoline" pip install trampoline kornia_rs mako comfyui-workflow-templates sqlalchemy alembic requests

3.2 挂载模型 (软链接方案)

为了利用 DGX Spark 的存储性能，我们使用软链接映射模型。

# 1. 链接主模型ln-s /home/david/workspaces/models/stabilityai/stable-diffusion-3.5-large/sd3.5_large.safetensors \ ./models/checkpoints/ # 2. 链接 CLIP 模型 (SD3 需要 3 个 CLIP)# 注意：我们直接使用 FP16 精度的 T5，因为显存足够大ln-s /home/david/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_l.safetensors ./models/clip/ ln-s /home/david/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/clip_g.safetensors ./models/clip/ ln-s /home/david/workspaces/models/stabilityai/stable-diffusion-3.5-large/text_encoders/t5xxl_fp16.safetensors ./models/clip/

🚀 第四步：高性能启动 (High VRAM Mode)

针对 128GB 显存，我们开启"疯狗模式"——让所有模型永久驻留显存，拒绝反复加载。

创建启动脚本 run_comfy.sh：

#!/bin/bashWORKDIR="/home/david/workspaces/ComfyUI"PYTHON_PATH="/root/miniconda3/envs/sd-runtime/bin/python"# 日志管理LOG_DIR="$WORKDIR/logs"mkdir-p"$LOG_DIR"LOG_FILE="$LOG_DIR/server_$(date"+%Y-%m-%d_%H-%M-%S").log"cd"$WORKDIR"||exitecho"🚀 Starting ComfyUI on DGX Spark (Blackwell)..."echo"⚡ Mode: High VRAM (Force Resident)"# --highvram: 强制模型常驻显存nohup"$PYTHON_PATH" main.py \--listen0.0.0.0 \--port8188\--highvram\>"$LOG_FILE"2>&1&echo"✅ Service PID: $!"

启动服务：chmod +x run_comfy.sh && ./run_comfy.sh

🎨 第五步：导入 SD3.5 标准工作流 (JSON)

SD3.5 采用了分离式文本编码器架构（CLIP-L + CLIP-G + T5），默认工作流无法正常出图。

请复制下方完整的 JSON 代码，保存为 sd3_workflow.json，直接拖入 ComfyUI 浏览器界面即可使用。此工作流已针对 1024x1024 分辨率和 DGX Spark 进行了优化。

{"last_node_id":10,"last_link_id":16,"nodes":[{"id":1,"type":"KSampler","pos":[960,190],"size":{"0":315,"1":262},"flags":{},"order":0,"mode":0,"inputs":[{"name":"model","type":"MODEL","link":1},{"name":"positive","type":"CONDITIONING","link":2},{"name":"negative","type":"CONDITIONING","link":3},{"name":"latent_image","type":"LATENT","link":4}],"outputs":[{"name":"LATENT","type":"LATENT","links":[5],"slot_index":0}],"properties":{"Node name for S&R":"KSampler"},"widgets_values":[1234567890,"randomize",30,4.5,"euler","sgm_uniform",1]},{"id":2,"type":"CheckpointLoaderSimple","pos":[50,50],"size":{"0":315,"1":98},"flags":{},"order":1,"mode":0,"outputs":[{"name":"MODEL","type":"MODEL","links":[1],"slot_index":0},{"name":"CLIP","type":"CLIP","links":[],"slot_index":1},{"name":"VAE","type":"VAE","links":[6],"slot_index":2}],"properties":{"Node name for S&R":"CheckpointLoaderSimple"},"widgets_values":["sd3.5_large.safetensors"]},{"id":3,"type":"TripleCLIPLoader","pos":[50,200],"size":{"0":315,"1":150},"flags":{},"order":2,"mode":0,"outputs":[{"name":"CLIP","type":"CLIP","links":[7,8],"slot_index":0}],"properties":{"Node name for S&R":"TripleCLIPLoader"},"widgets_values":["clip_l.safetensors","clip_g.safetensors","t5xxl_fp16.safetensors"]},{"id":4,"type":"CLIPTextEncode","pos":[450,100],"size":{"0":425,"1":180},"flags":{},"order":3,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":7}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[2],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["a highly detailed cyberpunk city, neon lights, 8k resolution, cinematic lighting, masterpiece, sharp focus, ray tracing, nvidia blackwell style"],"color":"#233","bgcolor":"#353"},{"id":5,"type":"CLIPTextEncode","pos":[450,350],"size":{"0":425,"1":180},"flags":{},"order":4,"mode":0,"inputs":[{"name":"clip","type":"CLIP","link":8}],"outputs":[{"name":"CONDITIONING","type":"CONDITIONING","links":[3],"slot_index":0}],"properties":{"Node name for S&R":"CLIPTextEncode"},"widgets_values":["low quality, blurry, ugly, bad anatomy, watermark, text, jpeg artifacts"],"color":"#332","bgcolor":"#533"},{"id":6,"type":"EmptyLatentImage","pos":[50,450],"size":{"0":315,"1":106},"flags":{},"order":5,"mode":0,"outputs":[{"name":"LATENT","type":"LATENT","links":[4],"slot_index":0}],"properties":{"Node name for S&R":"EmptyLatentImage"},"widgets_values":[1024,1024,1]},{"id":7,"type":"VAEDecode","pos":[1300,190],"size":{"0":210,"1":46},"flags":{},"order":6,"mode":0,"inputs":[{"name":"samples","type":"LATENT","link":5},{"name":"vae","type":"VAE","link":6}],"outputs":[{"name":"IMAGE","type":"IMAGE","links":[9],"slot_index":0}],"properties":{"Node name for S&R":"VAEDecode"}},{"id":8,"type":"SaveImage","pos":[1550,190],"size":{"0":500,"1":600},"flags":{},"order":7,"mode":0,"inputs":[{"name":"images","type":"IMAGE","link":9}],"properties":{"Node name for S&R":"SaveImage"},"widgets_values":["ComfyUI"]}],"links":[[1,2,0,1,0,"MODEL"],[2,4,0,1,1,"CONDITIONING"],[3,5,0,1,2,"CONDITIONING"],[4,6,0,1,3,"LATENT"],[5,1,0,7,0,"LATENT"],[6,2,2,7,1,"VAE"],[7,3,0,4,0,"CLIP"],[8,3,0,5,0,"CLIP"],[9,7,0,8,0,"IMAGE"]],"groups":[],"config":{},"extra":{},"version":0.4}

流程如下：

效果如下：

💡 工作流配置说明：

TripleCLIPLoader: 这是核心。我们明确指定了 clip_l, clip_g 和 t5xxl_fp16。如果这三个没选对，生成的图片将无法理解你的 Prompt。
Scheduler: sgm_uniform: Stable Diffusion 3 必须使用 SGM Uniform 调度器，否则画面会充满噪点。
Resolution: 默认设为 1024x1024。在 Blackwell 上，你可以尝试将其改为 2048x2048 进行原生 4K 生成。

📊 性能总结

在 DGX Spark 上完成上述部署后，性能表现如下：

模型加载: 首次启动后，模型将永久驻留显存 (High VRAM Mode)。
生成速度: 1024x1024 分辨率下，实现秒级出图。
并发能力: 得益于 128GB 显存，你可以同时开启 Batch Size = 4 甚至更高，或者在后台同时运行一个 70B 的大语言模型而不发生 OOM。

资源占用：

【GitHub周榜】WrenAI：开源SQL AI代理，让Text-to-SQL轻松实现，开启自然语言与数据交互新时代

系列篇章💥 No.文章1【GitHub周榜】OpenHands：AI赋能，软件开发效率狂飙10倍2【GitHub周榜】Agno：快速构建多模态智能体的轻量级框架，开发提速 10000 倍3【GitHub周榜】WrenAI：开源SQL AI代理，让Text-to-SQL轻松实现，开启自然语言与数据交互新时代目录 * 系列篇章💥 * 前言 * 一、项目概述 * 二、主要功能 * 1、多语言自然对话 * 2、智能数据探索 * 3、语义索引系统 * 4、上下文 SQL 生成 * 5、无代码数据分析 * 6、AI 驱动可视化 * 7、数据导出集成 * 8、安全性保障 * 三、技术原理 * 四、应用场景 * 1、

Qwen3-TTS开源大模型效果展示：方言语音合成+上下文感知韵律生成案例

Qwen3-TTS开源大模型效果展示：方言语音合成+上下文感知韵律生成案例 1. 为什么这次语音合成让人眼前一亮？你有没有试过让AI读一段带方言味的文案？比如“侬好呀，今朝天气老灵额”，或者“俺们村后山的苹果，又脆又甜！”——以前的语音合成工具要么念得像机器人背课文，要么干脆把方言词读成普通话腔调，听着别扭又失真。 Qwen3-TTS-12Hz-1.7B-VoiceDesign 这次不一样。它不是简单地“换音色”，而是真正理解了语言背后的节奏、情绪和地域味道。我第一次听到它合成上海话时，下意识停下手头工作——那句“阿拉今朝勿出门，困觉最适意”里的“阿拉”“困觉”发音自然，语调上扬带点慵懒，连“勿”字的轻声弱化都恰到好处，完全不像AI，倒像隔壁弄堂里刚买完小笼包回来的阿姨随口一说。这不是靠堆参数堆出来的效果，而是模型从训练数据里“听懂”了方言的呼吸感：哪里该拖长音，哪里该突然收住，哪句话表面平静底下藏着调侃……它甚至能根据上下文自动调整。比如同样一句“你再说一遍？”，在客服场景里是礼貌确认，在朋友吵架时就变成带着火气的质问——Qwen3-TTS

2024最新可用！GitHub/谷歌学术/Sci-Hub镜像站合集（附实测截图）

2024科研与开发者的网络工具箱：实测可用的学术与代码资源镜像指南作为一名长期在代码与论文之间穿梭的开发者或研究者，你是否也经历过这样的时刻：一个关键的GitHub仓库打不开，无法查阅项目文档；一篇急需的文献在谷歌学术上卡在加载界面；或是Sci-Hub的主域名又一次失联，让你与重要的研究成果失之交臂。网络环境的波动，常常成为我们高效工作的最大障碍。这篇文章，正是为你准备的。它不是一份简单的网址清单，而是一份经过2024年上半年持续实测、对比分析后的动态生存指南。我们将深入探讨这些镜像服务的原理、各自的优劣、使用时的核心注意事项，并提供超越简单访问的进阶技巧。我们的目标，是让你手头始终握有几把可靠的“钥匙”，无论网络风向如何变化，都能顺畅地打开知识宝库的大门。 1. 镜像服务的本质：为什么我们需要它们？在深入具体网址之前，我们有必要先理解“镜像”究竟是如何工作的。简单来说，镜像站点可以被看作是一个“影子”或“副本”。当原始网站（如 github.com）因为地理距离、网络策略或其他原因导致访问缓慢或不可达时，位于其他网络环境下的服务器会定期（或实时）抓取并同步原始网站的内容，

[开源免费]基于STM32的全自动节水灌溉系统

[开源免费]基于STM32的全自动节水灌溉系统 ——从传感监测到智能控制的完整实践方案一、项目背景随着物联网技术与嵌入式控制的发展，农业自动化逐渐从概念走向落地。传统灌溉系统普遍存在“粗放式浇水、浪费水源、人工依赖度高”等问题，难以满足现代农业对节水、高效、智能化的需求。基于 STM32 微控制器的全自动节水灌溉系统，凭借低功耗、高稳定性和强扩展性的优势，成为一种成本可控、可广泛部署的智能灌溉解决方案。本文将从方案设计、核心功能、硬件架构到软件流程进行全面解析，为你构建一个完整的“可落地、可复用、可优化”的智能灌溉项目。源码分享由于平台诸多限制，链接无法直接分享并容易失效。源码可在下方链接中直接下载。免费开源 https://code.devzoo.top/embedded/135.html 二、系统总体设计整个系统围绕“实时监测 + 智能判断 + 自动控制 + 远程通信”四大核心能力展开。