前言
NVIDIA Blackwell 架构问世后,DGX Spark 将桌面级 AI 算力推向了新高度。这台设备搭载 GB200/GB10 GPU 和 Grace CPU (ARM64),运行 CUDA 13 环境。不过,最强硬件往往意味着最难环境。由于 Grace CPU 采用 ARM 架构且 CUDA 13 过于前沿,传统 PyTorch 安装方法极易失败。本文将演示如何在这台超级计算机上部署 Stable Diffusion 3.5 Large,利用其 128GB 显存开启高性能模式,实现秒级创作体验。
硬件环境规格
- Platform: NVIDIA DGX Spark
- Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
- VRAM: 128GB HBM3e
- CPU: NVIDIA Grace CPU (144-core ARM64)
- Software Stack: NVIDIA AI Enterprise
- CUDA Version: CUDA 13.0
核心挑战在于标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12,直接安装会导致找不到 GPU。优势则是 128GB 显存允许我们将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存,消除加载时间。
构建兼容 CUDA 13 的基础环境
创建 Conda 环境
推荐使用 Python 3.11,它在 ARM 架构下的库支持最完善。
conda create -n sd-runtime python=3.11 -y
conda activate sd-runtime
安装适配 ARM + CUDA 13 的 PyTorch
这是最关键的一步。由于 CUDA 13 非常新,必须使用 NVIDIA 官方 PyPI 索引来获取正确的 wheel 包。
# 确保 pip 是最新的
pip install --upgrade pip
# 从 NVIDIA 官方源安装 PyTorch
# 注意:NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com
验证环境
安装完成后,务必验证 PyTorch 是否成功链接到了 Blackwell GPU。
python -c "import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"
预期输出中 CUDA Available 应为 True,Device Name 显示 NVIDIA GB10 或相关 Blackwell 代号,CUDA Version 为 13.x。
下载 Stable Diffusion 3.5 Large
SD3.5 是门控模型,请确保您已在 Hugging Face 签署协议并持有 Access Token。
# 安装下载工具
pip install huggingface_hub
# 配置环境变量 (使用国内镜像加速)
export HF_ENDPOINT=https://hf-mirror.com
HF_HUB_ENABLE_HF_TRANSFER=1
HF_TOKEN=
-p /workspace/models/stabilityai/
huggingface-cli download stabilityai/stable-diffusion-3.5-large \
--token \
--local-dir /workspace/models/stabilityai/stable-diffusion-3.5-large


