前言
随着 NVIDIA Blackwell 架构的问世,DGX Spark (Personal AI Supercomputer) 将桌面级 AI 算力推向了新的高度。该设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64),并运行在最新的 CUDA 13 环境下。
然而,"最强硬件"往往伴随着"最难环境"。由于 Grace CPU 采用 ARM (aarch64) 架构,且 CUDA 13 较为前沿,传统的 PyTorch 安装方法极易失败。
本文将介绍如何在这台设备上部署 Stable Diffusion 3.5 Large,并利用其 128GB 海量显存开启高性能模式,实现快速创作体验。
硬件环境规格
本次部署基于 NVIDIA 最新一代个人 AI 超级计算机:
- Platform: NVIDIA DGX Spark (Personal AI Supercomputer)
- Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
- VRAM: 128GB HBM3e (Unified Memory Architecture)
- CPU: NVIDIA Grace CPU (144-core ARM64)
- Software Stack: NVIDIA AI Enterprise
- CUDA Version: CUDA 13.0
核心挑战与优势:挑战:标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12,直接安装会导致找不到 GPU。优势:128GB 显存允许我们将 SD3.5 的模型 + T5 编码器永久驻留显存,减少加载时间。
第一步:构建兼容 CUDA 13 的基础环境
1.1 创建 Conda 环境
推荐使用 Python 3.11,它在 ARM 架构下的库支持最完善。
conda create -n sd-runtime python=3.11 -y
conda activate sd-runtime
1.2 安装适配 ARM + CUDA 13 的 PyTorch
这是最关键的一步。由于 CUDA 13 非常新,必须使用 NVIDIA 官方 PyPI 索引来获取正确的 wheel 包。
# 1. 确保 pip 是最新的
pip install --upgrade pip
# 2. 从 NVIDIA 官方源安装 PyTorch
# 注意:NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包
pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com
1.3 验证环境
安装完成后,务必验证 PyTorch 是否成功链接到了 Blackwell GPU。
python -c "import torch; print(f'PyTorch Version: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'Device Name: {torch.cuda.get_device_name(0)}'); print(f'CUDA Version: {torch.version.cuda}')"
- 预期输出:
CUDA Available: TrueDevice Name: NVIDIA GB10 (或相关 Blackwell 代号)CUDA Version: 13.x


