📖 前言
随着 NVIDIA Blackwell 架构的问世,DGX Spark (Personal AI Supercomputer) 将桌面级 AI 算力推向了新的巅峰。这台怪兽级设备搭载了 GB200/GB10 级别的 GPU 和 NVIDIA Grace CPU (ARM64),并运行在最新的 CUDA 13 环境下。
然而,'最强硬件"往往伴随着"最难环境'。由于 Grace CPU 采用 ARM (aarch64) 架构,且 CUDA 13 过于前沿,传统的 PyTorch 安装方法极易失败。
本文将手把手教你如何在这台超级计算机上部署 Stable Diffusion 3.5 Large,并利用其 128GB 海量显存 开启高性能模式,实现秒级、零延迟的创作体验。
🛠️ 硬件环境规格 (DGX Spark Specs)
本次部署基于 NVIDIA 最新一代个人 AI 超级计算机:
- Platform: NVIDIA DGX Spark (Personal AI Supercomputer)
- Architecture: NVIDIA Blackwell (GB10 / GB200 Tensor Core GPU)
- VRAM: 128GB HBM3e (Unified Memory Architecture)
- CPU: NVIDIA Grace CPU (144-core ARM64)
- Software Stack: NVIDIA AI Enterprise
- CUDA Version: CUDA 13.0
💡 核心挑战与优势:挑战:标准 PyPI 源的 PyTorch 通常只适配 CUDA 11/12,直接安装会导致找不到 GPU。优势:128GB 显存允许我们将 SD3.5 的 20GB 模型 + 10GB T5 编码器永久驻留显存,消除模型加载时间。
📦 第一步:构建兼容 CUDA 13 的基础环境
1.1 创建 Conda 环境
推荐使用 Python 3.11,它在 ARM 架构下的库支持最完善。
conda create -n sd-runtime python=3.11-y conda activate sd-runtime
1.2 安装适配 ARM + CUDA 13 的 PyTorch
这是最关键的一步。由于 CUDA 13 非常新,必须使用 NVIDIA 官方 PyPI 索引 来获取正确的 wheel 包。
# 1. 确保 pip 是最新的 pip install--upgrade pip # 2. 从 NVIDIA 官方源安装 PyTorch# 注意:NVIDIA 的 index 通常会包含对最新 CUDA 版本的兼容包 pip install torch torchvision torchaudio --index-url https://pypi.nvidia.com





