字节开源 Hyper-SD：Stable Diffusion 1 步高清加速模型详解

Hyper-SD 是由字节跳动开源的 Stable Diffusion 模型加速方案。它基于先进的神经网络模型蒸馏技术，能够在极少的采样步骤（1、2、4、8 步）下生成高质量的大尺寸图片。该模型以 LoRA 形式发布，兼容 SDXL Base 1.0 和 Stable-Diffusion v1-5 等各类基础模型。

核心技术与原理

Hyper-SD 的核心在于其提出的新颖框架，协同整合了 ODE（常微分方程）轨迹保持和 ODE 轨迹重构的优势。扩散模型的训练过程本质上是添加噪声和去噪的过程，这一过程可以用 ODE 轨迹来描述。

关键技术点

轨迹分段一致性蒸馏：在预先定义的时间步长段内逐步进行一致性蒸馏，从更高层次上促进原始 ODE 轨迹的保留，确保新模型在低步数下仍能复现原模型的性能。
人类反馈学习融入：将人类反馈学习机制引入模型训练，以提升低步长条件下的生成质量，有效减轻蒸馏过程中可能产生的性能损失。
评分提炼技术：进一步提升模型在低步骤生成方面的能力，并首次尝试利用统一的 LoRA 支持所有步骤的推理过程，简化了部署流程。

相比传统的 SDXL-Lightning，Hyper-SDXL 在 1 步推理中表现更为出色。例如，在 CLIP 评分上比 SDXL-Lightning 高出 0.68，在 Aes 评分上高出 0.51，证明了其在极低步数下的图像质量优势。

环境准备与安装

Hyper-SD 主要应用于 ComfyUI 工作流中。安装过程相对简单，无需复杂的编译环境，只需在 ComfyUI 基础上增加特定的采样调度器并加载对应的模型文件即可。

前置要求

ComfyUI：建议更新至最新版本，以确保对最新自定义节点的支持。
PyTorch：确保 GPU 驱动正常，CUDA 版本与 PyTorch 匹配。
显存要求：
- SD1.5 模型：建议至少 4GB 显存。
- SDXL 模型：建议至少 8GB 显存，以保证高分辨率生成的流畅性。

安装步骤

下载模型文件：前往官方仓库或 HuggingFace 获取 Hyper-SD 的 LoRA 权重文件（Unified LoRA 和 CFG LoRA）。
放置模型：将下载的 .safetensors 文件放入 ComfyUI 目录下的 custom_nodes/ 或 models/loras/ 文件夹中。
更新自定义节点：通过 ComfyUI Manager 安装必要的依赖节点，特别是针对 TCD 采样调度器的支持。
重启服务：重启 ComfyUI 服务，确保新节点和模型被正确识别。

使用指南

Hyper-SD 的推理加速主要通过 LoRA 模型实现。官方发布了多种 LoRA 模型，其中最具代表性的是 Unified LoRA 和 CFG LoRA。

1. Unified LoRA（统一 LoRA）

Unified LoRA 的最大特点是'一模型多步'。用户只需加载一个 LoRA 模型，即可执行 1 至 8 步的推理。

特点：
- 最低 1 步推理即可保证基本图像质量。
- 随着推理步数增加，图像细节和元素丰富度显著提升。
- 适合需要快速迭代或实时生成的场景。
配置建议：
- 采样调度器：必须使用 TCD 采样调度器，这是搭配 Hyper-SD 统一 LoRA 的必备组件，其时间调度经过专门优化。
- CFG 引导值：设置为 1。由于统一 LoRA 的设计特性，过高的 CFG 值可能导致画面崩坏。

指标	SDXL Lightning	Hyper-SD (1 Step)	Hyper-SD (8 Steps)
采样步数	4	1	8
CLIP Score	基准	+0.68	更高
Aes Score	基准	+0.51	更高
生成速度	快	极快	较快
细节丰富度	中	中	高

字节开源 Hyper-SD：Stable Diffusion 1 步高清加速模型详解