Hyper-SD 使用了当前最先进的 Stable Diffusion 模型加速,可以在 1、2、4、8 个采样步骤下生成高质量的大尺寸图片。它通过 LoRA 模型的方式发布,兼容 SDXL 和 SD1.5 的各类模型。
Hyper-SD 介绍
Hyper-SD 由字节跳动开源,使用了神经网络的模型蒸馏技术从 SDXL Base 1.0 和 Stable-Diffusion v1-5 模型中提取出了高质量的图像特征信息。
具体来说,字节团队提出了一种新颖的框架,协同整合了 ODE 轨迹保持和 ODE 轨迹重构的优势,既保证了新模型的性能,又提升了新模型的效率。首先,它引入了轨迹分段一致性蒸馏,在预先定义的时间步长段内逐步进行一致性蒸馏,从而从更高层次上促进了原始 ODE 轨迹的保留。其次,它将人类反馈学习融入模型,以提升低步长条件下的性能,并减轻蒸馏过程中产生的性能损失。第三,它将评分提炼技术融入其中,进一步提升模型在低步骤生成方面的能力,并首次尝试利用统一的 LoRA 支持所有步骤的推理过程。
ODE 轨迹指的是扩散模型在训练时添加噪声和去噪的过程。ODE 轨迹保持指的是训练时尽量复现原模型的 ODE 轨迹,这样可以尽量保持原模型的性能。ODE 轨迹重构指的是训练时在保障新模型输出与原模型相近的前提下,优化 ODE 轨迹。
Hyper-SD 在 SDXL 和 SD1.5 的 1 至 8 步推理过程中均实现了良好性能。例如,在 1 步推理中,Hyper-SDXL 在 CLIP 评分上比 SDXL-Lightning 高出 0.68,在 Aes 评分上高出 0.51。
安装 Hyper-SD
Hyper-SD 的安装比较简单,我们只需要在 ComfyUI 的基础能力上增加一个新的采样调度器,然后再下载相关的模型即可。
使用 Hyper-SD
Hyper-SD 的推理加速是通过 LoRA 模型实现的,官方发布了多个 LoRA 模型供我们使用。这里介绍其中最新的两种 LoRA 模型:Unified LoRA 和 CFG LoRA。
Unified LoRA
先来看 Unified LoRA(统一 LoRA),所谓统一 LoRA 就是我们可以只使用一个模型,就能执行 1-8 步的推理,在最低的 1 步推理下图片质量也是有所保证的,而且随着推理步数的增加,图像中的元素越来越丰富,事物的个性特征也会更加明显。
这个工作流中的节点不多,我做了一个简单的标注说明。
这里有几点注意:
- TCD 采样调度:TCD 采样调度器是搭配 Hyper-SD 统一 LoRA 模型必备的,它的时间调度是专门调整过的;
- 负向提示词不需要填写;
- CFG 引导设置为 1;
- 图片尺寸根据所选择的 SD 模型进行设置,SDXL 的图片像素不要低于 1024*1024。
这个模型的特点是快,比如可以根据涂鸦实时或准实时生成图片。
CFG LoRA
CFG LoRA 可以让我们使用更强的提示词引导,包括负向提示词。官方训练的模型可以支持 5-8 的 CFG 系数。
工作流标注如下:
这里有几点注意:
- LoRA 模型:选择的是 Hyper-SD CFG LoRA,这里使用的是 8 步模型,采样步数也要设置为 8。最新的有 12 步模型,图片质量更高一些,但是生成时间也更长。
- 支持反向提示词:比如 black hair,就是不要黑色的毛发。
- 采样调度器还是使用 TCD 采样调度器。
- CFG 需要设置为 5-8,具体值需要自己测试,选择适合自己模型和提示词的。
- 图片尺寸根据所选择的 SD 模型进行设置,SDXL 的图片像素不要低于 1024*1024。
Hyper-SD 显著降低了推理步数要求,同时保持了较高的图像质量,适合对速度有要求的生成场景。


