Stable Diffusion 原理解析与本地部署实战
Stable Diffusion(简称 SD)是一个基于潜在扩散模型(Latent Diffusion Models, LDMs)的文图生成模型。它建立在自注意力机制和扩散过程的基础上,设计灵感源自在自然图像建模领域取得巨大成功的扩散模型。
SD 通过一系列扩散步骤生成图像:从包含较少信息的噪声开始,逐步'扩散'出更多细节。每一步中,模型预测图像的条件分布,并据此生成下一步的输入。2022 年,该论文被计算机视觉顶会 CVPR 收录,题为《High-Resolution Image Synthesis with Latent Diffusion Models》。
核心架构解析
1. 背景与动机
扩散过程模型通过模拟随机过程的演化来生成图像,而自注意力机制能有效捕捉序列中的依赖关系。将两者结合,SD 能够生成更加真实且细节丰富的图像。
2. 感知压缩与潜在空间
为了降低计算复杂度,SD 并未直接在像素空间操作,而是引入了预训练的自编码模型(AutoEncoder)。
- 编码器 (Encoder):将输入图像压缩成低维的潜在表示(latent representation)。
- 解码器 (Decoder):将潜在表示还原为原始像素空间的图像。
这种感知压缩方法忽略了高频信息,保留了重要特征,使得模型训练和采样速度大幅提升。
3. 潜在扩散模型
在潜在空间上进行扩散操作,目标函数如下:

这里 $x_t$ 是模型预测的下一个时间步的图像,$\varepsilon_t$ 是从均匀分布中采样的噪音。引入编码器 $E_\phi$ 和解码器 $D_\phi$ 后,模型在潜在表示空间 $z_t$ 中学习,再通过解码器转换回图像空间。
4. 条件机制
为了控制图片合成,SD 引入了拓展的条件时序去噪自编码器。通过在 UNet 主干网络上增加 Cross-Attention 机制,模型能重点关注与条件变量(如文本、类别)相关的信息。

实验效果
模型在不同数据集上展现了良好的生成能力,包括 CelebAHQ、FFHQ、LSUN-Churches 等。不同下采样因子(LDM-1, LDM-4, LDM-16)直接影响了模型的感知压缩程度及推断速度与样本质量之间的平衡。


本地部署实战
环境准备
建议配备独立显卡,显存 6GB 以上运行较为流畅。确保网络环境可访问 GitHub,并安装 Git 工具。





