Stable Diffusion 原理解析与本地部署实战

Stable Diffusion（简称 SD）是一个基于潜在扩散模型（Latent Diffusion Models, LDMs）的文图生成模型。它建立在自注意力机制和扩散过程的基础上，设计灵感源自在自然图像建模领域取得巨大成功的扩散模型。

SD 通过一系列扩散步骤生成图像：从包含较少信息的噪声开始，逐步'扩散'出更多细节。每一步中，模型预测图像的条件分布，并据此生成下一步的输入。2022 年，该论文被计算机视觉顶会 CVPR 收录，题为《High-Resolution Image Synthesis with Latent Diffusion Models》。

核心架构解析

1. 背景与动机

扩散过程模型通过模拟随机过程的演化来生成图像，而自注意力机制能有效捕捉序列中的依赖关系。将两者结合，SD 能够生成更加真实且细节丰富的图像。

2. 感知压缩与潜在空间

为了降低计算复杂度，SD 并未直接在像素空间操作，而是引入了预训练的自编码模型（AutoEncoder）。

编码器 (Encoder)：将输入图像压缩成低维的潜在表示（latent representation）。
解码器 (Decoder)：将潜在表示还原为原始像素空间的图像。

这种感知压缩方法忽略了高频信息，保留了重要特征，使得模型训练和采样速度大幅提升。

3. 潜在扩散模型

在潜在空间上进行扩散操作，目标函数如下：

文章配图

这里 $x_t$ 是模型预测的下一个时间步的图像，$\varepsilon_t$ 是从均匀分布中采样的噪音。引入编码器 $E_\phi$ 和解码器 $D_\phi$ 后，模型在潜在表示空间 $z_t$ 中学习，再通过解码器转换回图像空间。

4. 条件机制

为了控制图片合成，SD 引入了拓展的条件时序去噪自编码器。通过在 UNet 主干网络上增加 Cross-Attention 机制，模型能重点关注与条件变量（如文本、类别）相关的信息。

文章配图

实验效果

模型在不同数据集上展现了良好的生成能力，包括 CelebAHQ、FFHQ、LSUN-Churches 等。不同下采样因子（LDM-1, LDM-4, LDM-16）直接影响了模型的感知压缩程度及推断速度与样本质量之间的平衡。

文章配图

Stable Diffusion 原理解析与本地部署实战