深入解析潜在扩散模型(LDMs)技术架构与原理
深入解析潜在扩散模型(LDMs)的技术架构,旨在解决高分辨率图像生成中质量、效率与可控性的平衡问题。LDMs 通过引入感知压缩自编码器将图像映射到低维潜在空间,再在此空间训练扩散模型,大幅降低了计算成本。核心创新包括模块化设计、时间条件化 U-Net 骨干以及基于交叉注意力的通用条件机制。实验表明,该方法在保持生成质量的同时显著提升了训练和推理速度,支持文生图、超分、修复等多种任务,推动了扩散模型的平民化与产业化。

深入解析潜在扩散模型(LDMs)的技术架构,旨在解决高分辨率图像生成中质量、效率与可控性的平衡问题。LDMs 通过引入感知压缩自编码器将图像映射到低维潜在空间,再在此空间训练扩散模型,大幅降低了计算成本。核心创新包括模块化设计、时间条件化 U-Net 骨干以及基于交叉注意力的通用条件机制。实验表明,该方法在保持生成质量的同时显著提升了训练和推理速度,支持文生图、超分、修复等多种任务,推动了扩散模型的平民化与产业化。

在潜在扩散模型(Latent Diffusion Models, LDMs)出现之前,高分辨率图像生成领域长期存在一个'不可能三角':生成质量、计算效率、可控性难以兼得。
LDMs 的破局思路堪称'四两拨千斤':将复杂的图像生成任务'分而治之',做专业的事交给专业的模块。其核心洞察是,图像的信息构成存在明显分层:一层是人类视觉难以察觉、模型建模却耗时的像素级冗余细节(如微小的纹理噪点、像素级的色彩波动);另一层是决定图像核心内容的语义概念信息(如物体的形状、布局、类别、场景逻辑)。让一个单一模型在超高维像素空间里同时学习这两类信息,是效率低下的根本原因。
LDMs 的核心创新在于将图像生成过程解耦为两个高度专门化、可独立优化的阶段:
通过这种模块化分工与空间迁移,LDMs 首次在不牺牲生成质量和多样性的前提下,实现了计算效率的数量级提升,并因其架构设计天然支持强大的多模态可控性,一举破解了高分辨率图像生成的'不可能三角'。
[图片]
LDMs 的第一阶段是一个经过极致优化的自编码器,其核心目标不是简单的图像压缩,而是学习一个与像素空间感知等效、适合生成任务的低维潜在空间,本质是打造一个高质量的'数字底片'仓库。
给定一张 RGB 像素图像 $x \in \mathbb{R}^{H \times W \times 3}$,编码器 $\mathcal{E}$ 会通过卷积下采样将其编码为潜在表示 $z = \mathcal{E}(x) \in \mathbb{R}^{h \times w \times c}$,其中下采样因子 $f=H/h=W/w$ 是平衡效率与质量的核心超参数(通常为 $f=2^m, m \in \mathbb{N}$);解码器 $\mathcal{D}$ 则通过转置卷积上采样,从潜在表示 $z$ 中重建出与原图感知一致的图像 $\tilde{x} = \mathcal{D}(z) \approx x$。
关键设计与核心优势(对比 VAE/VQGAN/传统压缩):
这是 LDMs 的灵魂核心,也是其区别于传统像素级扩散模型的根本。其核心思想是将扩散模型的强大生成能力,从'毛坯大平层'的像素空间,搬迁到'精装小户型'的潜在空间中——空间更小、计算更高效,且无需操心'装修细节'(像素级冗余),可专注于'内容创作'(语义生成)。
传统像素级扩散模型的核心损失函数为:
$L_{DM} = \mathbb{E}{x, \epsilon \sim \mathcal{N}(0,1), t} \left[ | \epsilon - \epsilon{\theta}(x_t, t) |2^2 \right]$
其中 $x_t$ 是原始像素图像 $x$ 在扩散第 $t$ 步的加噪版本,$\epsilon{\theta}$ 是去噪 U-Net,目标是精准预测添加的噪声 $\epsilon$。
LDMs 将这一核心逻辑无缝迁移至低维潜在空间,损失函数仅做操作对象的替换,无任何结构修改:
$L_{LDM} = \mathbb{E}{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ | \epsilon - \epsilon{\theta}(z_t, t) |_2^2 \right]$
公式深度解读与核心优势:
对比 GAN/VAE/传统扩散的核心优势:
关键实现细节:让高效生成更落地:
为实现文生图、图生图、语义图到图像等复杂的可控生成任务,LDMs 引入了基于交叉注意力(Cross-Attention) 的通用条件机制,这是其对比前代模型(GAN/VAE/传统扩散)的又一巨大飞跃,也是 Stable Diffusion 能支持多模态可控生成的核心原因。
条件化的核心目标函数:
$L_{LDM} = \mathbb{E}{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,I), t} \left[ | \epsilon - \epsilon{\theta}(z_t, t, \tau_{\theta}(y)) |2^2 \right]$
其中 $y$ 是任意模态的条件信息(如文本提示、语义图、深度图、边缘图),$\tau{\theta}$ 是领域特定编码器(如文本用 CLIP 文本编码器、语义图用卷积编码器),其作用是将不同模态的条件信息映射为统一维度的中间表示 $\tau_{\theta}(y) \in \mathbb{R}^{M \times d_{\tau}}$,实现多模态输入的'标准化';随后,该中间表示通过交叉注意力层注入到 U-Net 的各个层级,实现条件信息与图像特征的深度融合。
交叉注意力机制详解:让模型'看懂蓝图,精准创作'
交叉注意力的核心公式为:
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d}}\right) \cdot V$
在 LDMs 的上下文里,该公式的每个组件都有明确的物理意义,本质是让模型根据条件信息,为图像的每个位置精准分配生成依据:
交叉注意力的工作流程:从'蓝图'到'作品'的精准映射
交叉注意力层并非简单的特征拼接,而是特征级的深度融合,让条件信息能精准引导图像的每个位置生成,工作流程可分为四步,每一步都有明确的物理意义:
交叉注意力的层级设计:分层引导,兼顾布局与细节
LDMs 在 U-Net 的浅层、中层、深层分别插入交叉注意力层,不同层级的引导侧重点不同,实现了布局 + 语义 + 细节的全维度精准引导,这是其可控性远超前代模型的关键:
通用条件机制的核心威力:一个架构,适配所有模态
该条件机制为 LDMs 提供了一个万能的多模态接口,具有两大核心优势,使其远超 GAN/VAE 的条件生成能力:
这一设计的灵活性和强大性能,是 Stable Diffusion 能快速衍生出文生图、图生图、超分、修复、控图(OpenPose/Depth/Inpaint)等众多功能的核心原因,也是其能风靡全球的关键。
LDMs 并非对扩散模型的简单修改,而是对高分辨率图像生成范式的重构,其核心创新并非单一技术点,而是模块化设计、空间迁移、通用条件机制的有机结合,带来了一系列里程碑式的技术价值,直接推动了扩散模型从'学术研究'走向'工业落地'和'全民可用':
LDMs 虽实现了图像生成的范式革命,但并非完美的技术,仍存在一些固有局限性,也为后续的研究指明了方向:
这些局限性也推动了后续的技术演进,如扩散模型的加速采样(DDIM/PLMS/DDPM-solver)、分层潜在扩散、高分辨率自编码器、大语言模型与扩散模型的融合(LLaMA/GLM+SD)等,让图像生成技术不断向更高效、更精准、更高清的方向发展。
最后需要明确的是,LDMs 是理论基础,Stable Diffusion 是 LDMs 的工业落地实现:Stable Diffusion 完全基于 LDMs 的核心架构,在其基础上做了一系列工程化优化(如模型轻量化、快速采样、多模态控图、开源生态建设),将 LDMs 的理论优势转化为可实际使用的产品,让普通用户能在消费级显卡上体验到高保真的多模态图像生成能力。没有 LDMs 的范式创新,就没有 Stable Diffusion 的诞生;而 Stable Diffusion 的开源和普及,又进一步推动了 LDMs 的研究和演进,形成了理论研究与工业落地的良性循环。
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,它们的公式允许一种引导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间操作,强大 DMs 的优化往往消耗数百个 GPU 天,且推理因顺序评估而昂贵。为了在有限计算资源上实现 DM 训练,同时保持其质量和灵活性,我们将其应用于强大预训练自编码器的潜在空间。与先前工作相比,在这种表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近最优平衡,大大提升了视觉保真度。通过将交叉注意力层引入模型架构,我们将扩散模型转变为强大且灵活的生成器,用于一般条件输入(如文本或边界框),并以卷积方式实现高分辨率合成。我们的潜在扩散模型(LDMs)在图像修复和类条件图像合成上达到了新的最先进分数,并在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上表现出高度竞争力,同时与基于像素的 DMs 相比显著降低了计算需求。
图像合成是计算机视觉领域中近期发展最为惊人的方向之一,但同时也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成,目前主要依赖于扩大基于似然的模型,这些模型在自回归变换器中可能包含数十亿参数 [66, 67]。相比之下,GANs [3, 27, 40] 所展现出的有前景的结果已被揭示主要局限于变异性相对有限的数据,因为它们的对抗学习过程不易扩展到对复杂多模态分布进行建模。最近,由去噪自编码器层次结构构建的扩散模型 [82] 在图像合成 [30, 85] 及其他领域 [7, 45, 48, 57] 已显示出令人印象深刻的结果,并在类条件图像合成 [15, 31] 和超分辨率 [72] 方面定义了最先进的技术。此外,与其他类型的生成模型 [19, 46, 69] 不同,即使是无条件 DMs 也可以轻松应用于修复和着色 [85] 或基于笔画的合成 [53] 等任务。作为基于似然的模型,它们不会像 GANs 那样出现模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以对自然图像的复杂分布进行建模,而无需像 AR 模型 [67] 那样涉及数十亿参数。
高分辨率图像合成的民主化
DMs 属于基于似然的模型类别,其模式覆盖行为使它们倾向于花费过多的容量(以及计算资源)来建模数据中难以察觉的细节 [16, 73]。尽管重新加权的变分目标 [30] 旨在通过欠采样初始去噪步骤来解决这个问题,但 DMs 仍然需要大量计算,因为训练和评估这样的模型需要在 RGB 图像的高维空间中进行重复的函数评估(和梯度计算)。例如,训练最强大的 DMs 通常需要数百个 GPU 天(例如,[15] 中为 150-1000 个 V100 天),并且在输入空间的噪声版本上进行重复评估也使得推理成本高昂,因此在单个 A100 GPU 上产生 5 万个样本大约需要 5 天 [15]。这对研究界和普通用户来说有两个后果:首先,训练这样的模型需要大量的计算资源,只有该领域的一小部分人能够获得,并且会留下巨大的碳足迹 [65, 86]。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须顺序运行大量步骤(例如,[15] 中为 25-1000 步)。
为了提高这个强大模型类别的可访问性,同时减少其显著的资源消耗,需要一种能够降低训练和采样计算复杂度的方法。因此,在不损害其性能的情况下降低 DMs 的计算需求是增强其可访问性的关键。
转向潜在空间
[图片]
我们的方法始于分析像素空间中已训练的扩散模型:图 2 展示了一个已训练模型的率失真权衡。与任何基于似然的模型一样,学习可以大致分为两个阶段:首先是感知压缩阶段,该阶段去除高频细节,但仍学习很少的语义变化。在第二阶段,实际的生成模型学习数据的语义和概念构成(语义压缩)。因此,我们的目标是首先找到一个感知上等价但计算上更合适的空间,在该空间中我们将训练扩散模型以进行高分辨率图像合成。
遵循常见实践 [11, 23, 66, 67, 96],我们将训练分为两个不同的阶段:首先,我们训练一个自编码器,它提供一个较低维(因此更高效)的表示空间,该空间在感知上与数据空间等价。重要的是,与先前的工作 [23, 66] 相比,我们不需要依赖过度的空间压缩,因为我们在学习到的潜在空间中训练 DMs,该空间在空间维度方面展现出更好的缩放特性。降低的复杂度还使得通过单次网络前向传播即可从潜在空间高效生成图像。我们将得到的模型类别称为潜在扩散模型(LDMs)。
这种方法的一个显著优势是,我们只需要训练一次通用的自编码阶段,因此可以将其重用于多个 DM 训练或探索可能完全不同的任务 [81]。这使得能够高效探索大量用于各种图像到图像和文本到图像任务的扩散模型。对于后者,我们设计了一种架构,将变换器连接到 DM 的 UNet 主干 [71],并支持任意类型的基于令牌的条件机制,见第 3.3 节。
总之,我们的工作做出了以下贡献:
(i) 与纯粹的基于变换器的方法 [23, 66] 相比,我们的方法能更优雅地扩展到更高维度的数据,因此可以 (a) 在比先前工作(见图 1)提供更逼真和详细重建的压缩水平上工作,并且 (b) 可以高效地应用于百万像素图像的高分辨率合成。
(ii) 我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推理成本。
(iii) 我们表明,与先前同时学习编码器/解码器架构和基于分数的先验的工作 [93] 不同,我们的方法不需要精细地权衡重建和生成能力。这确保了极其逼真的重建,并且只需要对潜在空间进行很少的正则化。
(iv) 我们发现,对于密集条件的任务,如超分辨率、修复和语义合成,我们的模型可以以卷积方式应用,并渲染大的、一致的 ~1024²像素的图像。
(v) 此外,我们设计了一个基于交叉注意力的通用条件机制,支持多模态训练。我们用它来训练类条件、文本到图像和布局到图像模型。
(vi) 最后,我们在 https://github.com/CompVis/latent-diffusion 发布了预训练的潜在扩散和自编码模型,这些模型可能适用于除 DM 训练之外的多种任务 [81]。
图像合成的生成模型
图像的高维特性对生成建模提出了独特的挑战。生成对抗网络(GAN)[27] 允许高效采样具有良好感知质量的高分辨率图像 [3, 42],但难以优化 [2, 28, 54] 并且难以捕捉完整的数据分布 [55]。相比之下,基于似然的方法强调良好的密度估计,这使得优化行为更佳。变分自编码器(VAE)[46] 和基于流的模型 [18, 19] 能够高效合成高分辨率图像 [9, 44, 92],但样本质量不及 GANs。虽然自回归模型(ARM)[6, 10, 94, 95] 在密度估计方面取得了强大性能,但计算密集的架构 [97] 和顺序采样过程限制了它们只能用于低分辨率图像。由于基于像素的图像表示包含几乎不可感知的高频细节 [16, 73],最大似然训练会花费不成比例的能力来对其建模,导致训练时间过长。为了扩展到更高分辨率,一些两阶段方法 [23, 67, 101, 103] 使用 ARMs 来对压缩的潜在图像空间而不是原始像素进行建模。
最近,扩散概率模型(DM)[82] 在密度估计 [45] 和样本质量 [15] 方面都达到了最先进的结果。当这些模型的基础神经主干被实现为 U-Net [15, 30, 71, 85] 时,其生成能力源于对类图像数据归纳偏置的天然契合。当使用重新加权的目标函数 [30] 进行训练时,通常能达到最佳合成质量。在这种情况下,DM 对应于一个有损压缩器,并允许在图像质量和压缩能力之间进行权衡。然而,在像素空间中评估和优化这些模型的缺点是推理速度慢和训练成本非常高。虽然前者可以通过先进的采样策略 [47, 75, 84] 和分层方法 [31, 93] 得到部分解决,但在高分辨率图像数据上的训练总是需要计算昂贵的梯度。我们通过提出的 LDMs 来解决这两个缺点,LDMs 在维度更低的压缩潜在空间上工作。这使得训练在计算上更便宜,并且几乎不降低合成质量的情况下加速了推理(见图 1)。
[图片]
两阶段图像合成
为了减轻单个生成方法的缺点,大量研究 [11, 23, 67, 70, 101, 103] 通过两阶段方法将不同方法的优点结合到更高效和性能更好的模型中。VQ-VAEs [67, 101] 使用自回归模型来学习离散化潜在空间上的表达性先验。[66] 通过学习离散化图像和文本表示上的联合分布,将这种方法扩展到文本到图像生成。更一般地,[70] 使用条件可逆网络来提供不同领域潜在空间之间的通用转换。与 VQ-VAEs 不同,VQGANs [23, 103] 在第一阶段采用对抗性和感知目标,将自回归变换器扩展到更大的图像。然而,为可行的 ARM 训练所需的高压缩率(这引入了数十亿可训练参数 [23, 66])限制了此类方法的整体性能,而较低的压缩率则伴随着高计算成本的代价 [23, 66]。我们的工作避免了这种权衡,因为我们提出的 LDMs 由于其卷积主干,能更温和地扩展到更高维的潜在空间。因此,我们可以自由选择压缩级别,以在保证高保真重建的同时(见图 1),最佳地协调学习强大的第一阶段与将过多的感知压缩留给生成扩散模型之间的平衡。
虽然存在联合 [93] 或分别 [80] 学习编码/解码模型与基于分数的先验的方法,但前者仍然需要在重建能力和生成能力之间进行困难的权衡 [11],并且性能被我们的方法超越(第 4 节),而后者专注于高度结构化的图像,如人脸。
为了降低训练扩散模型进行高分辨率图像合成的计算需求,我们观察到,尽管扩散模型允许通过欠采样相应的损失项来忽略感知上不相关的细节 [30],但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了计算时间和能源资源的巨大需求。
我们提出通过明确分离压缩学习阶段和生成学习阶段(见图 2)来规避这一缺点。为了实现这一点,我们利用一个自编码模型,该模型学习一个在感知上与图像空间等效但在计算复杂度上显著降低的空间。
这种方法提供了几个优势:(i)通过离开高维图像空间,我们获得了在计算上更高效的扩散模型,因为采样是在低维空间上执行的。(ii)我们利用了扩散模型从其 UNet 架构 [71] 继承的归纳偏置,这使它们对具有空间结构的数据特别有效,因此减轻了先前方法 [23, 66] 所需的激进、降低质量的压缩级别的需求。(iii)最后,我们获得了通用的压缩模型,其潜在空间可用于训练多个生成模型,并且也可用于其他下游应用,例如单图像 CLIP 引导的合成 [25]。
[图片]
我们的感知压缩模型基于先前的工作 [23],由一个自编码器组成,该自编码器通过结合感知损失 [106] 和基于 patch 的 [33] 对抗目标 [20, 23, 103] 进行训练。这通过强制局部真实感确保重建结果被限制在图像流形上,并避免了仅依赖像素空间损失(如 L2 或 L1 目标)引入的模糊度。
更精确地说,给定 RGB 空间中的图像 $x \in R^{H \times W \times 3}$,编码器 $\mathcal{E}$ 将 $x$ 编码为潜在表示 $z = \mathcal{E}(x)$,解码器 $\mathcal{D}$ 从潜在表示重建图像,得到 $\tilde{x} = \mathcal{D}(z) = \mathcal{D}(\mathcal{E}(x))$,其中 $z \in R^{h \times w \times c}$。重要的是,编码器通过因子 $f=H/h=W/w$ 对图像进行下采样,我们研究了不同的下采样因子 $f=2^m$,其中 $m \in N$。
为了避免任意高方差的潜在空间,我们尝试了两种不同的正则化方法。第一种变体,KL-reg.,对学习到的潜在表示施加一个轻微的对标准正态分布的 KL 惩罚,类似于 VAE [46, 69];而 VQ-reg. 在解码器内使用一个向量量化层 [96]。该模型可以解释为 VQGAN [23],但量化层被解码器吸收。因为我们后续的扩散模型被设计为与我们学习到的潜在空间 $z=E(x)$ 的二维结构一起工作,所以我们可以使用相对温和的压缩率并实现非常好的重建。这与先前的工作 [23, 66] 形成对比,它们依赖于学习空间 $z$ 的任意一维排序来自回归地建模其分布,从而忽略了 $z$ 的大部分固有结构。因此,我们的压缩模型更好地保留了 $x$ 的细节(见表 8)。完整的目标函数和训练细节可以在补充材料中找到。
扩散模型 [82] 是概率模型,旨在通过逐渐去噪一个正态分布变量来学习数据分布 $p(x)$,这对应于学习一个长度为 $T$ 的固定马尔可夫链的逆过程。对于图像合成,最成功的模型 [15, 30, 72] 依赖于 $p(x)$ 的变分下界的一个重新加权变体,这反映了去噪分数匹配 [85]。这些模型可以解释为一系列同等加权的去噪自编码器 $\epsilon_{\theta}(x_t, t); t=1 \ldots T$,它们被训练来预测其输入 $x_t$ 的去噪版本,其中 $x_t$ 是输入 $x$ 的噪声版本。相应的目标可以简化为(附录 B):
$L_{DM} = \mathbb{E}{x, \epsilon \sim \mathcal{N}(0,1), t} \left[ | \epsilon - \epsilon{\theta}(x_t, t) |_2^2 \right], \qquad (1)$
其中 $t$ 从 ${1, \ldots, T}$ 中均匀采样。
潜在表示的生成建模
通过我们训练好的由 $\mathcal{E}$ 和 $\mathcal{D}$ 组成的感知压缩模型,我们现在可以访问一个高效、低维的潜在空间,其中高频的、难以察觉的细节被抽象掉了。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以(i)专注于数据的重要的、语义的部分,并且(ii)在更低维、计算上更高效的空间中进行训练。
与先前在高度压缩的离散潜在空间中依赖自回归、基于注意力的变换器模型的工作 [23, 66, 103] 不同,我们可以利用我们的模型提供的图像特定归纳偏置。这包括能够主要从 2D 卷积层构建底层 UNet 的能力,并进一步使用重新加权的边界将目标聚焦于感知上最相关的部分,该边界现在表示为:
$L_{LDM} := \mathbb{E}{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ | \epsilon - \epsilon{\theta}(z_t, t) |2^2 \right]. \qquad (2)$
我们模型的神经骨干 $\epsilon{\theta}(\circ, t)$ 被实现为一个时间条件化的 UNet [71]。由于前向过程是固定的,$z_t$ 可以在训练期间有效地从 $\mathcal{E}$ 获得,并且来自 $p(z)$ 的样本可以通过单次通过 $\mathcal{D}$ 解码到图像空间。
与其他类型的生成模型 [56, 83] 类似,扩散模型原则上能够对形式为 $p(z \mid y)$ 的条件分布进行建模。这可以通过一个条件去噪自编码器 $\epsilon_{\theta}(z_t, t, y)$ 来实现,并为通过输入 $y$(如文本 [68]、语义图 [33, 61] 或其他图像到图像转换任务 [34])控制合成过程铺平了道路。
然而,在图像合成的背景下,将 DMs 的生成能力与除类别标签 [15] 或输入图像的模糊变体 [72] 之外的其他类型的条件信息相结合,迄今为止仍是一个未被充分探索的研究领域。
我们通过在其底层 UNet 主干中引入交叉注意力机制 [97],将 DMs 转变为更灵活的条件图像生成器,该机制对于学习各种输入模态的基于注意力的模型是有效的 [35, 36]。为了预处理来自不同模态的 $y$(例如语言提示),我们引入一个领域特定的编码器 $\tau_{\theta}$,它将 $y$ 投影到一个中间表示 $\tau_{\theta}(y) \in \mathbb{R}^{M \times d_{\tau}}$,然后通过交叉注意力层映射到 UNet 的中间层,该层实现为:
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V,$
其中
$Q = W_Q^{(i)} \cdot \varphi_i(z_t), \quad K = W_K^{(i)} \cdot \tau_{\theta}(y), \quad V = W_V^{(i)} \cdot \tau_{\theta}(y).$
这里,$\varphi_i(z_t) \in \mathbb{R}^{N \times d_{\epsilon}^i}$ 表示实现 $\epsilon_{\theta}$ 的 UNet 的(展平的)中间表示,而 $W_V^{(i)} \in \mathbb{R}^{d \times d_{\epsilon}^i}, W_Q^{(i)} \in \mathbb{R}^{d \times d_{\tau}}$ 和 $W_K^{(i)} \in \mathbb{R}^{d \times d_{\tau}}$ 是可学习的投影矩阵 [36, 97]。视觉描述见图 3。
基于图像 - 条件对,我们然后通过以下方式学习条件 LDM:
$L_{LDM} := \mathbb{E}{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,1), t} \left[ | \epsilon - \epsilon{\theta}(z_t, t, \tau_{\theta}(y)) |2^2 \right], \qquad (3)$
其中 $\tau{\theta}$ 和 $\epsilon_{\theta}$ 通过公式 (3) 联合优化。这种条件机制非常灵活,因为 $\tau_{\theta}$ 可以用领域特定的专家进行参数化,例如当 $y$ 是文本提示时使用(未掩码的)变换器 [97](见第 4.3.1 节)。
潜在扩散模型(LDMs)为各种图像模态提供了灵活且计算上易于处理的基于扩散的图像合成方法,我们将在下文中通过实验进行实证展示。然而,首先,我们将我们的模型与基于像素的扩散模型在训练和推理方面的增益进行比较。有趣的是,我们发现,在 VQ 正则化的潜在空间中训练的 LDMs 有时能获得更好的样本质量,尽管 VQ 正则化的第一阶段模型的重建能力略逊于其连续对应模型,参见表 8。第一阶段正则化方案对 LDM 训练的影响及其对分辨率 >256²的泛化能力的视觉比较可以在附录 D.1 中找到。在 E.2 节中,我们列出了本节所有结果在架构、实现、训练和评估方面的详细信息。
本节分析了我们的 LDMs 在不同下采样因子 $f \in {1, 2, 4, 8, 16, 32}$(缩写为 LDM-f,其中 LDM-1 对应于基于像素的 DMs)下的行为。为了获得可比较的测试环境,我们将本小节所有实验的计算资源固定为单个 NVIDIA A100,并且所有模型训练相同的步数和参数数量。
[图片]
表 8 显示了本节比较的 LDMs 所使用的第一阶段模型的超参数和重建性能。图 6 显示了在 ImageNet [12] 数据集上,类别条件模型经过 2M 步训练后,样本质量随训练进度的变化函数。我们看到,i) LDM-{1,2}的小下采样因子导致训练进度缓慢,而 ii) 过大的 f 值在相对较少的训练步数后会导致保真度停滞不前。回顾上述分析(图 1 和 2),我们将其归因于 i) 将大部分感知压缩留给了扩散模型,以及 ii) 过于强烈的第一阶段压缩导致信息丢失,从而限制了可达到的质量。LDM-{4-16}在效率和感知上忠实的结果之间取得了良好的平衡,这在经过 2M 训练步数后,基于像素的扩散(LDM-1)和 LDM-8 之间 38 的显著 FID [29] 差距中体现出来。
[图片]
在图 7 中,我们比较了在 CelebA-HQ [39] 和 ImageNet 上训练的模型,针对不同去噪步数使用 DDIM 采样器 [84] 的采样速度,并将其与 FID 分数 [29] 进行对比绘图。LDM-{4-8}在感知压缩和概念压缩的不合适比率上优于其他模型。特别是与基于像素的 LDM-1 相比,它们在实现更低 FID 分数的同时,显著提高了样本吞吐量。像 ImageNet 这样的复杂数据集需要降低压缩率以避免质量下降。总之,LDM-4 和 -8 为获得高质量合成结果提供了最佳条件。
我们在 CelebA-HQ [39]、FFHQ [41]、LSUN-Churches 和-Bedrooms [102] 上训练了 256²图像的无条件模型,并评估了 i) 样本质量和 ii) 它们使用 ii) FID [29] 和 ii) 精确度与召回率 [50] 对数据流形的覆盖情况。表 1 总结了我们的结果。在 CelebA-HQ 上,我们报告了新的最先进 FID 分数 5.11,优于之前的基于似然的模型以及 GANs。我们还超过了 LSGM [93],后者是将潜在扩散模型与第一阶段联合训练的。相比之下,我们在固定空间中训练扩散模型,并避免了权衡潜在空间的重建质量与学习先验的困难,见图 1-2。
除了 LSUN-Bedrooms 数据集外,我们在所有数据集上的表现都优于先前的基于扩散的方法,在 LSUN-Bedrooms 上,我们的分数接近 ADM [15],尽管利用了其一半的参数并且需要少 4 倍的训练资源(见附录 E.3.5)。
此外,LDMs 在精确度和召回率方面持续改进了基于 GAN 的方法,从而证实了其基于模式覆盖的似然训练目标相对于对抗性方法的优势。在图 4 中,我们还展示了每个数据集的定性结果。
[图片]
[图片]
通过将基于交叉注意力的条件机制引入 LDM,我们为其开启了先前在扩散模型中未被探索的各种条件模态。对于文本到图像建模,我们在 LAION-400M [78] 数据集上训练了一个拥有 14.5 亿参数的 KL 正则化 LDM,该模型以语言提示为条件。我们采用 BERT 分词器 [14] 并将 $\tau_{\theta}$ 实现为一个变换器 [97],以推断出一个潜在代码,该代码通过(多头)交叉注意力层映射到 UNet 中(第 3.3 节)。这种结合领域特定专家学习语言表示和视觉合成的组合,产生了一个强大的模型,能够很好地泛化到复杂的、用户定义的文本提示,参见图 8 和图 5。为了进行定量分析,我们遵循先前的工作,在 MS-COCO [51] 验证集上评估文本到图像的生成,我们的模型优于强大的自回归 [17,66] 和基于 GAN 的方法 [109],参见表 2。我们注意到,应用无分类器扩散引导 [32] 极大地提升了样本质量,使得引导后的 LDM-KL-8-G 在文本到图像合成方面与最新的最先进自回归 [26] 和扩散模型 [59] 性能相当,同时显著减少了参数数量。为了进一步分析基于交叉注意力的条件机制的灵活性,我们还训练了基于 OpenImages [49] 上的语义布局合成图像的模型,并在 COCO [4] 上进行了微调,见图 8。定量评估和实现细节见第 D.3 节。
[图片]
[图片]
最后,遵循先前的工作 [3,15,21,23],我们在表 3、图 4 和第 D.4 节中评估了我们在第 4.1 节中在 ImageNet 上训练的、性能最佳的类条件模型($f \in {4,8}$)。在这里,我们的性能超过了最先进的扩散模型 ADM [15],同时显著降低了计算需求和参数数量,参见表 18。
[图片]
通过将空间对齐的条件信息连接到 $\epsilon$ 的输入,LDM 可以作为高效的通用图像到图像转换模型。我们利用这一点来训练语义合成、超分辨率(第 4.4 节)和修复(第 4.5 节)的模型。对于语义合成,我们使用与语义配对的景观图像 [23,61],并将语义图的下采样版本与 $f=4$ 模型(VQ-reg.,参见表 8)的潜在图像表示进行拼接。我们在 256²的输入分辨率(从 384²裁剪而来)上进行训练,但我们发现我们的模型能够泛化到更大的分辨率,并且当以卷积方式进行评估时,可以生成高达百万像素级别的图像(见图 9)。我们利用这种特性,将第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型应用于生成介于 512²和 1024²之间的大图像。对于此应用,信噪比(由潜在空间的尺度引起)显著影响结果。在第 D.1 节中,当在以下两种情况下学习 LDM 时,我们说明了这一点:(i) 由 $f=4$ 模型(KL-reg.,参见表 8)提供的潜在空间,以及 (ii) 按分量标准差重新缩放的版本。
[图片]
后者与无分类器引导 [32] 结合,也使得文本条件的 LDM-KL-8-G 能够直接合成 >256²的图像,如图 13 所示。
[图片]
[图片]
LDM 可以通过连接(参见第 3.3 节)直接以低分辨率图像为条件,进行高效的超分辨率训练。在第一个实验中,我们遵循 SR3 [72],将图像退化固定为使用 4 倍下采样的双三次插值,并按照 SR3 的数据处理流程在 ImageNet 上进行训练。我们使用在 OpenImages 上预训练的 $f=4$ 自编码模型(VQ-reg.,参见表 8),并将低分辨率条件 $y$ 和输入连接到 UNet,即 $\tau_{\theta}$ 是恒等映射。我们的定性和定量结果(见图 10 和表 5)显示了具有竞争力的性能,LDM-SR 在 FID 上优于 SR3,而 SR3 具有更好的 IS。一个简单的图像回归模型实现了最高的 PSNR 和 SSIM 分数;然而,这些指标与人类感知 [106] 的一致性不佳,并且倾向于模糊而不是未完美对齐的高频细节 [72]。此外,我们进行了一项用户研究,比较像素基线模型与 LDM-SR。我们遵循 SR3 [72] 的方案,向人类受试者显示一张低分辨率图像和两张高分辨率图像,并要求他们选择偏好。表 4 中的结果证实了 LDM-SR 的良好性能。PSNR 和 SSIM 可以通过使用后置引导机制 [15] 来提升,我们通过感知损失实现了一种基于图像的引导器,详见第 D.6 节。
[图片]
由于双三次退化过程不能很好地泛化到不遵循此预处理的图像,我们还通过使用更丰富/多样化的退化方式训练了一个通用模型 LDM-BSR。结果在第 D.6.1 节中展示。
[图片]
图像修复的任务是用新内容填充图像的掩码区域,可能是因为图像部分损坏或替换图像中现有但不希望的内容。我们评估了我们用于条件图像生成的通用方法与针对此任务的更专业的、最先进的方法相比如何。我们的评估遵循 LaMa [88] 的方案,这是一个最近的修复模型,引入了依赖快速傅里叶卷积 [8] 的专用架构。在 Places [108] 上的确切训练和评估协议在第 E.2.2 节中描述。
我们首先分析了第一阶段不同设计选择的效果。特别是,我们比较了 LDM-1(即基于像素的条件 DM)与 LDM-4 的修复效率,包括 KL 和 VQ 正则化,以及第一阶段没有任何注意力的 VQ-LDM-4(参见表 8),后者减少了高分辨率解码时的 GPU 内存。为了可比性,我们固定了所有模型的参数数量。表 6 报告了在分辨率 256²和 512²下的训练和采样吞吐量、每轮 epoch 的总训练时间(小时)以及六个 epoch 后在验证集上的 FID 分数。总体而言,我们观察到基于像素和基于潜在的扩散模型之间至少有 2.7 倍的加速,同时将 FID 分数提高了至少 1.6 倍。
表 7 中与其他修复方法的比较表明,我们带注意力的模型通过 FID 衡量,整体图像质量优于 [88]。未掩码图像与我们的样本之间的 LPIPS 略高于 [88]。我们将此归因于 [88] 只产生单个结果,该结果倾向于恢复更接近平均图像的內容,而我们的 LDM 产生多样化的结果,参见图 21。此外,在一项用户研究(表 4)中,人类受试者更倾向于我们的结果而非 [88] 的结果。
[图片]
基于这些初步结果,我们还在无注意力的 VQ 正则化第一阶段的潜在空间中训练了一个更大的扩散模型(表 7 中的

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online