跳到主要内容深入解析 Stable Diffusion 基石:潜在扩散模型(LDMs) | 极客日志编程语言AI算法
深入解析 Stable Diffusion 基石:潜在扩散模型(LDMs)
综述由AI生成深入解析了潜在扩散模型(LDMs),这是 Stable Diffusion 的核心基础。文章指出传统高分辨率图像生成面临质量、效率与可控性的“不可能三角”。LDMs 通过感知压缩自编码器和潜在空间扩散模型解决了这一问题,将计算成本降低数量级。核心架构包括专用自编码器构建低维潜在空间、时间条件化 U-Net 进行去噪、以及基于交叉注意力的通用条件机制支持多模态控制。实验表明 LDMs 在图像合成、超分辨率和修复任务上达到先进水平,同时显著降低了训练和推理资源需求,推动了扩散模型的平民化与产业化。
萤火微光21 浏览 一、技术解读:潜在扩散模型——高分辨率图像合成的范式革命
1.1 核心动机:破解'质量 - 效率 - 可控性'的不可能三角
在潜在扩散模型(Latent Diffusion Models, LDMs)出现之前,高分辨率图像生成领域长期存在一个'不可能三角':生成质量、计算效率、可控性难以兼得。
- GANs:能快速生成高质量图像,但训练极其不稳定,易出现模式崩溃(多样性差),且实现复杂条件的可控生成需要为不同任务设计特定架构,工程化成本极高。
- VAEs:训练稳定、架构简单,但其优化目标过度依赖像素级损失 + 强正则化,导致生成图像模糊、细节丢失严重,无法满足高保真生成需求。
- 像素空间扩散模型(DMs):生成质量顶尖,并支持无需重新训练的灵活引导(如修复、上色、超分),但其在百万维度的像素空间中直接进行迭代去噪,导致训练成本(通常需数百个 GPU 天)和推理成本(生成一张图需数分钟)高昂,仅能在超算中心或大厂落地,难以向研究界和普通开发者普及。
LDMs 的破局思路堪称'四两拨千斤':将复杂的图像生成任务'分而治之',做专业的事交给专业的模块。其核心洞察是,图像的信息构成存在明显分层:一层是人类视觉难以察觉、模型建模却耗时的像素级冗余细节(如微小的纹理噪点、像素级的色彩波动);另一层是决定图像核心内容的语义概念信息(如物体的形状、布局、类别、场景逻辑)。让一个单一模型在超高维像素空间里同时学习这两类信息,是效率低下的根本原因。
LDMs 的核心创新在于将图像生成过程解耦为两个高度专门化、可独立优化的阶段:
- 感知压缩阶段:训练一个强大的专用自编码器,专门负责将高维像素图像高效压缩为低维潜在表示。这个表示就像一份高压缩比、高保真的'数字底片',在人类视觉感知上与原始图像完全等效,但数据量骤降,计算友好性大幅提升。
- 生成学习阶段:在低维潜在空间中训练一个专用扩散模型,让其彻底摆脱像素级冗余细节的建模负担,专注于学习图像的语义概念分布和内容生成。
通过这种模块化分工与空间迁移,LDMs 首次在不牺牲生成质量和多样性的前提下,实现了计算效率的数量级提升,并因其架构设计天然支持强大的多模态可控性,一举破解了高分辨率图像生成的'不可能三角'。
1.2 核心技术架构解析

1.2.1 感知压缩:构建高质量的'数字底片'仓库
LDMs 的第一阶段是一个经过极致优化的自编码器,其核心目标不是简单的图像压缩,而是学习一个与像素空间感知等效、适合生成任务的低维潜在空间,本质是打造一个高质量的'数字底片'仓库。
给定一张 RGB 像素图像 $x \in \mathbb{R}^{H \times W \times 3}$,编码器 $\mathcal{E}$ 会通过卷积下采样将其编码为潜在表示 $z = \mathcal{E}(x) \in \mathbb{R}^{h \times w \times c}$,其中下采样因子$f=H/h=W/w$ 是平衡效率与质量的核心超参数(通常为 $f=2^m, m\in \mathbb{N}$);解码器 $\mathcal{D}$ 则通过转置卷积上采样,从潜在表示 $z$ 中重建出与原图感知一致的图像 $\tilde{x} = \mathcal{D}(z) \approx x$。
关键设计与核心优势(对比 VAE/VQGAN/传统压缩):
- 超越像素的感知重建目标:告别模糊,保留细节
传统 VAE 的损失函数 $L_{VAE} = \| x - D(E(x)) \|{Autoencoder} = L_{recon} (e.g., L1) + \lambda_{gan} L_{gan} + \lambda_{LPIPS} L_{LPIPS}$
2^2 + \beta \cdot KL( q(z|x) \| p(z) )$ 存在两大致命问题:一是像素级 MSE 损失会平均化像素值,导致图像过度平滑、细节丢失;二是强 KL 正则化强制潜在空间服从标准正态分布,牺牲了图像的特征表达能力。LDMs 的自编码器采用复合损失函数,彻底摒弃了'像素级一致'的误区,转而追求视觉感知一致,让重建图像既保语义又保细节:
$L
- 基础重建损失(L1):仅作为基础约束,避免重建图像与原图出现大幅偏差,比 MSE 更能保留图像的边缘和细节。
- 感知损失(L_LPIPS):利用预训练 VGG 网络提取图像的高层语义特征,比较重建图与原图在特征空间的差异,而非像素空间。这迫使模型优先保留对人类视觉最重要的语义、结构、光影信息,而非无意义的像素波动。
- 基于 Patch 的对抗损失(L_gan):采用 PatchGAN 判别器,仅判断图像局部小区域(Patch)的真伪,而非整张图。这比传统 GAN 的全局判别更稳定,能有效促进局部细节的真实感(如毛发、纹理、光影),同时避免模式崩溃。
- 通俗类比:VAE 像是'照着描红',只求像素轮廓的大致匹配,画出来的图呆板模糊;LDMs 的自编码器如同'专业画家写生',既保物体的轮廓形似,更求光影、纹理的神似,还原的图像鲜活且细节丰富。
下采样因子 f 的黄金选择:效率与质量的最优平衡
下采样因子 $f$ 直接决定了潜在空间的维度和细节保留能力,LDMs 通过大量系统实验发现,$f=4$ 或 $8$ 是高分辨率生成的黄金值,这一选择远优于同期的 VQGAN 等模型:
- VQGAN 为了适配自回归 Transformer 的序列建模,采用激进压缩($f=16$ 甚至 32),导致潜在空间丢失大量细节,生成图像存在明显的'块效应';
- LDMs 的 $F=4/8$ 属于温和压缩,既将数据量降至原来的 1/16 或 1/64(如 512×512 的图像压缩为 128×128 或 64×64),实现计算效率的大幅提升,又能在潜在空间中保留生成百万像素级高保真图像所需的足够细节。
- 任务适配性:$f=4$ 更适合超分辨率、图像修复等需要精细细节的任务,$f=8$ 更适合文生图、无条件生成等追求效率和多样性的任务,兼顾不同场景需求。
灵活的轻量正则化策略:适配不同生成需求
为避免潜在空间方差过大、特征分布混乱,导致后续扩散模型难以训练,LDMs 设计了两种轻量正则化方案,而非 VAE 的强 KL 正则化,既保证潜在空间的平滑性,又不损失特征表达能力:
- KL 正则化(KL-reg.):对潜在表示施加轻微的 KL 惩罚,使其近似服从标准正态分布,惩罚强度远低于 VAE。优势是潜在空间更平滑、连续性更好,能生成更多样的结果,适合文本到图像、布局到图像等需要丰富多样性的多模态任务。
- 向量量化正则化(VQ-reg.):在解码器输入端引入向量量化层,将连续的潜在表示离散化为有限个预训练向量的组合。优势是生成结果更稳定、可控性更强,适合无条件图像生成、图像修复等对稳定性要求高的任务。
- 核心创新:不同于 VQ-VAE 将量化层置于编码器后(导致编码阶段就丢失信息,形成信息瓶颈),LDMs 将量化层放在解码器,让编码器尽可能保留图像特征,实现了离散化表示与高细节保留的兼顾。
通用可复用性:一次训练,全场景适配
该自编码器是任务无关的通用模块,训练好后可作为独立的'图像编解码工具',服务于多个扩散模型的训练(如文生图、图生图、超分、修复可复用同一个自编码器),也可用于其他下游计算机视觉任务(如 CLIP 引导的图像编辑、图像检索)。这种'一次训练,多次复用'的特性,大幅降低了研发成本,是 LDMs 能快速落地的重要原因。1.2.2 潜在扩散:在'精装小户型'里高效'创作'
这是 LDMs 的灵魂核心,也是其区别于传统像素级扩散模型的根本。其核心思想是将扩散模型的强大生成能力,从'毛坯大平层'的像素空间,搬迁到'精装小户型'的潜在空间中——空间更小、计算更高效,且无需操心'装修细节'(像素级冗余),可专注于'内容创作'(语义生成)。
传统像素级扩散模型的核心损失函数为:
$L_{DM} = \mathbb{E}{x, \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon{\theta}(x_t, t) \|_2^2 \right]$
LDMs 将这一核心逻辑无缝迁移至低维潜在空间,损失函数仅做操作对象的替换,无任何结构修改:
$L_{LDM} = \mathbb{E}{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon{\theta}(z_t, t) \|_2^2 \right]$
- $z = \mathcal{E}(x)$ 是第一阶段得到的'数字底片',$z_t$ 是 $z$ 在扩散过程第 $t$ 步的加噪版本,扩散的前向加噪、反向去噪过程与像素空间完全一致;
- 两个公式在数学形式上完全一致,意味着 LDMs 可直接复用传统扩散模型的训练框架、优化策略和采样方法,无需重新设计复杂算法,降低了研发和落地成本;
- 核心质变:操作空间的维度发生了天翻地覆的变化。在 $f=8$ 时,$z$ 的维度仅为 $x$ 的 1/64,这意味着去噪 U-Net $\epsilon_{\theta}$ 需要处理的数据量急剧减少,带来训练速度和采样速度的数量级提升(训练成本降至原来的 1/10 甚至 1/100,采样速度提升数倍)。
- 对比 GAN:扩散模型通过逐步去噪学习数据的真实分布,本质是基于似然的模型,能更全面地覆盖数据分布,从根源上避免了 GAN 的模式崩溃、训练不稳定问题,生成的图像多样性和语义一致性更优;
- 对比 VAE:VAE 的生成能力依赖解码器的简单上采样,表达能力有限;而 LDMs 的扩散模型是强大的深度生成模型,能在潜在空间中学习到更复杂的语义分布,生成的图像细节、质感远优于 VAE;
- 对比传统像素扩散:在生成质量基本持平甚至更优的前提下,实现了训练和推理效率的数量级提升,让扩散模型从'大厂专属'走向'全民可用'。
- 神经骨干:时间条件化 U-Net——适配空间结构的最优选择
采用卷积神经网络 U-Net作为去噪骨干,而非自回归 Transformer,这是 LDMs 针对图像生成的精准设计:U-Net 的固有归纳偏置使其对图像的二维空间结构具有天然的契合度,通过下采样提取语义特征 + 上采样还原空间细节 + 跳跃连接保留局部信息,能高效建模图像的空间关联;而 Transformer 将图像视为一维序列,丢失了空间结构信息,计算成本更高。同时,U-Net 引入时间步嵌入(Time Embedding):将扩散步数 $t$ 通过正弦余弦编码转化为高维向量,融入 U-Net 的每一层,让模型能精准知晓当前的去噪进度,从而动态调整去噪策略(如前期去粗噪、后期去细噪),提升去噪精度。
- 高效采样流程:两步走,把耗时操作留在低维空间
LDMs 的采样过程分为两个步骤,将最耗时的迭代去噪放在低维潜在空间,解码器仅需一次前向传播,实现了效率的质的飞跃:
- 潜在空间迭代去噪:从标准正态分布的噪声 $z_T$ 开始,利用训练好的 $\epsilon_{\theta}$ 逐步预测并减去噪声,经过 $T$ 步后得到干净的潜在表示 $z_0$。此过程在低维空间进行,每一步的计算量极小,即使是 1000 步迭代,耗时也远低于像素空间的 10 步迭代。
- 解码器一步重建:使用第一阶段训练好的解码器 $\mathcal{D}$,将干净的潜在表示 $z_0$单次前向传播即可解码为高清像素图像。解码器的上采样是纯卷积操作,速度极快。
- 进阶优化:结合 DDIM、PLMS 等快速采样策略,可将去噪步数从 1000 步降至 20/50 步,采样速度进一步提升,让 LDMs 能实现近实时生成,这也是 Stable Diffusion 能在普通显卡上运行的关键。
1.2.3 条件机制:用'多模态蓝图'精准控制生成
为实现文生图、图生图、语义图到图像等复杂的可控生成任务,LDMs 引入了基于交叉注意力(Cross-Attention) 的通用条件机制,这是其对比前代模型(GAN/VAE/传统扩散)的又一巨大飞跃,也是 Stable Diffusion 能支持多模态可控生成的核心原因。
条件化的核心目标函数:
$L_{LDM} = \mathbb{E}{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,I), t} \left[ \| \epsilon - \epsilon{\theta}(z_t, t, \tau_{\theta}(y)) \|_2^2 \right]$
其中 $y$ 是任意模态的条件信息(如文本提示、语义图、深度图、边缘图),$\tau_{\theta}$ 是领域特定编码器(如文本用 CLIP 文本编码器、语义图用卷积编码器),其作用是将不同模态的条件信息映射为统一维度的中间表示$\tau_{\theta}(y) \in \mathbb{R}^{M \times d_{\tau}}$,实现多模态输入的'标准化';随后,该中间表示通过交叉注意力层注入到 U-Net 的各个层级,实现条件信息与图像特征的深度融合。
交叉注意力机制详解:让模型'看懂蓝图,精准创作'
交叉注意力的核心公式为:
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d}}\right) \cdot V$
在 LDMs 的上下文里,该公式的每个组件都有明确的物理意义,本质是让模型根据条件信息,为图像的每个位置精准分配生成依据:
- $Q = W_Q^{(i)} \cdot \varphi_i(z_t)$:查询(Query)向量,由 U-Net 第 $i$ 层的潜在特征 $\varphi_i(z_t)$ 通过可学习投影矩阵 $W_Q^{(i)}$ 映射而来,维度为 $\mathbb{R}^{N \times d}$。$N$ 是潜在特征的空间位置数,$d$ 是注意力维度。$Q$ 的核心含义是:图像的这个位置,需要什么样的生成信息?
- $K = W_K^{(i)} \cdot \tau_{\theta}(y)$, $V = W_V^{(i)} \cdot \tau_{\theta}(y)$:键(Key)和值(Value)向量,均由编码后的条件信息 $\tau_{\theta}(y)$ 通过可学习投影矩阵 $W_K^{(i)}/W_V^{(i)}$ 映射而来,维度均为 $\mathbb{R}^{M \times d}$。$M$ 是条件信息的单元数(如文本的单词数、语义图的类别数)。$K$ 的核心含义是:条件信息提供了哪些生成依据?$V$ 的核心含义是:每个生成依据对应的具体细节特征是什么?
交叉注意力的工作流程:从'蓝图'到'作品'的精准映射
交叉注意力层并非简单的特征拼接,而是特征级的深度融合,让条件信息能精准引导图像的每个位置生成,工作流程可分为四步,每一步都有明确的物理意义:
- 相关性计算($QK^T/\sqrt{d}$):计算图像每个位置的查询向量 $Q$ 与条件信息每个单元的键向量 $K$ 的点积,并除以 $\sqrt{d}$ 做维度缩放,得到相关性矩阵$\mathbb{R}^{N \times M}$。该矩阵的每个元素代表:图像的第 $n$ 个位置,与条件信息的第 $m$ 个单元的相关程度。比如文生图中,图像的'猫'区域与提示词中的'猫'单词相关性会趋近于 1,与'狗'单词相关性趋近于 0。
- 注意力权重归一化(softmax):对相关性矩阵做 softmax 归一化,得到注意力权重图$\mathbb{R}^{N \times M}$,权重值在 0~1 之间,且每行之和为 1。该权重图清晰地指示了:生成图像的第 $n$ 个位置时,模型应该重点关注条件信息的哪些单元。比如文生图中,生成猫的头部时,模型会将 90% 以上的注意力分配给提示词中的'猫''头部'等单词。
- 条件特征融合($\cdot V$):将注意力权重图与条件信息的值向量 $V$ 做矩阵乘法,得到条件化的图像特征向量$\mathbb{R}^{N \times d}$。该向量的核心含义是:根据条件信息,图像的第 $n$ 个位置应该生成的具体特征。比如文生图中,该向量会融合'猫的头部是白色的、有蓝色眼睛'等细节信息。
- 引导去噪生成:将条件化的图像特征向量送回到 U-Net 的解码器层,与原始的潜在特征融合,精准引导该层的去噪过程。通过在 U-Net 的多个层级(浅层、中层、深层)插入交叉注意力层,实现对图像生成的全流程引导。
交叉注意力的层级设计:分层引导,兼顾布局与细节
LDMs 在 U-Net 的浅层、中层、深层分别插入交叉注意力层,不同层级的引导侧重点不同,实现了布局 + 语义 + 细节的全维度精准引导,这是其可控性远超前代模型的关键:
- 浅层交叉注意力:对应图像的低维特征,主要关注图像的空间布局、轮廓、边缘。比如文生图中,浅层会引导'猫在沙发上'的空间位置关系,让猫出现在沙发上,而非地板上。
- 中层交叉注意力:对应图像的中维特征,主要关注图像的语义类别、物体形状。比如文生图中,中层会引导'猫是布偶猫、沙发是真皮沙发'的物体类别和形状特征。
- 深层交叉注意力:对应图像的高维特征,主要关注图像的细节纹理、光影色彩。比如文生图中,深层会引导'猫的毛发是蓬松的、沙发是米白色的、光影从左侧照来'的细节特征。
通用条件机制的核心威力:一个架构,适配所有模态
该条件机制为 LDMs 提供了一个万能的多模态接口,具有两大核心优势,使其远超 GAN/VAE 的条件生成能力:
- 模态无关性:无论条件信息是文本、语义图、深度图、边缘图、布局框,只需为其设计一个简单的领域特定编码器 $\tau_{\theta}$,将其映射为统一维度的中间表示,即可接入 LDMs 的生成流程,无需像 GAN 那样为每种条件设计不同的生成器/判别器架构,工程化成本极低。
- 端到端联合优化:领域特定编码器 $\tau_{\theta}$ 与去噪 U-Net $\epsilon_{\theta}$ 通过上述损失函数端到端联合训练,让条件信息与图像特征的融合更紧密,引导更精准,生成的图像与条件信息的一致性远高于传统的'特征拼接'方式。
这一设计的灵活性和强大性能,是 Stable Diffusion 能快速衍生出文生图、图生图、超分、修复、控图(OpenPose/Depth/Inpaint)等众多功能的核心原因,也是其能风靡全球的关键。
1.3 核心创新与技术价值:扩散模型的平民化与产业化
LDMs 并非对扩散模型的简单修改,而是对高分辨率图像生成范式的重构,其核心创新并非单一技术点,而是模块化设计、空间迁移、通用条件机制的有机结合,带来了一系列里程碑式的技术价值,直接推动了扩散模型从'学术研究'走向'工业落地'和'全民可用':
- 首次实现扩散模型的效率革命:通过将扩散模型迁移至潜在空间,在不牺牲生成质量的前提下,将训练和推理成本降至原来的 1/10 甚至 1/100,让扩散模型能在普通消费级显卡(如 RTX 3060/4090)上训练和运行,实现了扩散模型的平民化。
- 破解了图像生成的不可能三角:首次在高分辨率图像生成中,同时实现了高生成质量、高计算效率、强多模态可控性,解决了 GAN/VAE/传统扩散各自的致命缺陷,成为新一代图像生成的基准范式。
- 模块化设计的工程化价值:将图像生成解耦为感知压缩和生成学习两个独立模块,每个模块可独立优化、一次训练、多次复用,大幅降低了研发和落地成本,让开发者能快速基于预训练的自编码器,开发出不同场景的生成模型。
- 多模态可控生成的通用框架:基于交叉注意力的通用条件机制,为图像生成提供了一个模态无关的万能接口,适配文本、视觉、几何等所有模态的条件输入,成为后续所有扩散模型可控生成的标准设计。
1.4 客观局限性:技术的边界与未来方向
LDMs 虽实现了图像生成的范式革命,但并非完美的技术,仍存在一些固有局限性,也为后续的研究指明了方向:
- 顺序采样仍有耗时:尽管采样效率大幅提升,但扩散模型的顺序迭代去噪本质仍比 GAN 的'一步生成'耗时,即使结合快速采样策略,生成一张高清图仍需数秒,难以满足实时交互(如视频生成、游戏渲染)的需求。
- 生成质量受限于自编码器:LDMs 的生成质量存在天花板——由自编码器的重建质量决定。如果自编码器的重建图像存在细节丢失,扩散模型也无法生成超出其能力的细节。
- 高分辨率生成的显存限制:尽管潜在空间降低了计算量,但生成百万像素级(如 2048×2048)的图像时,解码器的上采样仍会带来较大的显存消耗,需要依赖分层生成、拼图生成等策略。
- 条件引导的精准性仍有提升空间:文生图等任务中,模型仍可能出现'文字理解偏差''物体遗漏/多余''空间关系错误'等问题,如何提升模型对条件信息的理解能力,仍是后续的研究重点。
这些局限性也推动了后续的技术演进,如扩散模型的加速采样(DDIM/PLMS/DDPM-solver)、分层潜在扩散、高分辨率自编码器、大语言模型与扩散模型的融合(LLaMA/GLM+SD)等,让图像生成技术不断向更高效、更精准、更高清的方向发展。
最后需要明确的是,LDMs 是理论基础,Stable Diffusion 是 LDMs 的工业落地实现:Stable Diffusion 完全基于 LDMs 的核心架构,在其基础上做了一系列工程化优化(如模型轻量化、快速采样、多模态控图、开源生态建设),将 LDMs 的理论优势转化为可实际使用的产品,让普通用户能在消费级显卡上体验到高保真的多模态图像生成能力。没有 LDMs 的范式创新,就没有 Stable Diffusion 的诞生;而 Stable Diffusion 的开源和普及,又进一步推动了 LDMs 的研究和演进,形成了理论研究与工业落地的良性循环。
二、论文翻译:High-Resolution Image Synthesis with Latent Diffusion Models (高分辨率图像合成与潜在扩散模型)
0 摘要
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,它们的公式允许一种引导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间操作,强大 DMs 的优化往往消耗数百个 GPU 天,且推理因顺序评估而昂贵。为了在有限计算资源上实现 DM 训练,同时保持其质量和灵活性,我们将其应用于强大预训练自编码器的潜在空间。与先前工作相比,在这种表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近最优平衡,大大提升了视觉保真度。通过将交叉注意力层引入模型架构,我们将扩散模型转变为强大且灵活的生成器,用于一般条件输入(如文本或边界框),并以卷积方式实现高分辨率合成。我们的潜在扩散模型(LDMs)在图像修复和类条件图像合成上达到了新的最先进分数,并在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上表现出高度竞争力,同时与基于像素的 DMs 相比显著降低了计算需求。
1 引言
图像合成是计算机视觉领域中近期发展最为惊人的方向之一,但同时也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成,目前主要依赖于扩大基于似然的模型,这些模型在自回归变换器中可能包含数十亿参数 [66, 67]。相比之下,GANs [3, 27, 40] 所展现出的有前景的结果已被揭示主要局限于变异性相对有限的数据,因为它们的对抗学习过程不易扩展到对复杂多模态分布进行建模。最近,由去噪自编码器层次结构构建的扩散模型 [82] 在图像合成 [30, 85] 及其他领域 [7, 45, 48, 57] 已显示出令人印象深刻的结果,并在类条件图像合成 [15, 31] 和超分辨率 [72] 方面定义了最先进的技术。此外,与其他类型的生成模型 [19, 46, 69] 不同,即使是无条件 DMs 也可以轻松应用于修复和着色 [85] 或基于笔画的合成 [53] 等任务。作为基于似然的模型,它们不会像 GANs 那样出现模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以对自然图像的复杂分布进行建模,而无需像 AR 模型 [67] 那样涉及数十亿参数。
高分辨率图像合成的民主化
DMs 属于基于似然的模型类别,其模式覆盖行为使它们倾向于花费过多的容量(以及计算资源)来建模数据中难以察觉的细节 [16, 73]。尽管重新加权的变分目标 [30] 旨在通过欠采样初始去噪步骤来解决这个问题,但 DMs 仍然需要大量计算,因为训练和评估这样的模型需要在 RGB 图像的高维空间中进行重复的函数评估(和梯度计算)。例如,训练最强大的 DMs 通常需要数百个 GPU 天(例如,[15] 中为 150-1000 个 V100 天),并且在输入空间的噪声版本上进行重复评估也使得推理成本高昂,因此在单个 A100 GPU 上产生 5 万个样本大约需要 5 天 [15]。这对研究界和普通用户来说有两个后果:首先,训练这样的模型需要大量的计算资源,只有该领域的一小部分人能够获得,并且会留下巨大的碳足迹 [65, 86]。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须顺序运行大量步骤(例如,[15] 中为 25-1000 步)。
为了提高这个强大模型类别的可访问性,同时减少其显著的资源消耗,需要一种能够降低训练和采样计算复杂度的方法。因此,在不损害其性能的情况下降低 DMs 的计算需求是增强其可访问性的关键。
我们的方法始于分析像素空间中已训练的扩散模型:图 2 展示了一个已训练模型的率失真权衡。与任何基于似然的模型一样,学习可以大致分为两个阶段:首先是感知压缩阶段,该阶段去除高频细节,但仍学习很少的语义变化。在第二阶段,实际的生成模型学习数据的语义和概念构成(语义压缩)。因此,我们的目标是首先找到一个感知上等价但计算上更合适的空间,在该空间中我们将训练扩散模型以进行高分辨率图像合成。
遵循常见实践 [11, 23, 66, 67, 96],我们将训练分为两个不同的阶段:首先,我们训练一个自编码器,它提供一个较低维(因此更高效)的表示空间,该空间在感知上与数据空间等价。重要的是,与先前的工作 [23, 66] 相比,我们不需要依赖过度的空间压缩,因为我们在学习到的潜在空间中训练 DMs,该空间在空间维度方面展现出更好的缩放特性。降低的复杂度还使得通过单次网络前向传播即可从潜在空间高效生成图像。我们将得到的模型类别称为潜在扩散模型(LDMs)。
这种方法的一个显著优势是,我们只需要训练一次通用的自编码阶段,因此可以将其重用于多个 DM 训练或探索可能完全不同的任务 [81]。这使得能够高效探索大量用于各种图像到图像和文本到图像任务的扩散模型。对于后者,我们设计了一种架构,将变换器连接到 DM 的 UNet 主干 [71],并支持任意类型的基于令牌的条件机制,见第 3.3 节。
总之,我们的工作做出了以下贡献:
(i) 与纯粹的基于变换器的方法 [23, 66] 相比,我们的方法能更优雅地扩展到更高维度的数据,因此可以 (a) 在比先前工作(见图 1)提供更逼真和详细重建的压缩水平上工作,并且 (b) 可以高效地应用于百万像素图像的高分辨率合成。
(ii) 我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推理成本。
(iii) 我们表明,与先前同时学习编码器/解码器架构和基于分数的先验的工作 [93] 不同,我们的方法不需要精细地权衡重建和生成能力。这确保了极其逼真的重建,并且只需要对潜在空间进行很少的正则化。
(iv) 我们发现,对于密集条件的任务,如超分辨率、修复和语义合成,我们的模型可以以卷积方式应用,并渲染大的、一致的~1024²像素的图像。
(v) 此外,我们设计了一个基于交叉注意力的通用条件机制,支持多模态训练。我们用它来训练类条件、文本到图像和布局到图像模型。
(vi) 最后,我们在 https://github.com/CompVis/latent-diffusion 发布了预训练的潜在扩散和自编码模型,这些模型可能适用于除 DM 训练之外的多种任务 [81]。
2 相关工作
图像合成的生成模型
图像的高维特性对生成建模提出了独特的挑战。生成对抗网络(GAN)[27] 允许高效采样具有良好感知质量的高分辨率图像 [3, 42],但难以优化 [2, 28, 54] 并且难以捕捉完整的数据分布 [55]。相比之下,基于似然的方法强调良好的密度估计,这使得优化行为更佳。变分自编码器(VAE)[46] 和基于流的模型 [18, 19] 能够高效合成高分辨率图像 [9, 44, 92],但样本质量不及 GANs。虽然自回归模型(ARM)[6, 10, 94, 95] 在密度估计方面取得了强大性能,但计算密集的架构 [97] 和顺序采样过程限制了它们只能用于低分辨率图像。由于基于像素的图像表示包含几乎不可感知的高频细节 [16, 73],最大似然训练会花费不成比例的能力来对其建模,导致训练时间过长。为了扩展到更高分辨率,一些两阶段方法 [23, 67, 101, 103] 使用 ARMs 来对压缩的潜在图像空间而不是原始像素进行建模。
最近,扩散概率模型(DM)[82] 在密度估计 [45] 和样本质量 [15] 方面都达到了最先进的结果。当这些模型的基础神经主干被实现为 U-Net [15, 30, 71, 85] 时,其生成能力源于对类图像数据归纳偏置的天然契合。当使用重新加权的目标函数 [30] 进行训练时,通常能达到最佳合成质量。在这种情况下,DM 对应于一个有损压缩器,并允许在图像质量和压缩能力之间进行权衡。然而,在像素空间中评估和优化这些模型的缺点是推理速度慢和训练成本非常高。虽然前者可以通过先进的采样策略 [47, 75, 84] 和分层方法 [31, 93] 得到部分解决,但在高分辨率图像数据上的训练总是需要计算昂贵的梯度。我们通过提出的 LDMs 来解决这两个缺点,LDMs 在维度更低的压缩潜在空间上工作。这使得训练在计算上更便宜,并且几乎不降低合成质量的情况下加速了推理(见图 1)。
两阶段图像合成
为了减轻单个生成方法的缺点,大量研究 [11, 23, 67, 70, 101, 103] 通过两阶段方法将不同方法的优点结合到更高效和性能更好的模型中。VQ-VAEs [67, 101] 使用自回归模型来学习离散化潜在空间上的表达性先验。[66] 通过学习离散化图像和文本表示上的联合分布,将这种方法扩展到文本到图像生成。更一般地,[70] 使用条件可逆网络来提供不同领域潜在空间之间的通用转换。与 VQ-VAEs 不同,VQGANs [23, 103] 在第一阶段采用对抗性和感知目标,将自回归变换器扩展到更大的图像。然而,为可行的 ARM 训练所需的高压缩率(这引入了数十亿可训练参数 [23, 66])限制了此类方法的整体性能,而较低的压缩率则伴随着高计算成本的代价 [23, 66]。我们的工作避免了这种权衡,因为我们提出的 LDMs 由于其卷积主干,能更温和地扩展到更高维的潜在空间。因此,我们可以自由选择压缩级别,以在保证高保真重建的同时(见图 1),最佳地协调学习强大的第一阶段与将过多的感知压缩留给生成扩散模型之间的平衡。
虽然存在联合 [93] 或分别 [80] 学习编码/解码模型与基于分数的先验的方法,但前者仍然需要在重建能力和生成能力之间进行困难的权衡 [11],并且性能被我们的方法超越(第 4 节),而后者专注于高度结构化的图像,如人脸。
3 方法
为了降低训练扩散模型进行高分辨率图像合成的计算需求,我们观察到,尽管扩散模型允许通过欠采样相应的损失项来忽略感知上不相关的细节 [30],但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了计算时间和能源资源的巨大需求。
我们提出通过明确分离压缩学习阶段和生成学习阶段(见图 2)来规避这一缺点。为了实现这一点,我们利用一个自编码模型,该模型学习一个在感知上与图像空间等效但在计算复杂度上显著降低的空间。
这种方法提供了几个优势:(i)通过离开高维图像空间,我们获得了在计算上更高效的扩散模型,因为采样是在低维空间上执行的。(ii)我们利用了扩散模型从其 UNet 架构 [71] 继承的归纳偏置,这使它们对具有空间结构的数据特别有效,因此减轻了先前方法 [23, 66] 所需的激进、降低质量的压缩级别的需求。(iii)最后,我们获得了通用的压缩模型,其潜在空间可用于训练多个生成模型,并且也可用于其他下游应用,例如单图像 CLIP 引导的合成 [25]。
3.1 感知图像压缩
我们的感知压缩模型基于先前的工作 [23],由一个自编码器组成,该自编码器通过结合感知损失 [106] 和基于 patch 的 [33] 对抗目标 [20, 23, 103] 进行训练。这通过强制局部真实感确保重建结果被限制在图像流形上,并避免了仅依赖像素空间损失(如 L2 或 L1 目标)引入的模糊度。
更精确地说,给定 RGB 空间中的图像 $x \in R^{H \times W \times 3}$,编码器 $\mathcal{E}$ 将 $x$ 编码为潜在表示 $z = \mathcal{E}(x)$,解码器 $\mathcal{D}$ 从潜在表示重建图像,得到 $\tilde{x} = \mathcal{D}(z) = \mathcal{D}(\mathcal{E}(x))$,其中 $z \in R^{h \times w \times c}$。重要的是,编码器通过因子 $f=H/h=W/w$ 对图像进行下采样,我们研究了不同的下采样因子 $f=2^m$,其中 $m \in N$。
为了避免任意高方差的潜在空间,我们尝试了两种不同的正则化方法。第一种变体,KL-reg.,对学习到的潜在表示施加一个轻微的对标准正态分布的 KL 惩罚,类似于 VAE [46, 69];而 VQ-reg.在解码器内使用一个向量量化层 [96]。该模型可以解释为 VQGAN [23],但量化层被解码器吸收。因为我们后续的扩散模型被设计为与我们学习到的潜在空间 $z=E(x)$ 的二维结构一起工作,所以我们可以使用相对温和的压缩率并实现非常好的重建。这与先前的工作 [23, 66] 形成对比,它们依赖于学习空间 $z$ 的任意一维排序来自回归地建模其分布,从而忽略了 $z$ 的大部分固有结构。因此,我们的压缩模型更好地保留了 $x$ 的细节(见表 8)。完整的目标函数和训练细节可以在补充材料中找到。
3.2 潜在扩散模型
扩散模型 [82] 是概率模型,旨在通过逐渐去噪一个正态分布变量来学习数据分布 $p(x)$,这对应于学习一个长度为 $T$ 的固定马尔可夫链的逆过程。对于图像合成,最成功的模型 [15, 30, 72] 依赖于 $p(x)$ 的变分下界的一个重新加权变体,这反映了去噪分数匹配 [85]。这些模型可以解释为一系列同等加权的去噪自编码器 $\epsilon_{\theta}(x_t,t); t=1\ldots T$,它们被训练来预测其输入 $x_t$ 的去噪版本,其中 $x_t$ 是输入 $x$ 的噪声版本。相应的目标可以简化为(附录 B):
$L_{DM} = \mathbb{E}{x, \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon{\theta}(x_t, t) \|_2^2 \right], \qquad (1)$
潜在表示的生成建模
通过我们训练好的由 $\mathcal{E}$ 和 $\mathcal{D}$ 组成的感知压缩模型,我们现在可以访问一个高效、低维的潜在空间,其中高频的、难以察觉的细节被抽象掉了。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以(i)专注于数据的重要的、语义的部分,并且(ii)在更低维、计算上更高效的空间中进行训练。
与先前在高度压缩的离散潜在空间中依赖自回归、基于注意力的变换器模型的工作 [23, 66, 103] 不同,我们可以利用我们的模型提供的图像特定归纳偏置。这包括能够主要从 2D 卷积层构建底层 UNet 的能力,并进一步使用重新加权的边界将目标聚焦于感知上最相关的部分,该边界现在表示为:
$L_{LDM} := \mathbb{E}{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon{\theta}(z_t, t) \|_2^2 \right]. \qquad (2)$
我们模型的神经骨干 $\epsilon_{\theta}(\circ,t)$ 被实现为一个时间条件化的 UNet [71]。由于前向过程是固定的,$z_t$ 可以在训练期间有效地从 $\mathcal{E}$ 获得,并且来自 $p(z)$ 的样本可以通过单次通过 $\mathcal{D}$ 解码到图像空间。
3.3 条件机制
与其他类型的生成模型 [56, 83] 类似,扩散模型原则上能够对形式为 $p(z \mid y)$ 的条件分布进行建模。这可以通过一个条件去噪自编码器 $\epsilon_{\theta}(z_t, t, y)$ 来实现,并为通过输入 $y$(如文本 [68]、语义图 [33, 61] 或其他图像到图像转换任务 [34])控制合成过程铺平了道路。
然而,在图像合成的背景下,将 DMs 的生成能力与除类别标签 [15] 或输入图像的模糊变体 [72] 之外的其他类型的条件信息相结合,迄今为止仍是一个未被充分探索的研究领域。
我们通过在其底层 UNet 主干中引入交叉注意力机制 [97],将 DMs 转变为更灵活的条件图像生成器,该机制对于学习各种输入模态的基于注意力的模型是有效的 [35, 36]。为了预处理来自不同模态的 $y$(例如语言提示),我们引入一个领域特定的编码器 $\tau_{\theta}$,它将 $y$ 投影到一个中间表示 $\tau_{\theta}(y) \in \mathbb{R}^{M \times d_{\tau}}$,然后通过交叉注意力层映射到 UNet 的中间层,该层实现为:
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) \cdot V,$
其中
$Q = W_Q^{(i)} \cdot \varphi_i(z_t), \quad K = W_K^{(i)} \cdot \tau_{\theta}(y), \quad V = W_V^{(i)} \cdot \tau_{\theta}(y).$
这里,$\varphi_i(z_t) \in \mathbb{R}^{N \times d_{\epsilon}^i}$ 表示实现 $\epsilon_{\theta}$ 的 UNet 的(展平的)中间表示,而 $W_V^{(i)} \in \mathbb{R}^{d \times d_{\epsilon}^i}, W_Q^{(i)} \in \mathbb{R}^{d \times d_{\tau}}$ 和 $W_K^{(i)} \in \mathbb{R}^{d \times d_{\tau}}$ 是可学习的投影矩阵 [36, 97]。视觉描述见图 3。
基于图像 - 条件对,我们然后通过以下方式学习条件 LDM:
$L_{LDM} := \mathbb{E}{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon{\theta}(z_t, t, \tau_{\theta}(y)) \|_2^2 \right], \qquad (3)$
其中 $\tau_{\theta}$ 和 $\epsilon_{\theta}$ 通过公式 (3) 联合优化。这种条件机制非常灵活,因为 $\tau_{\theta}$ 可以用领域特定的专家进行参数化,例如当 $y$ 是文本提示时使用(未掩码的)变换器 [97](见第 4.3.1 节)。
4 实验
潜在扩散模型(LDMs)为各种图像模态提供了灵活且计算上易于处理的基于扩散的图像合成方法,我们将在下文中通过实验进行实证展示。然而,首先,我们将我们的模型与基于像素的扩散模型在训练和推理方面的增益进行比较。有趣的是,我们发现,在 VQ 正则化的潜在空间中训练的 LDMs 有时能获得更好的样本质量,尽管 VQ 正则化的第一阶段模型的重建能力略逊于其连续对应模型,参见表 8。第一阶段正则化方案对 LDM 训练的影响及其对分辨率>256²的泛化能力的视觉比较可以在附录 D.1 中找到。在 E.2 节中,我们列出了本节所有结果在架构、实现、训练和评估方面的详细信息。
4.1 关于感知压缩的权衡
本节分析了我们的 LDMs 在不同下采样因子 $f \in \{1, 2, 4, 8, 16, 32}$(缩写为 LDM-f,其中 LDM-1 对应于基于像素的 DMs)下的行为。为了获得可比较的测试环境,我们将本小节所有实验的计算资源固定为单个 NVIDIA A100,并且所有模型训练相同的步数和参数数量。
表 8 显示了本节比较的 LDMs 所使用的第一阶段模型的超参数和重建性能。图 6 显示了在 ImageNet [12] 数据集上,类别条件模型经过 2M 步训练后,样本质量随训练进度的变化函数。我们看到,i) LDM-{1,2}的小下采样因子导致训练进度缓慢,而 ii) 过大的 f 值在相对较少的训练步数后会导致保真度停滞不前。回顾上述分析(图 1 和 2),我们将其归因于 i) 将大部分感知压缩留给了扩散模型,以及 ii) 过于强烈的第一阶段压缩导致信息丢失,从而限制了可达到的质量。LDM-{4-16}在效率和感知上忠实的结果之间取得了良好的平衡,这在经过 2M 训练步数后,基于像素的扩散(LDM-1)和 LDM-8 之间 38 的显著 FID [29] 差距中体现出来。
在图 7 中,我们比较了在 CelebA-HQ [39] 和 ImageNet 上训练的模型,针对不同去噪步数使用 DDIM 采样器 [84] 的采样速度,并将其与 FID 分数 [29] 进行对比绘图。LDM-{4-8}在感知压缩和概念压缩的不合适比率上优于其他模型。特别是与基于像素的 LDM-1 相比,它们在实现更低 FID 分数的同时,显著提高了样本吞吐量。像 ImageNet 这样的复杂数据集需要降低压缩率以避免质量下降。总之,LDM-4 和 -8 为获得高质量合成结果提供了最佳条件。
4.2 使用潜在扩散进行图像生成
我们在 CelebA-HQ [39]、FFHQ [41]、LSUN-Churches 和-Bedrooms [102] 上训练了 256²图像的无条件模型,并评估了 i) 样本质量和 ii) 它们使用 ii) FID [29] 和 ii) 精确度与召回率 [50] 对数据流形的覆盖情况。表 1 总结了我们的结果。在 CelebA-HQ 上,我们报告了新的最先进 FID 分数 5.11,优于之前的基于似然的模型以及 GANs。我们还超过了 LSGM [93],后者是将潜在扩散模型与第一阶段联合训练的。相比之下,我们在固定空间中训练扩散模型,并避免了权衡潜在空间的重建质量与学习先验的困难,见图 1-2。
除了 LSUN-Bedrooms 数据集外,我们在所有数据集上的表现都优于先前的基于扩散的方法,在 LSUN-Bedrooms 上,我们的分数接近 ADM [15],尽管利用了其一半的参数并且需要少 4 倍的训练资源(见附录 E.3.5)。
此外,LDMs 在精确度和召回率方面持续改进了基于 GAN 的方法,从而证实了其基于模式覆盖的似然训练目标相对于对抗性方法的优势。在图 4 中,我们还展示了每个数据集的定性结果。
4.3. 条件潜在扩散
4.3.1 用于 LDM 的变换器编码器
通过将基于交叉注意力的条件机制引入 LDM,我们为其开启了先前在扩散模型中未被探索的各种条件模态。对于文本到图像建模,我们在 LAION-400M [78] 数据集上训练了一个拥有 14.5 亿参数的 KL 正则化 LDM,该模型以语言提示为条件。我们采用 BERT 分词器 [14] 并将 $\tau_{\theta}$ 实现为一个变换器 [97],以推断出一个潜在代码,该代码通过(多头)交叉注意力层映射到 UNet 中(第 3.3 节)。这种结合领域特定专家学习语言表示和视觉合成的组合,产生了一个强大的模型,能够很好地泛化到复杂的、用户定义的文本提示,参见图 8 和图 5。为了进行定量分析,我们遵循先前的工作,在 MS-COCO [51] 验证集上评估文本到图像的生成,我们的模型优于强大的自回归 [17,66] 和基于 GAN 的方法 [109],参见表 2。我们注意到,应用无分类器扩散引导 [32] 极大地提升了样本质量,使得引导后的 LDM-KL-8-G 在文本到图像合成方面与最新的最先进自回归 [26] 和扩散模型 [59] 性能相当,同时显著减少了参数数量。为了进一步分析基于交叉注意力的条件机制的灵活性,我们还训练了基于 OpenImages [49] 上的语义布局合成图像的模型,并在 COCO [4] 上进行了微调,见图 8。定量评估和实现细节见第 D.3 节。
最后,遵循先前的工作 [3,15,21,23],我们在表 3、图 4 和第 D.4 节中评估了我们在第 4.1 节中在 ImageNet 上训练的、性能最佳的类条件模型($f \in \{4,8}$)。在这里,我们的性能超过了最先进的扩散模型 ADM [15],同时显著降低了计算需求和参数数量,参见表 18。
4.3.2 超越 256²的卷积采样
通过将空间对齐的条件信息连接到 $\epsilon$ 的输入,LDM 可以作为高效的通用图像到图像转换模型。我们利用这一点来训练语义合成、超分辨率(第 4.4 节)和修复(第 4.5 节)的模型。对于语义合成,我们使用与语义配对的景观图像 [23,61],并将语义图的下采样版本与 $f=4$ 模型(VQ-reg.,参见表 8)的潜在图像表示进行拼接。我们在 256²的输入分辨率(从 384²裁剪而来)上进行训练,但我们发现我们的模型能够泛化到更大的分辨率,并且当以卷积方式进行评估时,可以生成高达百万像素级别的图像(见图 9)。我们利用这种特性,将第 4.4 节中的超分辨率模型和第 4.5 节中的修复模型应用于生成介于 512²和 1024²之间的大图像。对于此应用,信噪比(由潜在空间的尺度引起)显著影响结果。在第 D.1 节中,当在以下两种情况下学习 LDM 时,我们说明了这一点:(i) 由 $f=4$ 模型(KL-reg.,参见表 8)提供的潜在空间,以及 (ii) 按分量标准差重新缩放的版本。
后者与无分类器引导 [32] 结合,也使得文本条件的 LDM-KL-8-G 能够直接合成 >256²的图像,如图 13 所示。
4.4. 使用潜在扩散进行超分辨率
LDM 可以通过连接(参见第 3.3 节)直接以低分辨率图像为条件,进行高效的超分辨率训练。在第一个实验中,我们遵循 SR3 [72],将图像退化固定为使用 4 倍下采样的双三次插值,并按照 SR3 的数据处理流程在 ImageNet 上进行训练。我们使用在 OpenImages 上预训练的 $f=4$ 自编码模型(VQ-reg.,参见表 8),并将低分辨率条件 $y$ 和输入连接到 UNet,即 $\tau_{\theta}$ 是恒等映射。我们的定性和定量结果(见图 10 和表 5)显示了具有竞争力的性能,LDM-SR 在 FID 上优于 SR3,而 SR3 具有更好的 IS。一个简单的图像回归模型实现了最高的 PSNR 和 SSIM 分数;然而,这些指标与人类感知 [106] 的一致性不佳,并且倾向于模糊而不是未完美对齐的高频细节 [72]。此外,我们进行了一项用户研究,比较像素基线模型与 LDM-SR。我们遵循 SR3 [72] 的方案,向人类受试者显示一张低分辨率图像和两张高分辨率图像,并要求他们选择偏好。表 4 中的结果证实了 LDM-SR 的良好性能。PSNR 和 SSIM 可以通过使用后置引导机制 [15] 来提升,我们通过感知损失实现了一种基于图像的引导器,详见第 D.6 节。
由于双三次退化过程不能很好地泛化到不遵循此预处理的图像,我们还通过使用更丰富/多样化的退化方式训练了一个通用模型 LDM-BSR。结果在第 D.6.1 节中展示。
4.5. 使用潜在扩散进行图像修复
图像修复的任务是用新内容填充图像的掩码区域,可能是因为图像部分损坏或替换图像中现有但不希望的内容。我们评估了我们用于条件图像生成的通用方法与针对此任务的更专业的、最先进的方法相比如何。我们的评估遵循 LaMa [88] 的方案,这是一个最近的修复模型,引入了依赖快速傅里叶卷积 [8] 的专用架构。在 Places [108] 上的确切训练和评估协议在第 E.2.2 节中描述。
我们首先分析了第一阶段不同设计选择的效果。特别是,我们比较了 LDM-1(即基于像素的条件 DM)与 LDM-4 的修复效率,包括 KL 和 VQ 正则化,以及第一阶段没有任何注意力的 VQ-LDM-4(参见表 8),后者减少了高分辨率解码时的 GPU 内存。为了可比性,我们固定了所有模型的参数数量。表 6 报告了在分辨率 256²和 512²下的训练和采样吞吐量、每轮 epoch 的总训练时间(小时)以及六个 epoch 后在验证集上的 FID 分数。总体而言,我们观察到基于像素和基于潜在的扩散模型之间至少有 2.7 倍的加速,同时将 FID 分数提高了至少 1.6 倍。
表 7 中与其他修复方法的比较表明,我们带注意力的模型通过 FID 衡量,整体图像质量优于 [88]。未掩码图像与我们的样本之间的 LPIPS 略高于 [88]。我们将此归因于 [88] 只产生单个结果,该结果倾向于恢复更接近平均图像的內容,而我们的 LDM 产生多样化的结果,参见图 21。此外,在一项用户研究(表 4)中,人类受试者更倾向于我们的结果而非 [88] 的结果。
基于这些初步结果,我们还在无注意力的 VQ 正则化第一阶段的潜在空间中训练了一个更大的扩散模型(表 7 中的
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online