AI 绘画一键生成美图 - 变成画家
本地部署 SD 模型,一键即可生成自己想要绘制的图画,本文包括论文原理讲解和代码复现。
论文讲解
论文题目:High-Resolution Image Synthesis with Latent Diffusion Models(基于潜在扩散模型的高分辨率图像合成)
论文被计算机视觉顶会CVPR 2022 收录
Stable Diffusion 是一个基于 Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。它建立在自注意力机制和扩散过程的基础上。它的设计灵感来自于扩散过程模型(Diffusion Models),这些模型在自然图像建模领域取得了巨大成功。
Stable Diffusion 通过一系列的扩散步骤来生成图像。在每一步中,模型逐渐'扩散'图像,从含有较少信息的噪声开始,到包含更多细节的图像。在每个扩散步骤中,模型需要预测图像的条件分布,并根据这个条件分布生成下一个扩散步骤的输入。
背景介绍
在生成模型的研究中,扩散过程模型和自注意力机制是两个备受关注的领域。扩散过程模型是一种基于随机过程的生成模型,通过模拟随机过程的演化来生成图像,它在自然图像建模领域取得了巨大的成功。而自注意力机制则是一种强大的神经网络组件,能够有效地捕捉输入序列中不同位置之间的依赖关系,被广泛应用于自然语言处理和计算机视觉领域。
近年来,研究人员开始探索如何将扩散过程模型和自注意力机制结合起来,以进一步提高生成模型的性能和生成图像的质量。在这个背景下,Stable Diffusion 应运而生,简称 SD 模型。
Stable Diffusion 的提出
Stable Diffusion 是一种基于扩散过程和自注意力机制的生成模型,旨在生成高质量的图像。它采用了一系列扩散步骤来逐渐生成图像,每个步骤中模型需要预测图像的条件分布,并生成下一个扩散步骤的输入。通过结合自注意力机制,Stable Diffusion 能够有效地捕捉图像中不同位置之间的关联信息,从而生成更加真实和细节丰富的图像。
Stable Diffusion 在图像生成领域的应用
Stable Diffusion 不仅可以用于生成高质量的图像,还可以应用于多种图像生成任务,包括图像修复、超分辨率重建、图像合成等。其灵活的生成过程和强大的生成能力使其成为图像生成领域的一项重要研究成果,并在各种实际应用中展现出巨大潜力。
在下文中,我们将更深入地探讨 Stable Diffusion 的工作原理、实现细节以及相关的实验结果,以帮助读者更好地理解这一新颖的生成模型,并探讨其在未来的发展方向和应用前景。
经过微调后 Stable Diffusion 模型可以生成各种风格的图像,先来看生成效果:


上图是模型的框架图,模型的步骤和讲解如下:
1、训练自编码模型(AutoEncoder)
- 首先,通过训练一个自编码模型,包括编码器和解码器部分。编码器负责将输入图像压缩成潜在表示(latent representation),而解码器则负责将潜在表示解码成原始像素空间的图像。
- 这一步骤是为了将图像压缩到低维的潜在表示空间,为后续的 diffusion 操作做准备。
2、感知压缩(Perceptual Compression)
- 利用训练好的自编码模型对图片进行压缩,将其转换到潜在表示空间。
- 在潜在表示空间上进行操作,这个过程被称为感知压缩,因为它通过自编码器模型来实现压缩,同时保留了重要的图像特征。
3、潜在表示空间上的 diffusion 操作
- 在潜在表示空间上进行 diffusion 操作,其过程与标准的扩散模型类似。
- 扩散模型的具体实现为 time-conditional UNet,这是一种结合了时间条件信息的 UNet 结构,用于在潜在表示空间上进行图像生成。

















