Stable Diffusion 原理详解（附代码实现）

一、前言

回顾 AI 绘画的历史，GAN（Generative Adversarial Nets）是比较出众的一个。GAN 的出现让 AI 绘画成为可能，当时 GAN 给 AI 绘画提供了一种新的思路，现在回顾当时的绘画可以算是相当粗糙。

Stable Diffusion 原理示意图

初代 GAN 出现后，出现了大量 GAN 的变种，比如 StyleGAN、CycleGAN、DCGAN 等。而 StyleGAN 已经可以生成非常逼真的图像了，下面是 StyleGAN 的一些结果。

StyleGAN 生成效果

GAN 提出已经过去十年，AI 绘画也得到了颠覆性的进步。Diffusion Model（DM）逐渐取代了 GAN 在 AI 绘画领域的地位。在此基础上，AI 绘画领域还融合了其它深度学习方法，比如 Controlnet、LoRA 等。如今，AI 绘画达到了以假乱真的地步，同时给与用户极高的可控性，对资源的要求也逐步降低，每个人都可以在自己的电脑上运行 AI 绘画模型。

今天我们的主角是 Stable Diffusion，它是如今最流行的开源 DM。基于 Stable Diffusion，开源社区涌现了繁多的开源项目和模型。比如 Stable Diffusion Webui、Comfyui、Fooocus 等集成应用；分享模型的 Civitai 网站；HuggingFace 提供的 Diffusers 模块。

今天我们将介绍 Stable Diffusion 的整体架构，分解每个部件，最后借助 Diffusers 模块实现 AI 绘画。