Stable Diffusion 大师级入门教程——快速掌握 AI 绘画原理与 SD 安装
什么是 Stable Diffusion?
Stable Diffusion(简称 SD)是一种基于扩散模型的先进人工智能技术,特别适用于文本到图像(Text-to-Image)的生成任务。该模型由 CompVis、Stability AI、LAION 等研究机构和公司合作研发,它利用扩散过程在潜在空间(latent space)中生成图像,而不是直接在高维像素空间中操作。
'炼丹师'是指那些专门研究、开发与应用 Stable Diffusion 模型的专业人士或爱好者,他们在实践中不断优化模型,使其产生更高质量、更具创意的图像。
基本概念
| 名词 | 解释说明 |
|---|---|
| Stable Diffusion | 一种基于扩散模型的先进的人工智能技术,特别适用于文本到图像的生成任务。 |
| SD WebUI | 用于交互式控制和使用 Stable Diffusion 模型的网页应用程序界面。用户可以通过输入文本提示(prompt)来驱动模型生成相应的图像。 |
| Python | 在 AI 领域广泛使用的高级编程语言,拥有丰富的科学计算、机器学习和数据处理相关的库。在部署和使用深度学习模型时,常作为开发和运行环境的基础。 |
| ControlNet 插件 | 针对 Stable Diffusion 模型开发的功能扩展插件,允许用户在文本生成图像的过程中实现更为细致和精确的控制,提升 AI 绘画系统的可控性和灵活性。 |
| ControlNet 模型 | 配合插件工作的附加神经网络模型,经过训练以实现对大型预训练扩散模型进行细粒度控制。 |
| VAE | 变分自编码器 (Variational Autoencoder),一种概率生成模型,结合了编码器和解码器的概念,用来学习数据的潜在表示并生成新图像。 |
| CHECKPOINT | SD 能够绘图的基础模型,被称为大模型、底模型或者主模型。不同的主模型,其画风和擅长的领域会有侧重。 |
| hyper-network | 超网络,一种模型微调技术,是附属于 Stable Diffusion 模型的小型神经网络,用于修正 SD 模型的风格。 |
| LoRA | 全称 Low-Rank Adaptation of Large Language Models,可以理解为 SD 模型的一种插件,在不修改 SD 模型的前提下,利用少量数据训练出特定画风/IP/人物。 |
| prompt | 提示词/咒语,用于指导模型生成图像的描述性文本。 |
工作原理
Stable Diffusion 是一个接收文本提示词,并生成相应图像的生成模型。
![图:Stable Diffusion 工作流程示意图]
SD 来自于扩散模型(Diffusion Model)。扩散模型的核心原理被生动地比喻为物理学中的扩散过程,通过前向扩散过程逐渐将图像转化为噪声图像,然后通过反向扩散过程恢复出清晰的图像。
在 Stable Diffusion 中,模型训练了一个噪声预测器(noise predictor),它是一个 U-Net 结构的神经网络,可以预测并从图像中去除噪声,从而重构原始图像。


