Stable Diffusion 入门:AI 绘画原理与本地部署指南
Stable Diffusion 是一种基于扩散模型的文本生成图像技术。本文介绍了其核心原理,包括潜在空间扩散、VAE 及 ControlNet 等组件。同时提供了本地部署的硬件软件要求、WebUI 基本操作界面说明及提示词权重设置方法,帮助初学者快速上手 AI 绘画创作。内容涵盖基础概念、工作原理、安装部署步骤、界面功能详解以及进阶提示词技巧和常见问题排查,旨在为用户提供完整的入门指南。

Stable Diffusion 是一种基于扩散模型的文本生成图像技术。本文介绍了其核心原理,包括潜在空间扩散、VAE 及 ControlNet 等组件。同时提供了本地部署的硬件软件要求、WebUI 基本操作界面说明及提示词权重设置方法,帮助初学者快速上手 AI 绘画创作。内容涵盖基础概念、工作原理、安装部署步骤、界面功能详解以及进阶提示词技巧和常见问题排查,旨在为用户提供完整的入门指南。

Stable Diffusion(简称 SD)是一种基于扩散模型的先进人工智能技术,特别适用于文本到图像(Text-to-Image)的生成任务。该模型由 CompVis、Stability AI、LAION 等研究机构和公司合作研发,它利用扩散过程在潜在空间(latent space)中生成图像,而不是直接在高维像素空间中操作。
'炼丹师'是指那些专门研究、开发与应用 Stable Diffusion 模型的专业人士或爱好者,他们在实践中不断优化模型,使其产生更高质量、更具创意的图像。
| 名词 | 解释说明 |
|---|---|
| Stable Diffusion | 一种基于扩散模型的先进的人工智能技术,特别适用于文本到图像的生成任务。 |
| SD WebUI | 用于交互式控制和使用 Stable Diffusion 模型的网页应用程序界面。用户可以通过输入文本提示(prompt)来驱动模型生成相应的图像。 |
| Python | 在 AI 领域广泛使用的高级编程语言,拥有丰富的科学计算、机器学习和数据处理相关的库。在部署和使用深度学习模型时,常作为开发和运行环境的基础。 |
| ControlNet 插件 | 针对 Stable Diffusion 模型开发的功能扩展插件,允许用户在文本生成图像的过程中实现更为细致和精确的控制,提升 AI 绘画系统的可控性和灵活性。 |
| ControlNet 模型 | 配合插件工作的附加神经网络模型,经过训练以实现对大型预训练扩散模型进行细粒度控制。 |
| VAE | 变分自编码器 (Variational Autoencoder),一种概率生成模型,结合了编码器和解码器的概念,用来学习数据的潜在表示并生成新图像。 |
| CHECKPOINT | SD 能够绘图的基础模型,被称为大模型、底模型或者主模型。不同的主模型,其画风和擅长的领域会有侧重。 |
| hyper-network | 超网络,一种模型微调技术,是附属于 Stable Diffusion 模型的小型神经网络,用于修正 SD 模型的风格。 |
| LoRA | 全称 Low-Rank Adaptation of Large Language Models,可以理解为 SD 模型的一种插件,在不修改 SD 模型的前提下,利用少量数据训练出特定画风/IP/人物。 |
| prompt | 提示词/咒语,用于指导模型生成图像的描述性文本。 |
Stable Diffusion 是一个接收文本提示词,并生成相应图像的生成模型。
![图:Stable Diffusion 工作流程示意图]
SD 来自于扩散模型(Diffusion Model)。扩散模型的核心原理被生动地比喻为物理学中的扩散过程,通过前向扩散过程逐渐将图像转化为噪声图像,然后通过反向扩散过程恢复出清晰的图像。
在 Stable Diffusion 中,模型训练了一个噪声预测器(noise predictor),它是一个 U-Net 结构的神经网络,可以预测并从图像中去除噪声,从而重构原始图像。
然而,传统的扩散模型在图像空间中的运算效率极低,不适合实时应用。为此,Stable Diffusion 采用了在潜在空间(latent space)中进行扩散的过程,利用变分自编码器(VAE)将图像压缩到较低维度的空间,极大地提高了计算速度和效率。
Stable Diffusion 的具体工作流程包括:
本地部署的硬件要求如下,当然使用云端部署租赁更高端的机器也是没问题。
| 配置项 | 最低推荐配置 | 推荐配置 | 备注 |
|---|---|---|---|
| 显卡(GPU) | GTX1050Ti | RTX4060Ti-16G / RTX4090 | 为达到良好的体验,请尽可能使用 8GB 显存及以上显卡。低显存虽然能跑,但是体验极差。 |
| 内存(RAM) | 8GB 内存 | 总内存 24GB 及以上 | 可以开启虚拟内存,内存过小会在加载模型的时候出现问题。 |
| 存储空间 | 20GB 任意存储设备 | 500GB 以上固态硬盘 | 强烈建议单独使用一个盘符,如果不想启动的时候等 10 分钟的话,那么只推荐使用 SSD。 |
| CPU | x86 架构 Intel 或 AMD | Mac M 系列芯片 | 若为 Mac 电脑建议使用搭载 M 系列芯片的机型。旧款 Mac 需配备 AMD 独立显卡,只有 Intel 核显的不能使用。 |
整合包通常打包了 Python、Git、CUDA 等等必须的环境,并且放了运行必须的模型。简单来说,整合包就是 SD-WebUI 内核 + 启动器 + 安装好的环境 + 必须的模型。你只需下载它解压就可以直接启动运行!
http://127.0.0.1:7860/?__theme=dark。| 功能区域 | 说明 |
|---|---|
| stable diffusion 模型 | 下拉,替换大模型/底模。 |
| 正面提示词 Tag | 想要的内容,如:masterpiece, best quality。 |
| 反面提示词 Tag | 不想要的内容,如:lowres, bad anatomy, bad hands, text, error。 |
| 提示词加权重 | (girl) 加权重,这里是 1.1 倍。((girl)) 加很多权重,1.1*1.1=1.21 倍。 |
| 提示词减权重 | [girl] 减权重,一般用的少。 |
| 提示词指定权重 | (girl:1.5) 指定倍数,这里是 1.5 倍的权重。还可以 (girl:0.9) 达到减权重的效果。 |
| 采样迭代步数 | 不需要太大,一般在 50 以内。通常 28 是一个不错的值。 |
| 采样方法 | 没有优劣之分,但是他们速度不同。全看个人喜好。推荐的是图中圈出来的几个,速度效果都不错。 |
| 提示词相关性 | 代表你输入的 Tag 对画面的引导程度有多大。太小 AI 就自由发挥了,不看 Tag;太大会出现锐化、线条变粗的效果。 |
| 随机种子 | 生成过程中所有随机性的源头。每个种子都是一幅不一样的画。默认的 -1 是代表每次都换一个随机种子。 |
切换 webUI 黑白皮肤,修改浏览器 http 地址:
http://127.0.0.1:7860/?__theme=lighthttp://127.0.0.1:7860/?__theme=dark输入提示词 1 girl,点击生成即可。
masterpiece, best quality, high resolution 等提升画质。--medvram 参数启动。Stable Diffusion 提供了强大的 AI 绘画能力,通过合理的硬件配置和参数调整,用户可以创作出高质量的数字艺术作品。随着技术的不断发展,更多插件和功能将持续丰富这一生态。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online