Stable Diffusion WebUI 使用指南
前言
人工智能技术近年来发展迅猛,从早期的区块链、虚拟现实到如今的生成式 AI,技术浪潮不断更迭。2022 年开始的 AI 图像生成浪潮标志着人类智能化进程的重要一步。Stable Diffusion 作为当前主流的开源 AI 图像生成工具,以其高自定义程度和强大的扩展性,成为了社区广泛使用的选择。
本文聚焦于 AI 图像生成领域,主要介绍 Stable Diffusion WebUI 的使用。简单来说,Diffusion(扩散)模型通过添加噪声再去除噪声的过程,结合用户的意图提示词,在潜在变量空间中生成图片。WebUI 则是控制这一过程的图形化界面工具。
硬件篇
显卡选择
Stable Diffusion WebUI 目前最主流的搭配是 Windows 系统配合 Nvidia 显卡。为了获得最佳体验,建议配置如下:
- 显卡算力:影响出图速度。过低的算力会严重影响使用体验,建议至少 RTX 3060 以上。
- 显存大小:影响生成分辨率及模型训练规模。推荐显存大于 8GB。通常 512x1024 比例的图片 8G 显存即可满足需求。
部署环境
Windows 环境
部署需要安装 Python 环境及相关库。由于涉及网络问题及依赖配置繁琐,推荐使用整合包以开箱即用。若希望深入了解环境搭建,可参考官方文档自行部署。
Mac 环境
Mac 用户可通过特定适配版本运行,但速度相对较慢。M1/M2 芯片支持较好,但性能仍不及同级别 N 卡。
在线平台
若无本地高性能机器,可使用 Google Colab 等在线平台租用 GPU 资源进行训练或部署,适合临时体验或轻量级任务。
提速篇
整合包封装了繁琐操作,但若追求极致性能,需手动优化环境:
- 开启 CUDNN 加速:NVIDIA CUDA 深度神经网络库,启用后可提升约 30%~40% 的生成速度。
- 升级 PyTorch 至 2.0:新版 PyTorch 针对深度学习优化,可提升约 20% 速度。
- 开启 Xformers 加速:Facebook 出品的 Transformer 加速库,可显著减少显存占用并提升生成速度(部分情况接近 100%),但仅适用于 Nvidia 显卡。
界面与参数
安装完成后,熟悉界面布局至关重要。关键参数包括:
- 采样器 (Sampler):如 Euler a, DPM++ 2M Karras 等,影响生成质量与速度。
- 步数 (Steps):通常为 20-50,步数越多细节越丰富,但耗时增加。
- CFG Scale:提示词引导系数,值越高越贴近提示词,过高可能导致画面失真。
- 种子 (Seed):固定随机种子可复现相同结果。
提示词工程
Prompt(提示词)是指导 AI 生成的核心。一个优秀的提示词应包含主体、风格、环境、光照等要素。
通用模板
(主描述), (风格关键词), (质量修饰词), (负面提示词)
Embedding 提示词打包
Embedding 是一种将一组特征词打包的技术,常用于负向提示词以提高出图质量。例如,使用特定的 Embedding 文件可以自动修正手部结构或优化光影。
LoRA 低秩适应模型
LoRA (Low-Rank Adaptation) 源自微软论文,用于微调大模型。在 SD 中,LoRA 体积小、训练成本低,可用于精确控制角色风格、画风或特定物体。
- 应用场景:游戏角色二次创作、特定画风迁移。
- 优势:相比完整模型,加载速度快,显存占用低。


