在 Stable Diffusion 中,模型是核心组件,决定了生成图像的风格、质量和控制能力。新手常因各种模型后缀和用途感到困惑,以下是对常见模型的详细分类与说明。
safetensors 格式
在使用模型前,需了解 safetensors 格式。这是由 Hugging Face 研发的一种开源模型存储格式,目前被广泛采用。
相比旧有的 .ckpt 或 .bin 格式,safetensors 具有以下优势:
- 安全性高:防止反序列化攻击(如 DOS 攻击)
- 加载迅速:无需加载整个文件即可读取元数据
- 支持懒加载:按需加载权重,节省内存
- 通用性强:兼容多种 AI 模型架构
因此,现代开源模型大多提供 safetensors 版本,后缀通常为 .safetensors。
主模型:Checkpoint
Checkpoint 是 Stable Diffusion 中最核心的模型,也称为 Checkpoint Model 或 Main Model。它包含了 UNet、Text Encoder 和 VAE 的大部分参数,决定了图像的基础风格。
- 后缀:
.ckpt 或 .safetensors
- 体积:通常在 2GB - 7GB 之间
- 存放目录:WebUI 的
models/Stable-diffusion 文件夹
- 使用方式:在 WebUI 左上角切换
所有的主模型均基于 Stable Diffusion 架构训练而来,选择不同的大模型会直接改变画面的整体质感。
微调模型:LoRA 和 LyCORIS
LoRA (Low-Rank Adaptation) 和 LyCORIS 属于微调模型,用于在主模型基础上进行特定风格的调整。
- 作用:控制画风、角色外观、姿势、服装细节等
- 后缀:
.safetensors
- 体积:较小,一般在 4MB - 300MB 之间
- 存放目录:WebUI 的
models/LoRA 文件夹
- 使用方式:可通过 WebUI 左侧菜单激活,或在 Prompt 中使用
<lora:文件名:权重> 调用
LyCORIS 是 LoRA 的扩展,调节范围更大,但通常需要额外插件支持。
文本编码器:Textual Inversion
Textual Inversion 通过修改文本嵌入向量来引入新概念。
- 作用:简化 Prompt,将复杂描述浓缩为单个关键词
- 后缀:
.pt 或 .safetensors
- 体积:极小,通常仅几 KB
- 存放目录:WebUI 的
embeddings 文件夹
- 使用方式:可在 Textual Inversion 菜单选择,或直接在 Prompt 中输入对应词汇
风格网络:Hypernetworks
Hypernetworks 是一种较早期的微调技术,通过调整神经网络权重来改变风格。
- 作用:风格微调,色彩倾向调整
- 后缀:
.pt 或 .safetensors
- 体积:20MB - 200MB 之间
- 存放目录:WebUI 的
models/hypernetworks 文件夹
- 使用方式:在 WebUI 设置中启用 Hypernetworks 选项
控制网络:ControlNet
ControlNet 是目前最强大的控制工具之一,允许用户精确控制生成的构图、姿态和边缘。
- 作用:画面结构控制、动作控制、深度图控制、色彩映射等
- 后缀:
.safetensors
- 存放目录:WebUI 的
models/ControlNet 文件夹
- 安装要求:需安装 ControlNet 扩展插件
- 使用方式:在 txt2img 或 img2img 界面启用 ControlNet 单元,上传参考图并选择预处理器
变分自编码:VAE
VAE (Variational Autoencoder) 负责将潜在空间解码为像素图像。
- 作用:修正图片亮度、饱和度,解决画面发灰问题
- 后缀:
.pt 或 .safetensors
- 体积:常见为 335MB 或 823MB
- 存放目录:WebUI 的
models/VAE 文件夹
- 使用方式:在 Settings 页面的 SD VAE 选项中切换,或配置 Quicksettings list 以便快速访问
修复模型:CodeFormer
CodeFormer 专注于人脸修复和超分辨率处理。
- 作用:提高图片分辨率、黑白照片上色、人脸细节修复
- 存放目录:WebUI 的
models/codeformer 文件夹
- 使用方式:默认集成于 WebUI,可在 Extras 菜单中找到
模型对比一览表
| 模型名称 | 主要作用 | 后缀名 | 大小范围 | WebUI 目录 |
|---|
| Checkpoint | 主模型,决定基础风格 | .ckpt / .safetensors | 2G - 7G | models/Stable-diffusion |
| LoRA / LyCORIS | 微调风格、角色、姿势 | .safetensors | 4M - 300M | models/LoRA |
| Textual Inversion | 文本向量优化 | .pt / .safetensors | KB 级别 | embeddings |
| Hypernetworks | 网络权重风格微调 | .pt / .safetensors | 20M - 200M | models/hypernetworks |
| ControlNet | 画面结构与动作控制 | .safetensors | 视具体模型而定 | models/ControlNet |
| VAE | 色彩与亮度校正 | .pt / .safetensors | 335M / 823M | models/VAE |
| CodeFormer | 人脸修复与超分 | - | - | models/codeformer |
使用建议
- 组合策略:通常先选择一个合适的 Checkpoint 作为基底,再叠加 LoRA 细化特征,最后通过 ControlNet 固定构图。
- 资源管理:由于 Checkpoint 体积较大,建议根据需求定期清理不用的模型以节省磁盘空间。
- 版本兼容:注意模型版本与 WebUI 版本的兼容性,部分新模型可能需要更新后的插件支持。
- 调试技巧:若画面出现异常,可尝试更换 VAE 或检查 LoRA 权重是否过高导致过拟合。
以上涵盖了 Stable Diffusion 中最常用的几种模型类型。掌握它们的特性与配合方式,能显著提升出图效率与质量。