Stable Diffusion 是目前流行的生成式人工智能软件之一,主要用于根据文本描述生成详细图像,也可用于图像的修补、扩展和通过文本提示指导图像到图像的转换。除图像外,还可以使用该模型创建视频和动画。
Stable Diffusion XL 1.0 (SDXL 1.0) 是 Stable Diffusion 的一个更为高级和优化的版本,它在模型规模、图像质量、语言理解和模型架构等方面都有显著的改进。
功能介绍
Stable Diffusion 功能包括文本转图像、图像转图像、图形插图、图像编辑和视频创作。
- 文本转图像生成:最常见和最基础的功能。Stable Diffusion 会根据文本提示生成图像。
- 图像转图像生成:使用输入图像和文本提示,可以根据输入图像创建新图像。典型的案例是使用草图和合适的提示。
- 创作图形、插图和徽标:使用一系列提示,可以创建各种风格的插图、图形和徽标。
- 图像编辑和修正:可以使用 Stable Diffusion 来编辑和修正照片。例如,可以修复旧照片、移除图片中的对象、更改主体特征以及向图片添加新元素。
- 视频创作:使用 GitHub 中的 Deforum 等功能,可以借助 Stable Diffusion 创作短视频片段和动画。另一种应用是为电影添加不同的风格。还可以通过营造运动印象(例如流水)来为照片制作动画。
安装和部署 Stable Diffusion
系统要求
- 电脑系统:Windows 10 及以上/macOS Monterey (12.5)
- 显卡:RTX3060 及以上
- 显存:8G 及以上
- 内存:16G 及以上
- 磁盘空间:500GB SSD 及以上
操作步骤
- 右键解压 Stable Diffusion 安装包。
- 双击 Stable Diffusion 安装包进入文件夹中,解压 sd-webui 整合包。
- 双击启动器运行依赖-dotnet-6.0.11,安装所需依赖。
- 双击 sd-webui 整合包进入该文件夹中,下拉找到启动器并启动。
注:第一次启动,需要一些时间部署 Python 和 Git 环境,请耐心等待,后面启动就很快了。若未弹出 WebUI 界面,请将复制链接 http://127.0.0.1:7860 到浏览器中即可。
若弹出 Stable Diffusion WebUI 界面,则表示启动成功。
Stable Diffusion WebUI 介绍
Stable Diffusion WebUI 界面主要分为三个区域:模型选择区、功能选择区、参数配置区。
里面的参数非常多,第一次看到定会眼花缭乱,对此进行归类分组,这些参数主要分为两类:
- 基础参数:为了告诉 AI 用户的需求是什么,进而完成作图任务。如提示词框、模型选择,迭代步数,采样器,图片尺寸等。
- 额外参数:为了高效率地完成这个任务而存在的参数,是非必要的参数。如垃圾桶,一键清除提示词、文件夹、打包下载、预设样式等。
布局与参数介绍
模型选择区
- Stable Diffusion 模型:下拉选择大模型,默认 anyting-V5 模型。请根据自身需求选择不同类型的模型,如现实主义风格的模型;动漫,二次元风格的模型。
- 外挂 VAE 模型:下拉选择 VAE 模型,默认无。是可选操作,可以选择不同效果的 VAE 模型,对成图细节或颜色进行修复,同时选择 VAE 也可以起到节省电脑算力的作用。
- CLIP 终止层数(Clip Skip):滑动确认或输入层数,层数范围为 1~12 层,默认层数为 2。1 层,成图更加精确;2 层,成图更加平衡,即 AI 遵循提示词,也有一定自己的创意;3-12 层,成图更加有创意。这里推荐 2 层。若你希望 AI 更加有自己的创意,还是请调节提示词引导系数(CFG Scale)参数,效果会更好。
注:选择模型时,需要提前下载模型并存储到对应的路径中。模型下载可前往 Hugging Face 网站或 Civitai 网站。Stable Diffusion 模型存储位置是
*\models\Stable-diffusion。VAE 模型存储位置是*\models\VAE。存储完后,点击刷新按钮即可。
参数配置区
简单介绍各个参数信息,分为基础参数、额外参数以及老版本的参数。
基础参数
- 正向提示词(Prompt):输入你希望图片中出现什么内容。仅支持英文输入。
- 反向提示词(Negative prompt):输入你不希望图片中出现什么内容,比如多手指。仅支持英文输入。
- 迭代步数(Sampling Steps):设置图片去噪的步数,步数越多画面越精细,出图时间也越长。步数范围 1~150 步,1~19 步更加模糊,粗糙;20~40 步,更加平衡;40~150 步更加精细。其中并不是步数越多越好,为了避免过犹不及,这里推荐 20~40 步,更加平衡。
- 采样方法(Sampler Method):点击勾选采样方法。不同的采样方法,有不同效果,这里大家多次尝试即可。
- 高分辨率修复(Hires. fix):勾选即可将图片的分辨率放大。如从 512_512px 到 1024_1024。请根据自身显卡性能,设置图片基础分辨率,请勿设置的过高,否则在勾选高分辨率修复后,会显示 Out Of Memory Error,爆显存了。
- Refiner:用于在高分辨率修复阶段进一步优化图像细节的组件,可根据需求开启。
- 尺寸(宽度、高度):设置成图的尺寸。默认 512_512px。推荐的尺寸有:512_768px、768_512px、768_1152。
- 总批次数:指一次生成图片多少张,这里指陆续跑图。根据显卡性能,酌情设置,推荐 1~4。
- 单批数量:指一次同时生成几张图片,这里指同时跑图。显卡压力更大,不建议设置为 2 以上。
- 提示词引导系数(CFG Scale):AI 遵循提示词的程度/成图与提示词相关度。数值越低更加精确,越高则更有创造力,这里推荐 5~7 更加平衡。
注:该参数类似于 New Bing 对话框中的选择对话样式,分为更有创造力、更平衡、更精确。提示词引导系数(CFG Scale)则是以具体的数值来供用户设置。
- 随机种子数(Seed):设置成图是否随机。文本框默认 -1,表示随机产生不同的图片。点击随机图标将随机种子设置为 -1;点击循环图标将成图的种子数(即唯一编码),设置为随机种子数,在其他参数不变的情况下生成的图片相似 99%;点击停止图标则是进行更多设置。
- 脚本(Script):一键测试提示词或各个参数变化对成图的影响。选项默认无,分为提示词矩阵、从文本框或文件载入提示词、X/Y/Z 图表、controlnet m2m。
关于模型
我们可以在很多的模型网站,比如 Civitai、Hugging Face 上找到很多的训练好的 stable diffusion 模型。比如 Linaqruf/animagine-xl 是一个可以生成优质动漫风格图像的 SD 模型。xiaolxl/GuoFeng3 是一个中国华丽古风风格模型,也可以说是一个古风游戏角色模型,具有 2.5D 的质感。相比于前几代,第三代大幅度减少上手难度,增加了场景元素与男性古风人物,除此之外为了模型能更好地适应其它 TAG,还增加了其它风格的元素。
相比于前几代,这一代对脸和手的崩坏有一定的修复,同时素材大小也提高到了最长边 1024。


