Stable Diffusion 图生图功能入门详解
概述
图生图(Image-to-Image,简称 Img2Img)是 Stable Diffusion 中一项核心功能。与文生图不同,图生图允许用户基于已有的参考图像进行重绘、修改或风格迁移。其基本原理是在输入图像的基础上添加噪声,然后通过去噪过程生成新图像。这一功能在图像修复、风格转换、细节增强以及创意扩展等方面具有广泛应用。
本文将深入讲解 Stable Diffusion WebUI 中的图生图功能,涵盖反向提示词、缩放模式、重绘幅度及涂鸦绘制等关键参数,并提供最佳实践建议。
一、反向提示词(Reverse Prompting)
在图生图模式下,系统需要理解原始图像的语义信息,以便在保留原图特征的同时进行合理的修改。Stable Diffusion 提供了多种反向提示词工具:
1. CLIP 反推
CLIP(Contrastive Language–Image Pre-training)模型能够理解图像与文本的关联。使用 CLIP 反推,SD 会根据图像内容生成描述性的自然语言提示词。
- 特点:生成的提示词较为口语化,接近人类描述习惯。
- 适用场景:快速理解图像内容,适合初学者。
2. DeepBooru 反推
DeepBooru 是一种基于标签的分类模型,专门用于生成符合 Danbooru 风格的标签式提示词。
- 特点:输出为逗号分隔的标签列表,包含大量细节描述(如构图、光影、人物特征)。
- 适用场景:需要精确控制生成细节的专业用户,更符合 SD 的训练数据分布。
3. WD 1.4 标签器插件
WD 1.4 Tagger 是一个第三方插件,通常能提供比内置工具更准确的标签提取效果。
- 安装方法:在扩展商店搜索
tagger,找到第一个结果并安装,重启 WebUI 后生效。 - 优势:识别率高,标签丰富,能捕捉到细微的特征。
对比示例: 对于同一张女性肖像图:
- CLIP 反推可能生成:"a digital painting of a woman with long hair..."
- DeepBooru 反推可能生成:"1girl, long_hair, necklace, solo, wavy_hair..."
- WD 1.4 反推通常结合两者优点,提供更结构化的标签集。
二、缩放模式(Scaling Mode)
在调整图像尺寸时,不同的缩放模式会对最终生成结果产生显著影响。常见的模式包括:
1. 仅调整大小(Just Resize)
直接对图像像素进行拉伸或压缩。
- 效果:可能导致人物变形或比例失调,因为未考虑图像内容的语义结构。
2. 裁剪后缩放(Crop and Resize)
先将图像裁剪至目标比例,再进行缩放。
- 效果:会丢失边缘部分的内容。如果是横向图,左右两边可能被裁切;如果是纵向图,上下两边可能被裁切。
3. 缩放后填充空白(Scale to Fit and Fill)
先将图像缩小至指定尺寸,然后使用算法填充剩余空白区域。
- 效果:保留了完整画面,但填充区域可能存在痕迹,后续可通过局部重绘优化。
4. 潜空间放大(Latent Upscale)
在潜在空间(Latent Space)中进行放大操作,而非像素空间。
- 效果:相比普通放大更具随机性,可能会引入新的细节或纹理,但也可能导致不可控的变化。


