Stable Diffusion 图生图功能入门详解

概述

图生图（Image-to-Image，简称 Img2Img）是 Stable Diffusion 中一项核心功能。与文生图不同，图生图允许用户基于已有的参考图像进行重绘、修改或风格迁移。其基本原理是在输入图像的基础上添加噪声，然后通过去噪过程生成新图像。这一功能在图像修复、风格转换、细节增强以及创意扩展等方面具有广泛应用。

本文将深入讲解 Stable Diffusion WebUI 中的图生图功能，涵盖反向提示词、缩放模式、重绘幅度及涂鸦绘制等关键参数，并提供最佳实践建议。

一、反向提示词（Reverse Prompting）

在图生图模式下，系统需要理解原始图像的语义信息，以便在保留原图特征的同时进行合理的修改。Stable Diffusion 提供了多种反向提示词工具：

1. CLIP 反推

CLIP（Contrastive Language–Image Pre-training）模型能够理解图像与文本的关联。使用 CLIP 反推，SD 会根据图像内容生成描述性的自然语言提示词。

特点：生成的提示词较为口语化，接近人类描述习惯。
适用场景：快速理解图像内容，适合初学者。

2. DeepBooru 反推

DeepBooru 是一种基于标签的分类模型，专门用于生成符合 Danbooru 风格的标签式提示词。

特点：输出为逗号分隔的标签列表，包含大量细节描述（如构图、光影、人物特征）。
适用场景：需要精确控制生成细节的专业用户，更符合 SD 的训练数据分布。

3. WD 1.4 标签器插件

WD 1.4 Tagger 是一个第三方插件，通常能提供比内置工具更准确的标签提取效果。

安装方法：在扩展商店搜索 tagger，找到第一个结果并安装，重启 WebUI 后生效。
优势：识别率高，标签丰富，能捕捉到细微的特征。

对比示例：对于同一张女性肖像图：

CLIP 反推可能生成："a digital painting of a woman with long hair..."
DeepBooru 反推可能生成："1girl, long_hair, necklace, solo, wavy_hair..."
WD 1.4 反推通常结合两者优点，提供更结构化的标签集。

二、缩放模式（Scaling Mode）

在调整图像尺寸时，不同的缩放模式会对最终生成结果产生显著影响。常见的模式包括：

1. 仅调整大小（Just Resize）

直接对图像像素进行拉伸或压缩。

效果：可能导致人物变形或比例失调，因为未考虑图像内容的语义结构。

2. 裁剪后缩放（Crop and Resize）

先将图像裁剪至目标比例，再进行缩放。

效果：会丢失边缘部分的内容。如果是横向图，左右两边可能被裁切；如果是纵向图，上下两边可能被裁切。

3. 缩放后填充空白（Scale to Fit and Fill）

先将图像缩小至指定尺寸，然后使用算法填充剩余空白区域。

效果：保留了完整画面，但填充区域可能存在痕迹，后续可通过局部重绘优化。

4. 潜空间放大（Latent Upscale）

在潜在空间（Latent Space）中进行放大操作，而非像素空间。

效果：相比普通放大更具随机性，可能会引入新的细节或纹理，但也可能导致不可控的变化。

Stable Diffusion 图生图功能入门详解