Stable Diffusion 图生图功能详解与参数优化指南
Stable Diffusion 图生图功能允许用户基于已有图像生成新图像。通过控制重绘幅度、提示词及随机种子等参数,可实现风格迁移、细节补全或角色转换。本文详解其原理、操作流程及参数优化技巧,涵盖从基础导入到高级应用的全流程,包括高清修复与 VAE 设置,帮助用户提升生成可控性与质量。

Stable Diffusion 图生图功能允许用户基于已有图像生成新图像。通过控制重绘幅度、提示词及随机种子等参数,可实现风格迁移、细节补全或角色转换。本文详解其原理、操作流程及参数优化技巧,涵盖从基础导入到高级应用的全流程,包括高清修复与 VAE 设置,帮助用户提升生成可控性与质量。

本文主要涵盖以下核心内容:
在之前的教程中,我们讲解了 Prompt 提示词原理,并尝试使用「文生图」结合 Prompt 生成了一些作品。今天开始深入讲解 Stable Diffusion (SD) 的「图生图」功能。
我们前面介绍过「文生图」,其最大的特点是「随机性」。对图片的操作几乎没有可控性一说,它画出来的图片可能根本不符合我们的需求。

在 Midjourney 中叫「垫图」,而在 Stable Diffusion 中我们叫「图生图」,其实是差不多的意思。
在我们的现实生活里,这种对需求的偏差与错误理解还是很普遍存在的。假如你是客户,负责产生设计需求,而设计师负责实现需求。你除了不断用文字和语言描述你的需求,还有什么方法让设计师秒懂你需求想法呢?
你是不是通常会找一张类似风格的图片,说:跟这张图差不多的风格,你帮我模仿着这张图来。

那么在 AI 的世界里,同样也存在这样的情况。「文生图」就好像你对着一个 AI 设计师不断的用语言沟通,AI 对你的需求理解是存在偏差的。
「图生图」就好像,你找好了一个模板给 AI 设计师,说:给我按照这个风格来。那么 AI 设计师就会从图片上获得更多信息,原本的图片上记录的像素信息会在这个「加噪」和「去噪」的过程中被作为一种特征反应在作品上,最后越来越接近你的需求。

简单来说的话,「图生图」可以帮助你把一张图片画成另一种模样。借助 AI 里面的「图生图」,你可以将真实世界里的人物变成二次元世界的人物,你也可以将动漫角色人物变成真实人物面孔。
在 SD WebUI 里面进行「图生图」主要分为三步:导入图片、书写提示词、调整参数。
打开 SD WebUI 找到「图生图」的操作界面,基本功能和「文生图」差不多,但在中间多了一个「上传图片」的流程。

这个位置也是我们上传本地图片到 SD 中的主要环节。将我们准备好的图片上传上去。

导入图片后,还有其他的一些功能,例如说涂鸦、局部重绘、涂鸦重绘等,我们在后续的环节中再讲解。

其实「图生图」的提示词和「文生图」的提示词书写逻辑是一样。当然在「图生图」中提示词也很重要,我们可以用上篇文章中学到的,尝试描述一下我们刚刚上传的图片的特征。先简单做个示范。

「图生图」的参数和「文生图」参数基本上差不多,但是也有一些「图生图」才有的关键参数。
例如说「重绘幅度」。我们一般设置在 0.6 ~ 0.8 之间。如果太低,画面变化不明显;如果太高,可能会丢失原图特征。

在这里我们把「采样方法」设置为「DPM++ SDE Karras」,这是一种平衡速度与质量的采样器。

「迭代步数」设置为:20。步数越多,细节越丰富,但耗时越长。

图片分辨率设置为:500 * 500。注意,最好是跟原图的尺寸一样。假如你原图是 512 * 512,那说明比例是 1:1 的。那么你输出的图片的比例也应该是 1:1 的。否则我们生成的图片是会严重变形的。我们设置为 800 * 800,也是能和原图的 1:1 比例对应起来的。

如果你上传的图片分辨率是非常大的,那么是需要事先将图片裁剪到能被 SD 画出来的安全范围(通常是 512 或 768 的倍数)。
全部设置完成后,我们点击生成,这时候我们就利用「图生图」生成了一张新的图片。

这是我们通过「图生图」生成出来的一个最基本的全部过程,但是还有很多改进的空间。在提示词的环节,我们可以对上传的图片描述更具体、更精准。如果没有描述清楚,那么就有可能导致画出来的图片翻车,因为 AI 只读取了图片,但是没有对图片中的具体内容进行约束。
可以根据我们上一篇文章讲到的提示词来优化我们现在的提示词。优化之后的样子效果会更好。

继续对「重绘幅度」进行优化。在设置的时候也需要自己调试一个安全范围,太高可能会导致画面变形,太低又看不出具体的重绘效果。那么我们尝试后,找到「重绘幅度」的平衡点是多少呢?

最后我们再来优化一下图片的分辨率。在上面这些参数都进行优化了之后,我们再点击「生成」。这时候很明显是要比前面第一次生成的效果要好的。

就像我们之前说的,就算你给你原图,但是如果不对提示词进行准确精准的描述,或者不调试合适的参数的话,AI 也不能准确无误的懂得你的意思。
如果我们原图背景本来是室外的,而通过「图生图」生成出来的图片是室内的。我们可以通过增加和修改提示词,来达到我们想要的室内效果。

修改完新的提示词后,我们得到的效果是下面这样,都成了室内的图片。但是又出现了新的问题,人物的姿势怎么改变了,还是 AI 的「随机性」在作祟。
我们还是想要和之前的人物姿势一样,这怎么办呢?这时候我们就要用到「随机种子」。

AI 生成一幅作品的过程是随机的,但它的每一次生成都有自己的一套描述方式,而这个描述方式会被记录成一组随机数,也就是随机种子。

不同的随机种子生成出来的图片肯定是不一样的,但是如果你用同一个随机种子来生成图片,那肯定两组图片的相似度是非常高的,因为都是用同一套随机方法生成出来的。因为你每生成一张图,就会生成一套随机种子,有的种子效果好,有的种子效果差。你可以把这个随机种子简单理解成 AI 生成这张图的唯一编号。
在「随机种子」这个选项中,左边的骰子按钮可以把随机种子设置为 -1,就是每次都生成新的种子。右边的循环按钮就是代表重用上一次使用的随机种子。

当然除了随机种子的设置除了上面介绍的两种方式外,你也是可以自行输入的。例如说,我在图库浏览里面找到上次生成的随机种子复制出来填写到本次生成图片的随机种子里面,这样也是可以的。
话不多说,我们实操一遍,将上一次的随机种子作为本次的随机种子。点击生成图片。这时候两张图片的风格和姿势是不是都很相似了?

在学习了解完上面我们所有关于「图生图」的细节之后,我们再来说说「图生图」的具体应用场景有哪些。
我们今天有运用到的。其实这个场景很多 AI 相机里面都是可以做到的,但是我们通过 SD WebUI 能更加细致的来操作这个演变的过程,更加可控。

这种方式你可以做一些风景的拟人画,风景变成人物。

将草稿图上传到 SD WebUI,再对图片用提示词进行准确地描述。当然我这里只是简单的给大家列举出常用的一些「图生图」场景,更多的场景你也可以发挥自己的想象。

为了进一步提升生成质量,建议关注以下几个高级设置:
当生成的图片分辨率较低时,可以使用高清修复功能。开启后,SD 会先生成低分辨率底图,然后放大并进行细节重绘。这能显著提升图片的清晰度和纹理细节。
VAE (Variational Autoencoder) 负责将潜在空间解码为图像。如果生成的图片颜色灰暗或模糊,可以尝试切换不同的 VAE 模型。默认通常使用 vae-ft-mse-840000,但特定模型可能需要特定的 VAE。
通过上述参数的精细调整,用户可以更好地掌控 Stable Diffusion 的生成过程,实现从粗略构思到精细成品的完整工作流。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online