Stable Diffusion 文生图基础分辨率限制
在使用 Stable Diffusion(SD)进行文生图时,目前主流的大模型主要分为两类:普通模型和 SDXL 模型。
普通模型通常基于 SD 1.5 或 SD 2.0 作为底模开发,是目前使用最广泛的模型类型。这类模型的基础训练分辨率通常为 512 x 512 像素。虽然部分模型支持 768 x 512 等变体,但核心逻辑仍受限于原始训练尺寸。
如果用户直接修改文生图的 width 和 height 参数来增加图片分辨率,生成的效果往往不佳。常见的问题包括画面结构混乱、出现多头或多肢体、细节模糊等。这是因为 AI 在生成图像时是基于特定的潜在空间分布训练的,当画布突然变大,AI 需要填充更多的像素点,超出了其原本擅长的尺寸范围,导致不合理叠加和语义错误。
高清修复功能 Hires. fix 原理
为了解决 低分辨率生成后直接放大的问题,SD WebUI 提供了 Hires. fix(高清修复)功能。该功能的核心流程是:
- 先生成低分辨率底图:按照常规设置生成一张较小尺寸的图像。
- 放大处理:利用选定的放大算法(Upscaler)将图像尺寸提升。
- 重绘修复:基于放大后的图像,结合去噪强度(Denoising strength)对细节进行二次重绘,以补充丢失的细节并修正畸变。
这种分步处理方式能有效保证画面的连贯性和清晰度。
| 原图分辨率 | 高清修复后分辨率 |
|---|---|
| 768 x 512 | 1536 x 1024 |
左图为原始生成结果,右图启用了 Hires. fix 并将放大倍数设为 2 倍。可以看到右侧图像细节更加丰富,线条更清晰。
需要注意的是,启用 Hires. fix 会显著增加显存占用和出图时间。对于配置较低的电脑,建议放大倍数不超过 2 倍,否则可能导致显存溢出(OOM)。
实操步骤详解
1. 提示词与基础设置
首先输入正向提示词和反向提示词。以下是一个示例咒语,包含质量修饰词、主体描述及 LoRA 引用:
(best quality, masterpiece, perfect face, beautiful and aesthetic:1.2, colorful, dynamic angle), handsome beautiful woman humanoid woman robot part metal wires with wavy short dark hair, elegant, red lighting, realistic, concept art, smooth, detailed, high quality, alphonse mucha and waterhouse,, <lora:add_detail:0.5>, (high contrast, official art, extreme detailed, highest detailed)
Negative prompt:
portrait, doll, (leaning against wall:1.3), (asian, chinese:1.3), (worst quality, low quality), FastNegativeV2
基础参数:
- Steps: 20
- Sampler: DPM++ 2M SDE
- CFG scale: 6
- Size: 768x512


