Stable Diffusion 文生图基础分辨率限制
在使用 Stable Diffusion(SD)进行文生图时,目前主流的大模型主要分为两类:普通模型和 SDXL 模型。
普通模型通常基于 SD 1.5 或 SD 2.0 作为底模开发,是目前使用最广泛的模型类型。这类模型的基础训练分辨率通常为 512 x 512 像素。虽然部分模型支持 768 x 512 等变体,但核心逻辑仍受限于原始训练尺寸。
如果用户直接修改文生图的 width 和 height 参数来增加图片分辨率,生成的效果往往不佳。常见的问题包括画面结构混乱、出现多头或多肢体、细节模糊等。这是因为 AI 在生成图像时是基于特定的潜在空间分布训练的,当画布突然变大,AI 需要填充更多的像素点,超出了其原本擅长的尺寸范围,导致不合理叠加和语义错误。

高清修复功能 Hires. fix 原理
为了解决 低分辨率生成后直接放大的问题,SD WebUI 提供了 Hires. fix(高清修复)功能。该功能的核心流程是:
- 先生成低分辨率底图:按照常规设置生成一张较小尺寸的图像。
- 放大处理:利用选定的放大算法(Upscaler)将图像尺寸提升。
- 重绘修复:基于放大后的图像,结合去噪强度(Denoising strength)对细节进行二次重绘,以补充丢失的细节并修正畸变。
这种分步处理方式能有效保证画面的连贯性和清晰度。
| 原图分辨率 | 高清修复后分辨率 |
|---|
| 768 x 512 | 1536 x 1024 |
左图为原始生成结果,右图启用了 Hires. fix 并将放大倍数设为 2 倍。可以看到右侧图像细节更加丰富,线条更清晰。
需要注意的是,启用 Hires. fix 会显著增加显存占用和出图时间。对于配置较低的电脑,建议放大倍数不超过 2 倍,否则可能导致显存溢出(OOM)。
实操步骤详解
1. 提示词与基础设置
首先输入正向提示词和反向提示词。以下是一个示例咒语,包含质量修饰词、主体描述及 LoRA 引用:
(best quality, masterpiece, perfect face, beautiful and aesthetic:1.2, colorful, dynamic angle), handsome beautiful woman humanoid woman robot part metal wires with wavy short dark hair, elegant, red lighting, realistic, concept art, smooth, detailed, high quality, alphonse mucha and waterhouse,, <lora:add_detail:0.5>, (high contrast, official art, extreme detailed, highest detailed)
Negative prompt:
portrait, doll, (leaning against wall:1.3), (asian, chinese:1.3), (worst quality, low quality), FastNegativeV2
基础参数:
- Steps: 20
- Sampler: DPM++ 2M SDE
- CFG scale: 6
- Size: 768x512
2. 开启 Hires. fix
在 WebUI 界面中,找到 Hires. fix 选项卡并展开。关键参数设置如下:
- Upscale by: 设置为
2,表示等比放大 2 倍。
- Denoising strength: 设置为
0.6。此参数控制重绘幅度。数值越高,新图与原图差异越大;数值越低,越保留原图结构。

点击生成按钮后,系统会先完成初始绘图,然后自动执行放大和重绘流程。
Hires. fix 核心参数深度解析
1. 放大算法 Upscaler
Upscaler 决定了图像放大的具体方式,不同算法适用于不同场景:
- Latent: 简单直接的放大算法,速度快,但对电脑配置要求低,出图效果一般,可能出现模糊。
- Lanczos: 通过计算权重插入新像素,速度较快,效果尚可,适合通用场景。
- Nearest: 插值算法,速度极快,但容易产生锯齿或块状瑕疵,不推荐用于高质量输出。
- ESRGAN_4x: 学习低分辨率到高分辨率的映射,最高增强 4 倍,可能产生锐化效果,适合油画风格。
- LDSR: 基于潜在扩散模型,细节拉满,但极其消耗资源,速度慢如龟速。
- R-ESRGAN 4x+: 引入残差连接和 GAN 训练,质量优于传统方法,推荐使用。
- R-ESRGAN 4x+ Anime6B: R-ESRGAN 的衍生版,专门针对二次元漫画优化,修复效果极佳。
- ScuNet GAN / PSNR: 降噪效果好,保留细节多,但速度慢,不适合二次元。
- SwinIR 4x: 图像重建能力强,真实感高,适合绘画修复,不适合二次元。
建议:优先参考模型作者推荐的放大算法。若不确定,R-ESRGAN 4x+ 通常是安全的选择。
2. 放大倍数与宽高调整
- Upscale by: 最常用的参数,控制等比缩放比例。建议不超过 2 倍,除非硬件允许。
- Resize width/height to: 强制指定宽高,会改变原图比例,通常不建议使用,除非有特定构图需求。
3. 高分迭代步数 Hires steps
默认值为 0,表示沿用文生图的步数。手动设置此值可影响画质精细度,但存在边际效应。例如从 30 步增加到 60 步,视觉提升可能不明显,但耗时翻倍。
4. 重绘幅度 Denoising strength
这是最关键也最难调的参数:
- < 0.5: 保留原图结构较多,适合微调细节。
- 0.5 - 0.7: 平衡结构与细节,常用区间。
- > 0.7: 重绘幅度过大,可能导致人物五官变化或背景完全改变。
若设置过低(如 0.3),可能导致画面四周模糊或细节未得到充分修复。

5. 高分模型 Checkpoint
默认情况下,Hires. fix 阶段复用主模型。但在设置中开启 Hires fix: show hires checkpoint and sampler selection 后,可以单独选择用于高清修复阶段的模型。这允许用户在放大阶段使用不同的采样器或提示词,实现局部调整。
例如,在 Hires. fix 的正向提示词中输入 pink hair,可以在保持原图构图的基础上将头发颜色改为粉色。
注意:必须在 Hires. fix 的独立提示词框中输入,而非主输入框。
进阶技巧与常见问题
1. 显存优化策略
高清修复非常消耗显存。如果设备显存不足,可采取以下措施:
- 降低
Upscale by 倍数。
- 使用
--lowvram 启动参数。
- 选择轻量级放大算法(如 Latent)。
- 关闭 Face restoration 或其他额外修复插件。
2. 替代方案:ControlNet Tile
除了 Hires. fix,ControlNet 的 Tile 模型也是提升分辨率的有效手段。它能在保持构图不变的情况下,通过额外的神经网络层生成更丰富的纹理细节。相比 Hires. fix,ControlNet Tile 有时能更好地处理复杂背景,但需要额外安装插件并调整参数。
3. 避免伪影
在放大过程中,可能会出现重复纹理或边缘断裂。解决方法包括:
- 适当提高
Denoising strength。
- 更换更适合当前风格的 Upscaler。
- 使用 Tiling 技术(需配合特定脚本)。
总结
Stable Diffusion 生成高分辨率图片的核心在于理解'生成'与'修复'的区别。直接拉伸分辨率无法获得高质量结果,必须借助 Hires. fix 或 ControlNet 等工具进行二次处理。合理配置放大算法、重绘幅度和迭代步数,可以在有限的硬件资源下获得最佳视觉效果。随着 AIGC 技术的发展,未来可能会有更多自动化的高清修复工作流出现,但目前掌握这些手动参数仍是必备技能。