Stable Diffusion 提示词编写与 ControlNet 控制网实战指南
前言
Stable Diffusion (SD) 作为当前主流的文生图模型,其核心能力在于通过文本提示词(Prompt)引导图像生成。掌握高效的提示词工程以及利用 ControlNet 进行精确控制,是提升生成质量的关键。本文将深入解析 SD 提示词的构成逻辑、权重分配技巧,并详细讲解 ControlNet 各预处理器的工作原理与实战应用。
一、SD 提示词编写基础
1. 标准画质提示词
高质量的输出往往依赖于特定的关键词组合,这些词汇能激活模型对细节和分辨率的潜在理解。
-
通用高画质:
masterpiece:杰作,提升整体艺术感。
insanely detailed:极度精细的细节(原文本中 nsanely 为拼写错误,已修正)。
ultra-detailed:超精细细节绘制。
best quality:高质量。
-
特定高分辨率类型:
HD Quality:高清。
8k:8K 分辨率。
sharp focus:焦点清晰。
unreal engine rendered:虚幻引擎渲染风格。
2. 画家与风格提示词
选择合适的艺术家或风格标签可以统一画面的视觉调性。
-
经典画家风格:
- 19 世纪肖像画家:
John Collier
- 偏写实和现代风格:
Stanley Artgerm Lau
- 擅长女性肖像,偏印象派:
John Singer Sargent
- 擅长画平面肖像:
Alphonse Mucha
-
画风分类:
- 插画风:
illustration, painting, paintbrush
- 二次元:
anime, comic, game CG
- 写实系:
photorealistic, realistic, photograph, Ultra realistic illustration
- 数字艺术:
Digital painting, Concept art
-
艺术流派:
- 印象派:
hyperrealistic
- 超现实主义:
fantasy
- 波普艺术:
surrealist
3. 内容与主体特征
描述画面中的具体元素,确保主体符合预期。
-
人物及主体特征:
- 面部:
exquisite face(精致的脸), clear face(清晰的脸)
- 服饰:
white dress(白裙)
- 发型:
blonde hair(金发), long hair(长发)
- 五官:
small eyes(小眼), big mouth(大嘴)
- 表情:
smiling(微笑)
- 动作:
stretching arms(伸展手臂)
- 皮肤质感:
(high detailed skin:1.2)
-
场景与环境:
- 空间:
indoor(室内), outdoor(室外)
- 规模:
forest(森林), city(城市), street(街道)
- 细节:
tree(树), bush(灌木), white flower(白花)
- 光照:
day(白天), night(黑夜), sunlight(阳光), starry sky(星空)
4. 构图与视角
构图决定了画面的视觉重心和叙事方式。
-
基础构图关键词:
- 对称构图:
Symmetrical composition
- 对角线构图:
diagonal composition
- 水平线构图:
horizontal composition
- 散点构图:
Scattered composition
- 遮挡构图:
blocking composition
- 线条构图:
Line composition
- 仰拍构图:
upside-down composition
- 俯拍构图:
perspective composition
- 对比构图:
Contrast composition
- 架构式构图:
frame composition
-
距离与比例:
- 距离:
close-up(特写), distant(远景)
- 人物比例:
full body(全身), upper body(半身)
- 观察视角:
from above(俯视), view of back(背影)
- 鸟瞰视角:
aerial view, overhead shot
- 镜头类型:
wide angle(广角), sony v7
-
特殊效果:
- 宏伟场景:
massive scale
- 史诗级构图:
Epic level composition
- 景深虚化:
blurry background
- 田园风格:
idyllic, lush vegetation
5. 提示词权重分配
通过括号调整关键词的重要性,使 AI 更关注特定内容。
-
括号 + 数字:
(red flower:1.5):加强红色花朵出现的权重至 1.5 倍。
(red flower:0.5):减弱红色花朵出现的权重至 0.5 倍。
-
嵌套括号:
((red flower)):每套一层,权重约增加 1.1 倍。
{{red flower}}:每套一层,权重约增加 1.05 倍。
[[red flower]]:每套一层,权重约降低至 0.9 倍。
6. 正向与反向提示词示例
-
正向提示词模板:
((masterpiece)),((insanely detailed)),((intricate)),((exquisite face)) illustration, a beautiful young girl, full body, standing, white dress, perfect lighting
结构建议:画质标准 + 风格 + 人物特征 + 光线环境。
-
常用反向提示词:
用于排除不需要的元素,如水印、低质量、畸形等。
NSFW, lowrs, blurry, (deformed, distorted, disfigured:1.3), (stacked torsos:1.2), poorly drawn, bad anatomy, wrong anatomy, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, amputation, (extra fingers:1.2), (worst quality, low quality:1.3), out of frame, jpeg artifacts, duplicate, morbid, mutilated, dehydrated, bad proportions, cloned face, gross proportions, malformed limbs
无人物场景简化版:
NSFW, out of frame, worst quality, low quality
二、ControlNet 深度解析
ControlNet 是一种扩展 Stable Diffusion 的神经网络,允许用户通过边缘检测、草图、姿态等多种条件精确控制图像生成。它本质上是对原始扩散模型的微调方法,在不改变主模型权重的情况下注入额外的约束信息。
1. ControlNet 基础设置
在 WebUI 界面中,启用 ControlNet 后需关注以下模块:
- Enable:必须勾选以启用功能。显存较小时建议开启 Low VRAM 模式。
- Low VRAM:减缓处理速度但节省显存,适用于 6GB 以下显存设备。
- Pixel Perfect:勾选后根据原图像素自动调整预处理精度,画面更清晰。
- Allow preview:启用预览模式,可实时查看不同模型下的边缘检测结果。
2. ControlNet 核心预处理器详解
Canny(边缘检测)
Canny 通过检测输入图像的高对比度区域轮廓来提取线条。它能捕捉非常详细的形状信息,但对背景干扰敏感,建议背景干净时使用。
- 适用场景:保留参考图的形状和轮廓。
- 参数建议:重绘幅度(Denoising strength)设为 0.6-0.75,既能保持结构又允许一定创作空间。
- 案例说明:使用建筑原图配合 Canny 模型,生成的图片保留了东方明珠塔的轮廓,但色彩和材质可根据提示词自由变化。
Scribble(涂鸦)
Scribble 支持从简单的黑白线条画或草图生成图像。若草图为白底黑线,需勾选"Invert Input Color"。
- 适用场景:将手绘草图转化为成品图,适合概念设计阶段。
- 优势:允许用户对构图进行大幅度的修改,AI 负责填充细节和纹理。
Depth(深度图)
Depth 预处理器生成输入图像的深度估计,浅色代表近处,深色代表远处。常用于控制物体的空间定位。
- 适用场景:保留参考图的空间关系,适合风景或复杂场景的重绘。
- 注意:在大图生成时可能丢失面部细节,建议配合
control_sd15_depth 模型使用。
- Midas Resolution:级别越高,VRAM 占用越大,但细节越丰富。
Depth Leres
与 Depth 类似,但包含更广的动态范围。有时能捕获更多图像信息,但也可能导致与原图略有偏差。
- 对比选择:根据具体图片测试 Depth 和 Leres,通常 Leres 对高楼等垂直结构的保留更好。
Normal Map(法线图)
法线图利用红绿蓝三色表示物体表面的粗糙度和角度,能精确定位物体的凹凸细节。
- 适用场景:突出复杂的表面细节和轮廓,特别是在接近度和距离方面。
- 阈值调整:"Normal Background Threshold"用于移除背景远处部分,避免背景干扰。
OpenPose(动作姿态)
OpenPose 生成骨骼火柴人形象,广泛用于控制人物的动态姿势。支持多人骨架组合。
- 适用场景:固定人物动作,如舞蹈、运动姿势。
- 手部控制:OpenPose Hand 专门用于优化手部的姿态生成,减少手指畸变。
Segmentation(语义分割)
将图像分割为不同的色块区域,每个区域对应特定的语义类别。
- 适用场景:需要严格区分前景、背景、天空、地面等区域的生成任务。
- 特点:色泽和区域划分保留较好,适合风格迁移。
3. 高级参数配置
-
Control Mode:
My prompt is more important:提示词权重更高,ControlNet 仅作为辅助。
Balance:平衡提示词与 ControlNet 的控制力(推荐)。
ControlNet is more important:ControlNet 权重更高,严格遵循参考图结构。
-
Resize Mode:
Just Resize:拉伸图像以适应目标尺寸,可能变形,不推荐。
Crop and resize:裁剪并调整大小,保持比例,适应目标尺寸。
Resize and Fill:调整目标尺寸以适应原图,自动补全空白,推荐使用。
三、实战案例与常见问题
案例演示
- 基础生成:仅使用简单提示词
a beautiful young girl, white dress,生成的图像脸部手部模糊,画质一般。
- 优化生成:加入画质词
((masterpiece)),((exquisite face)),风格词 photorealistic,以及反向提示词。生成的图像脸部清晰,光影自然,近景效果明显。
- ControlNet 应用:使用 Canny 模型配合原图轮廓,在保持建筑结构的同时改变材质和风格;使用 OpenPose 固定人物动作,实现多张图的一致性。
常见问题与解决方案
- 问题 1:手部畸形
- 原因:SD 模型对复杂手部结构理解不足。
- 解决:使用 Highres. Fix 修复,或在反向提示词中加入
bad hands,或使用 OpenPose Hand 模型。
- 问题 2:画面过暗或过曝
- 原因:光照提示词不足。
- 解决:添加
soft lighting, cinematic lighting, bright sunlight 等关键词。
- 问题 3:ControlNet 失效
- 原因:未勾选 Enable 或模型加载失败。
- 解决:检查显存是否足够,重新下载 ControlNet 模型文件,确认 Preprocessor 与 Model 匹配。
四、总结
掌握 Stable Diffusion 的核心在于理解提示词的语言逻辑与 ControlNet 的控制机制。通过合理组合画质、风格、构图关键词,并利用 ControlNet 的各种预处理器,用户可以实现对生成图像的精细化控制。建议在实际操作中多尝试不同的权重组合与模型搭配,积累个人经验库,从而获得理想的创作成果。
后续将继续探索如何生成脸部一致的人物以及更复杂的动作控制,欢迎持续关注相关技术更新。