Stable Diffusion 新手入门:AI 绘画基础与指令详解
本文介绍了 Stable Diffusion 的基础知识,涵盖环境配置、文本指令构成、参数设置、模型选择及插件应用。内容详细解析了 WebUI 界面中的正面与负面提示词、采样方法、迭代步数、CFG 值等关键参数,并区分了大模型、LoRA 和 VAE 的作用。此外,文章还补充了 ControlNet 插件的功能说明及新手最佳实践建议,旨在帮助初学者快速掌握 AI 绘画的核心流程与技巧,提升生成图像的可控性与质量。

本文介绍了 Stable Diffusion 的基础知识,涵盖环境配置、文本指令构成、参数设置、模型选择及插件应用。内容详细解析了 WebUI 界面中的正面与负面提示词、采样方法、迭代步数、CFG 值等关键参数,并区分了大模型、LoRA 和 VAE 的作用。此外,文章还补充了 ControlNet 插件的功能说明及新手最佳实践建议,旨在帮助初学者快速掌握 AI 绘画的核心流程与技巧,提升生成图像的可控性与质量。

关于 AI 绘画,很多人在体验了 Midjourney(以下简称 MJ)之后,发现它创意能力很强,但可控性比较弱,不便应用,于是转向 Stable Diffusion(以下简称 SD),但又发现 SD 貌似很复杂。本文旨在帮助新手快速认识 SD,理解其核心逻辑。
AI 绘画的算法工具,如果要做一个不一定准确的类比,可以说 MJ 是类似 AI 美图秀秀般的存在,简单易上手;SD 则类似 Photoshop,同样是图片处理,但学习起来要复杂一些,精通相对更难。
Stable Diffusion 的直译是'稳定的扩散'。很多教程一开始就讲'扩散'原理,讲一大堆运行逻辑,令人望而生畏。实际上,我们只需知道它是一个 AI 画图算法工具即可,就像母鸡可以产蛋,但普通用户并不需要研究母鸡的生殖构造和产蛋原理。

SD 目前需要在电脑中工作。在使用 SD 之前,首先要了解它的使用环境。
SD 和 MJ 一样可在线使用,不同的是 SD 是开源的。如果条件允许的话可考虑在本地部署,完全免费,可以非常灵活地配置各种模型等,但对本地硬件要求比较高。
对软件环境也有要求,例如配置 Python 等。听起来好像很麻烦,实际不然,目前已有各种一键安装包,小白都可轻松安装。在线部署的服务商也会提供具体教程,如阿里云的 SD 部署,这里不做多讲。
ChatGPT 也好,AI 绘画也好,都属于生成式 AI,这类 AI 目前有一个特点,需要人工输入指令去引导它工作。你提出的'问题',就是使它工作的指令。
AI 绘画和 ChatGPT 不同的是,不需要提问,但需要你告诉它,你要画什么东西。用过 MJ 的朋友应该非常理解这个动作,例如,MJ 用户需要它画一个女孩,只需要输入对应的英文'A girl'即可。
在 SD 中,这种方式可行吗?当然可以。但和 MJ 这种一句话搞定的方式不同,SD 的绘画指令和参数明确由多个部分组成,看似繁多但不复杂,也比较容易理解。
这些指令主要属于文本指令,是'文生图'方式。SD 还支持同时使用文本 + 样图,去生成图片或对图片进行修改,这种是'图生图'方式。
SD 的所有绘画指令,在一个的操作界面(WebUI)中完成,界面主体由几个部分组成。
包含 2 个部分:你想画什么(正面描述)、你不希望画面出现什么(负面/反面描述)。
这种指令,和 MJ 是大体相同的,只不过在 MJ 中需要用一句话讲完,而在 SD 中,要在不同的输入框中分开填写,更加直观。比如说,你希望画'一个漂亮的 18 岁的女孩',这是一个正面描述;你希望这个女孩不要出现'多余的手指',这是一个反面描述。只需要在对应的输入框中填入即可。
文本指令是非常重要的部分,描述得清晰不清晰,出来的画面大相径庭。
无需一听'参数'二字就觉得麻烦,就是一个简单的设置。在 SD 中,基础参数设置主要包括以下几个地方:
这个名词的原本含义解释起来比较拗口,但你可以将它理解为不同的图像渲染方式。不同的采样方法有不同的特长。
这个步数值影响图像的细节,一般来说,建议 20 起步,越大代表图像越精细,但并不是越大越好,需要在实践中结合不同的模型去观察。区间在 20-40 比较常见。
这里常用的是'面部修复'和'高清修复'两个选项。
但需要指出的是,放大的尺寸并非无限,普通配置的电脑,长宽放大到 1500*1500 几乎已是极限,而且,放大的图片和小图风格一致但细节有差别,这个可以在实践中对照。
最容易理解的一个选项,根据需求设定分辨率。
这 2 个数值很考验显卡计算能力,以 8G 显存为例,建议批次设置为 3(一次生成 3 批),每批数量为 1,总共 3 张图片。每批数量的值越大,对显卡的压力越大,一般建议保留默认数值 1。
需要指出的是,即使所有的设置一样,在不同的显卡下,生成图片的细节差别可能会比较大。
模型选择实际上也属于'指令'的组成部分,这里单列出来说。模型是 AI 绘画中一个基础设施,决定生成画面的元素、风格、画风等。有些像 PPT 一样,你采用不同的模板,呈现的就是不同的画面风格。
从上图操作界面中可以看到,常用模型主要有以下几种:
指 SD 绘图的基础模型,也叫底模。SD 必须搭配大模型才能使用。大模型决定画面的主要风格,不同的大模型擅长的领域会有侧重,比如,有些擅长画漫画,有些是真人、建筑、国风等。
常用的主要指 LoRA 模型,属于微调模型,必须结合大模型使用,通过不同的权重影响画面特征。有人说,大模型相当于素颜,小模型相当于化妆,在某种程度上的确可以这么理解。 LoRA 模型由于训练简单效果显著,得到广泛应用,但这种小模型并不是必须的,很多大模型本身就带有很好的'化妆'效果。所不同的是,小模型和大模型同时使用的时候,可以调整出大模型无法达到的叠加优化效果。
可以理解为滤镜,用于调节和美化。同样的,它也不是必须的,依据个人绘画需要决定是否采用。也有例外,个别大模型由于训练效果等问题,会明确提示要结合 VAE 使用。
Embeddings、Hypernetworks、LyCORIS、DreamBooth(微调大模型)模型,这些对初学者来说,很少有机会用到,以后再讲。
要达到比较好的画面效果,必须通过训练得到绘画模型。初学者更多的是使用别人训练好的。网上有大量免费共享模型,熟练使用之后,也可以自己训练私有模型。模型训练需要较好的硬件支撑,以及一些高质量的训练素材等。
在一些时候,单纯依靠文本指令,并不能画出我们想要的画面,这个时候就需要使用 SD 插件。插件是 SD 绘画可以进入应用层面的、非常重要的一个部分。
SD 目前最常用、最强大的插件,一般认为是 ControlNet 插件。它可以控制人物表情、姿势、手势等,可以识别景深、线条,并生成文本指令无法实现的要素。IPAdapter 也是近年来流行的插件,主要用于保持角色一致性。
这种的插件,意味着 SD 绘画拥有较高的'可控性'能力。这是其它 AI 绘画工具目前无法比拟的,也意味着其更加接近商业层面的应用。
了解了上述主要界面元素和指令之后,对 SD 生成图片基本就算是有了一个基础认识。大家也可以看到,它虽然指令和参数比较多,但理解起来并不困难。
为了进一步提升使用体验,以下是一些针对新手的补充建议:
cinematic lighting, octane render)、质量词(如 masterpiece, best quality)以及构图词(如 wide angle, portrait)。low quality, bad anatomy, extra fingers, deformed hands 等。--medvram 启动参数来优化显存占用。最后小结一下,SD 的文生图绘画指令从整理开看,主要包含了以下内容:

AI 绘画技术正处于快速发展阶段。随着人工智能技术的不断进步,AI 绘画将在游戏、设计、影视等领域得到更广泛的应用。对于创作者来说,掌握 SD 的核心逻辑和工具链,将有助于更高效地实现创意。未来,AI 技术将继续与人类创造力紧密结合,在更多的领域得到广泛应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online