前言
随着人工智能技术的飞速发展,AI 绘画已成为内容创作领域的重要工具。相比 Midjourney 等闭源商业软件,Stable Diffusion(简称 SD)以其开源、免费、可本地部署的特性,为技术爱好者提供了更高的自由度和可控性。本文将详细介绍 Stable Diffusion 的入门安装、核心功能配置以及基于蒙版和 ControlNet 的写真生成实战流程。
AI 绘画与 Stable Diffusion
提到 AI 绘画,Midjourney 因其高质量出图而广为人知,但其使用门槛较高(需网络环境)且订阅费用不菲。对于希望深入理解原理或进行定制化开发的技术人员而言,Stable Diffusion 是更优的选择。
Stable Diffusion 是一个基于潜在扩散模型(Latent Diffusion Model)的开源项目。它允许用户在本地运行,通过调整参数、更换模型和使用插件,实现从文生图到图生图的多种效果。其强大的扩展性和社区生态支持,使其成为目前最流行的开源 AI 绘图方案之一。
环境准备与安装
1. 系统要求
- 操作系统:Windows 10/11 或 Linux。
- 显卡:推荐使用 NVIDIA 显卡,显存建议 8GB 及以上(如 RTX 3060)。若显存不足,可使用优化版本或云端算力。
- 内存:建议 16GB 以上。
- 存储:预留至少 50GB 空间用于模型文件。
2. 安装步骤
方式一:整合包安装(推荐新手)
为了简化环境配置,建议使用整合包(如秋叶启动器、B站大佬发布的整合包)。
- 下载整合包压缩包。
- 解压至非中文路径的文件夹。
- 运行
webui-user.bat或start.bat。 - 首次运行会自动下载依赖库和 WebUI 界面。
方式二:源码安装(适合开发者)
- 安装 Python 3.10.x 版本。
- 安装 Git。
- 克隆仓库:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git - 进入目录并安装依赖:
pip install -r requirements.txt - 启动服务:
python webui.py
3. 模型管理
SD 的核心在于模型(Checkpoint)。常用模型包括 SD 1.5、SDXL 等。模型文件需放置在 stable-diffusion-webui/models/Stable-diffusion 目录下。启动后在设置中刷新即可选择。
基础操作界面
启动 WebUI 后,主要包含以下标签页:
- txt2img:文生图模式,输入提示词生成图片。
- img2img:图生图模式,基于原图进行修改。
- Extras:图像修复与放大。
- Settings:全局参数配置。
实战:蒙版变装写真生成
本章节介绍如何通过局部重绘(Inpainting)结合 ControlNet,实现人物脸部不变、背景或服装变化的写真效果。
1. 制作面部蒙版
为了固定人物特征,我们需要精确提取人脸区域。
- 启用插件 Inpaint Anything。
- 上传原始人像照片。
- 点击'下载模型'以加载 Segment Anything 模型。
- 点击'运行 segment anything',系统会自动识别图中主体。
- 使用画笔工具涂抹人脸区域。
- 点击'创建蒙版',并根据需要调整边缘,确保只保留头部及颈部关键区域。
- 将处理好的蒙版发送到'图生图'或'局部重绘'模块。
2. SD 基础设置
选择大模型
建议选择写实风格的大模型,例如 MajicMix Realistic 或 ChilloutMix 等。在模型下拉菜单中选择已下载的 .safetensors 格式模型。
编写提示词 (Prompt)
正向提示词描述画面内容,负向提示词排除不想要的元素。
示例提示词:
High quality, masterpiece, realistic photography, 8k, high-definition,
1 girl, solo, exquisite hairstyle, black hair, crown, headwear,
Blue dress, long skirt,
Outdoor, snow, ice castle, snowflakes, blurred background, looking at viewer
负向提示词:
low quality, worst quality, bad anatomy, bad hands, text, watermark, signature
参数配置
- 采样器 (Sampler):推荐 Euler a 或 DPM++ 2M Karras。
- 迭代步数 (Steps):20-30 步。
- CFG Scale:7 左右。
- 重绘幅度 (Denoising strength):控制在 0.6-0.9 之间,数值越高变化越大。
- 分辨率:建议 512x768 或更高,注意显存限制。
3. ControlNet 设置
ControlNet 用于控制画面的结构、姿态和轮廓。
OpenPose
开启 OpenPose 单元,上传参考人物的骨架图,可以保持人物姿势一致。
Canny (线稿控制)
为了固定脸型轮廓,使用 Canny 预处理器。
- 下载生成的线稿图。
- 使用图像处理软件(如 Photoshop)清理多余线条,仅保留五官和脸型轮廓。
- 重新上传处理后的线稿至 ControlNet。
- 预处理选择'无',确保模型权重正确。
4. 细节修图
生成结果可能存在脖子、发际线融合不自然的问题,需进行二次局部重绘。
- 将图片导入'局部重绘'。
- 涂抹需要修复的区域(如脖子、发际线)。
- 蒙版模式选择'重绘蒙版内容'。
- 降低重绘幅度至 0.3-0.5,避免改变原有特征。
- 关闭不必要的 ControlNet 单元,减少干扰。
- 重复上述步骤直至细节满意。
5. 色调统一
最后使用外部修图软件(如美图秀秀、Photoshop)调整整体色温和色调,确保皮肤质感与背景协调。
硬件与性能优化
本地运行
- NVIDIA 显卡:开启
--xformers参数可显著提升生成速度。 - 显存不足:使用
--medvram或--lowvram参数启动。
云端部署
若无高性能电脑,可使用 Google Colab、AutoDL 等云平台。这些平台提供 GPU 资源,按小时计费,适合临时体验或批量生成。
常见问题排查
- 显存溢出 (OOM):降低分辨率,减少 Batch size,或使用优化参数。
- 生成速度慢:检查是否安装了 CUDA 加速,尝试切换采样器。
- 画面崩坏:检查提示词是否冲突,调整 CFG Scale。
总结
Stable Diffusion 提供了极高的创作自由度。通过掌握蒙版技术、ControlNet 控制以及参数调优,用户可以高效生成高质量的写真作品。虽然对硬件有一定要求,但随着云服务的普及,门槛正在逐渐降低。持续学习模型训练(LoRA)和高级工作流,将进一步拓展 AI 绘画的应用边界。


