Stable Diffusion 入门指南:原理、应用与使用技巧
2022 年 8 月,在美国科罗拉多州举办的一场新兴数字艺术家竞赛中,一幅名为《太空歌剧院》的作品获得'数字艺术/数字修饰照片'类别的一等奖。该作品的作者并没有绘画基础,而是利用 AI 生成的。这一事件展示了 AI 在绘画领域惊人的创造力,让人们见识到 AI 作品不仅可以具有精心雕刻般的细节,还可以拥有独特的风格。创作者只要通过自然语言将创作需求描述清楚,就能借助 AI 生成高品质的作品。
本文介绍了 Stable Diffusion 的基本原理、应用场景及使用方法。作为开源的 AI 绘画工具,Stable Diffusion 基于潜在扩散模型,支持文生图、图生图、内补绘制等功能。文章详细阐述了扩散模型的训练与生成机制,列举了其在数字艺术、游戏设计、广告创意等领域的实际应用。此外,还提供了本地环境搭建、WebUI 安装流程以及提示词工程和核心参数设置的实操指南,旨在帮助用户掌握这一高效的生产力工具,实现人机协作的创作模式。

2022 年 8 月,在美国科罗拉多州举办的一场新兴数字艺术家竞赛中,一幅名为《太空歌剧院》的作品获得'数字艺术/数字修饰照片'类别的一等奖。该作品的作者并没有绘画基础,而是利用 AI 生成的。这一事件展示了 AI 在绘画领域惊人的创造力,让人们见识到 AI 作品不仅可以具有精心雕刻般的细节,还可以拥有独特的风格。创作者只要通过自然语言将创作需求描述清楚,就能借助 AI 生成高品质的作品。
AI 绘画是指使用人工智能算法生成图像或绘画作品,它基于机器学习模型,可以接受不同的提示词(Prompt)、引导图等作为输入参数来生成各种风格和内容的视觉艺术品。例如,给 AI 输入提示词 "a cute cat" 即可得到相应的绘图结果。

那么如果随口说出几个指令就能画出好看的图画?未来插画师、摄影师是否会被取代?对于没有学习过绘画的普通用户,同样能创作出优质的绘画作品。AI 绘画的大门正在为所有人敞开,而通往这扇门,我们就不得不提到一个优秀的绘图工具 Stable Diffusion。
在当下流行的 AI 绘画工具中,Midjourney 和 Stable Diffusion 是风头最盛的,它们在产品策略上各有长处。
Midjourney 的优势在于它通过 Discord 来构建自己的 AI 绘画社区,这个策略一方面使得用户能够在社区互相学习提示词的使用技巧,从而激发用户的兴趣;另一方面通过庞大的用户数量积累了独有的数据集,进而可以根据用户需求有针对性地训练模型并快速进行产品迭代。
Stable Diffusion 的厉害之处在于它可以在运行于大多数配备有合适 GPU 的个人计算机上,而且,它开源了项目代码和模型权重。这样一来,开发者就可以在它的基础上进行二次开发、做插件、做工具,这就有了如今结合 Stable Diffusion 流行起来的 Stable Diffusion WebUI、LoRA、ControlNet 等开源项目。这就相当于给 Stable Diffusion 的发展增加了大量的盟友,极大地丰富了它的功能和特性。
对于想要使用 Stable Diffusion 来进行 AI 绘画的用户来说,开源意味着更大的灵活性和自由度,我们可以借助 Stable Diffusion 丰富的相关模型和扩展插件来满足我们自己独特的 AI 绘画创作需求。
Stable Diffusion 是一款在 2022 年发布的支持由文本生成图像的 AI 绘画工具,它主要用于根据文本描述生成对应图像的任务,也可以应用于其他任务,比如对原图像内的部分遮罩区域进行重绘的内补绘制功能(Inpainting)、在原图像外部范围进行延伸画图的外补绘制功能(Outpainting)、在提示词引导下基于输入图像生成新图像的图生图功能等。
Stable Diffusion 最核心的部分是它的模型,要理解 Stable Diffusion 所使用的潜在扩散模型背后的技术细节需要一定的算法基础,因此我们在这里只用尽量简要的语言介绍一下扩散模型的训练过程,帮助大家对它建立一个大概的印象。
扩散模型的训练需要先找到大量高质量的图像数据,训练时先进行正向扩散,即对每张图像按照高斯噪声公式逐步向数据中添加噪声,直到整张图像变成一张全是噪声的图像(噪声数据)。在这个训练的过程中,会记录所有步骤,然后用神经网络来反向学习噪声分布和数据分布之间的关系,即学习如何给一个全是噪声的图像降噪,生成一张高清图像。

所有高质量图像都经过步骤 (1) 后,就会得到一个训练好的扩散模型,机器就可以通过噪声来对图像进行预测。这样一来,整个绘画的过程就是 AI 用一组随机噪声(随机数)来预测基于它们能画出一个什么样的图像,即从一堆凌乱的随机数中画出图像。这是一个大力出奇迹的过程,但厉害的是最终能产出清晰度非常高和细节较为完美的图像。
来欣赏几张 Stable Diffusion 生成的高质量图片吧:
从左往右:港口;底下洞穴的水晶沉积物
从左往右:甜美风小姐姐;二次元小姐姐
Stable Diffusion 作为一款强大的 AI 绘画工具,可以用在哪些场景呢?
随着相关技术的进步,Stable Diffusion 的应用场景还会越来越广泛,成为大家提高创造力和生产力的好帮手。当然,艺术创意和审美判断仍然需要人类的专业知识和审美眼光,只有人与机器更好地结合、互补,设计领域才可以发展得更好。
要在本地运行 Stable Diffusion,通常需要满足以下硬件和软件要求:
Automatic1111 是最流行的 Stable Diffusion WebUI 实现之一。
models/Stable-diffusion 目录下。webui-user.bat (Windows) 或 webui.sh (Linux)。WebUI 界面主要分为以下几个区域:
提示词(Prompt)是控制生成效果的关键。建议使用英文关键词组合。
(keyword:1.2) 增加权重,[keyword:0.8] 降低权重。用于修复图像局部或替换特定区域。用户只需涂抹需要修改的区域,输入新的提示词,AI 会根据上下文重新生成该部分内容。
用于扩展图像边界。AI 会根据现有图像的内容向外延伸,生成更大尺寸的完整画面。
基于输入图像生成新图像。可以通过调整重绘幅度(Denoising strength)来控制与原图的相似度,数值越高变化越大。
如此多应用场景,相信 Stable Diffusion 未来会被更多人使用并且满足更多人的需求,无论你是否会画画,学习使用这个工具会让你的工作效率倍增,且亲手实现自己脑海里的无限 idea。
在可预见的未来,随着 AI 大范围在职场推广,使用门槛降低,部分还在做重复工作的打工人会不可避免地被取代。这也是为什么身边越来越多人都在学 AI。负责任地说,这是 AI 离普通人超近的一次。
很简单:只要你有一个浏览器,登录一个网页,会打字、会聊微信就能够直接使用。 很实用:任何上班族,无论你的工作涉及文字、图片、数字,或是办公软件全家桶,它都能成为你的高效助理。 很聪明:AI 如同一个六边形战士,当你有个绝妙点子,它能随时点亮技能树,用编程、写作、绘画技能把你的想法落地。
随着人工智能的推广,具备 AI 技能的人将更容易适应未来岗位需求,成为早期吃到红利的稀缺人才。早点开启 AI 学习,给自己的人生来个翻天覆地的变化吧!

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online