基于文本引导的图像生成技术与 Stable Diffusion 实践
前言
我们要给扩散模型加上文本控制的能力。目标是实现从纯噪声加文本描述直接生成图像,而不仅仅是处理纯噪声。
基于扩散模型的文本生成图像
在扩散模型 UNet 的训练流程里,我们只让模型预测含噪图像中的噪声。要实现文生图功能,需要调整架构,把文本作为额外输入注入 UNet 模型:
这种经过调整的 UNet 被称为条件 UNet,更准确说是文本条件 UNet,因为它会根据输入文本来生成图像。为了训练这类模型,首先得把输入文本编码成 UNet 能接受的嵌入向量。接着要微调 UNet 结构,适配这种额外的文本输入数据。下面先介绍文本编码部分。


