PyTorch 实战:基于文本引导的图像生成与 Stable Diffusion 实践
前言
这里我们要给扩散模型加上文本控制的能力。学习如何通过文字描述来引导图像生成过程,实现从'纯噪声 + 文本'生成图像,而不仅是从纯噪声生成。
基于扩散模型的文本生成图像
在扩散模型的 UNet 模型训练流程中,我们仅训练模型从含噪图像中预测噪声。要实现文生图功能,得用下面的架构,把文本作为额外输入注入 UNet 模型:
这种 UNet 叫条件 UNet,更准确说是文本条件 UNet,因为它会根据输入文本来生成图像。为了训练这类模型,首先得把输入文本编码成能喂给 UNet 的嵌入向量。然后对 UNet 稍作修改,适配嵌入文本形式的额外输入数据(除了图像之外)。先来看看文本编码部分。


