PyTorch 实战:基于文本引导的图像生成技术与 Stable Diffusion 实践
前言
本节旨在为扩散模型增加文本控制能力。目标是利用文字描述引导图像生成,实现从'纯噪声 + 文本'合成图像,而非仅依赖纯噪声。
基于扩散模型的文本生成图像
在扩散模型的 UNet 训练流程中,我们通常仅训练模型从含噪图像中预测噪声。为实现文生图功能,需采用特定架构,将文本作为额外输入注入 UNet 模型:
这类 UNet 被称为条件 UNet,更准确说是文本条件 UNet,因为它会根据输入文本来生成图像。为了训练此类模型,第一步是将输入文本编码为 UNet 可接受的嵌入向量。随后需微调 UNet 架构,使其能接纳嵌入后的文本作为额外输入(除图像外)。下面先介绍文本编码部分。


