0. 前言
本节旨在为扩散模型注入文本控制能力。核心目标是实现从'纯噪声 + 文本'到图像的生成,而不仅仅是从纯噪声生成。
1. 基于扩散模型的文本生成图像
回顾扩散模型的 UNet 训练流程,通常只涉及从含噪图像预测噪声。要实现文生图功能,需调整架构,将文本作为额外输入注入 UNet 模型。
这样的 UNet 模型称为条件 UNet 模型,更精确地说是文本条件 UNet 模型,因为它会根据输入文本来生成图像。为了训练此类模型,首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后,需要对 UNet 模型稍作修改,以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来,首先介绍文本编码。


