前言
本节重点是为扩散模型注入文本控制能力。我们要学会利用文字描述来引导图像生成,让模型不仅能从纯噪声出发,还能结合文本信息生成目标图像。
基于扩散模型的文本生成图像
在标准扩散模型的 UNet 训练流程里,通常只训练模型预测含噪图像中的噪声。若要实现文生图,需要调整架构,把文本作为额外输入注入到 UNet 中:
这种经过调整的 UNet 被称为条件 UNet,具体说是文本条件 UNet,因为它会依据输入文本生成图像。训练这类模型的第一步,是将输入文本编码成 UNet 能理解的嵌入向量。随后,需微调 UNet 结构,使其能接纳除图像外的文本嵌入数据。下面先来看看文本是如何被编码的。


