PyTorch 实战：基于文本引导的图像生成与 Stable Diffusion 实践

前言

本节旨在为扩散模型注入文本控制能力。我们将学习如何通过文字描述来引导图像生成过程，实现从'纯噪声 + 文本'生成图像，而不仅仅是从纯噪声开始。

基于扩散模型的文本生成图像

在扩散模型的 UNet 训练流程中，我们通常仅训练模型预测含噪图像中的噪声。要实现文生图功能，需调整架构，将文本作为额外输入注入 UNet 模型：

条件UNet

这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet 模型，因为该模型会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，我们需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据（除了图像之外）。接下来，首先介绍文本编码。