PyTorch 实战：基于文本引导的图像生成与 Stable Diffusion 实践

0. 前言

本节旨在为扩散模型注入文本控制能力。核心目标是实现从'纯噪声 + 文本'到图像的生成，而不仅仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

回顾扩散模型的 UNet 训练流程，通常只涉及从含噪图像预测噪声。要实现文生图功能，需调整架构，将文本作为额外输入注入 UNet 模型。

这样的 UNet 模型称为条件 UNet 模型，更精确地说是文本条件 UNet 模型，因为它会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据（除了图像之外）。接下来，首先介绍文本编码。

PyTorch 实战：基于文本引导的图像生成与 Stable Diffusion 实践

0. 前言

1. 基于扩散模型的文本生成图像

2. 将文本输入编码

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

PyTorch 实战：基于文本引导的图像生成与 Stable Diffusion 实践

0. 前言

1. 基于扩散模型的文本生成图像

2. 将文本输入编码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具