PythonAI算法

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

扩散模型通过前向加噪与逆向去噪过程生成图像。介绍基于 PyTorch 构建去噪 U-Net 模型的完整流程，涵盖数学原理、注意力机制集成及 Oxford 102 花卉数据集训练实战。通过代码演示如何从随机噪声逐步恢复清晰图像，深入理解生成式 AI 核心机制。

山野来信发布于 2026/4/9更新于 2026/5/2118 浏览

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

文本生成图像的 Transformer 模型，如 DALL-E 2、Stable Diffusion，能够根据文本描述生成高质量图像。这些模型的核心在于扩散机制，它构成了所有主流文本生成图像模型的基础。本节将构建并训练一个扩散模型来生成花卉图像，深入理解正向扩散过程（噪声逐步添加）和逆向扩散过程（噪声逐步去除）。

扩散模型已成为生成高分辨率图像的首选方法。其成功在于能够模拟并逆转复杂的噪声添加过程，在生成图像的多样性和准确性之间保持平衡。

去噪扩散模型简介

假设目标是使用扩散模型生成高分辨率的花卉图像。首先需要收集一组高质量的花卉图像进行训练。然后，模型逐步向这些图像中添加少量随机噪声，这一过程称为正向扩散（forward diffusion）。经过多次加入噪声的步骤后，训练图像最终变成了随机噪声。接下来，训练模型逆转这一过程，从纯噪声图像开始，逐步减少噪声，直到图像与原始训练集中的图像无法区分。

在本节中，首先介绍扩散模型的数学基础。然后，深入了解 U-Net 的架构，用于去噪图像并生成高分辨率花卉图像。最后，将了解扩散模型的训练过程以及训练后的模型生成图像的过程。

正向扩散过程

我们使用花卉图像作为一个具体的例子来解释去噪扩散模型的思想。假设花卉图像 $x_0$ 遵循分布 $q(x)$。在正向扩散过程中，我们将在 $T = 1000$ 步中逐步向图像中添加少量噪声。噪声张量服从正态分布，并且具有与花卉图像相同的形状。

在第 1 个时间步，向图像 $x_0$ 添加噪声 $oldsymbol{ ext{ε}}_0$，从而得到一个带噪声的图像 $x_1$：

$$ x_1 = \sqrt{1 - \beta_1} \cdot x_0 + \sqrt{\beta_1} \cdot \boldsymbol{ ext{ε}}_0 $$

也就是说，$x_1$ 是 $x_0$ 和 $oldsymbol{ ext{ε}}_0$ 的加权和，其中 $eta_1$ 表示噪声的权重。$eta$ 的值在不同的时间步中会有所变化，因此下标表示不同的时间步。如果我们假设 $x_0$ 和 $oldsymbol{ ext{ε}}_0$ 相互独立并且服从标准正态分布，那么噪声图像 $x_1$ 也将服从标准正态分布。

我们可以继续在接下来的 $T - 1$ 个时间步中向图像添加噪声，使得：

$$ x_{t+1} = \sqrt{1 - \beta_{t+1}} \cdot x_t + \sqrt{\beta_{t+1}} \cdot \boldsymbol{ ext{ε}}_t $$

利用重参数化技巧，定义 $oldsymbol{ ext{α}}_t = 1 - \beta_t$，并有：

$$ \bar{\boldsymbol{ ext{α}}}t = \prod{k=1}^t \boldsymbol{ ext{α}}_k $$

这使得我们可以在任意时间步 $t$ 处采样 $x_t$，其中 $t$ 可以取值于 $[1, 2, \dots, T]$。然后有：

$$ x_t = \sqrt{\boldsymbol{ ext{α}}_t} \cdot x_0 + \sqrt{1 - \boldsymbol{ ext{α}}_t} \cdot \boldsymbol{ ext{ε}}_t $$

上图最左侧展示了训练集中的一张干净花卉图像 $x_0$。在第一个时间步，我们向其注入噪声 $oldsymbol{ ext{ε}}_0$ 形成带噪声的图像 $x_1$。我们重复这一过程 1000 个时间步，直到图像变成随机噪声。

逆向扩散过程

我们已经了解了前向扩散过程，接下来介绍逆向扩散过程（即去噪过程）。如果我们能够训练一个模型来逆转前向扩散过程，我们就可以将随机噪声输入模型，并让模型生成一张噪声较大的花卉图像。接着，可以将这张噪声图像再次输入训练好的模型，生成一张更清晰但仍然带有噪声的图像。反复进行这一过程，经过多个时间步，直到得到一张与训练集中图像无法区分的干净图像。

为此，我们将创建一个去噪 U-Net 模型。U-Net 架构最初是为生物医学图像分割设计的，其特点是具有对称形状，包括一个收缩路径（编码器）和一个扩张路径（解码器），两者通过瓶颈层连接。在去噪任务中，U-Net 模型被调整为从图像中去除噪声的同时保留重要的细节。

该模型以噪声图像及其所在的时间步（即公式中的 $x_t$ 和 $t$）为输入，预测图像中的噪声（即 $oldsymbol{ ext{ε}}$）。由于噪声图像是原始干净图像和噪声的加权和，得到噪声后，我们可以推断并重建原始图像。

收缩路径（即编码器）由多个卷积层和池化层组成。它逐步对图像进行下采样，提取并编码不同抽象层次的特征。网络的这一部分学习识别与去噪相关的模式和特征。

瓶颈层连接编码器和解码器路径。它由卷积层组成，负责捕捉图像的最抽象表示。

扩张路径（即解码器）由上采样层和卷积层组成。它逐步上采样特征图，同时通过跳跃连接结合编码器的特征来重建图像。

跳跃连接在 U-Net 模型中至关重要，因为它允许模型通过结合低级和高级特征来保留输入图像中的细粒度细节。在 U-Net 模型中，跳跃连接通过将编码器路径中的特征图与解码器路径中相应的特征图进行拼接来实现。这些特征图通常具有相同的空间维度，但由于它们各自经过了不同的路径处理，可能已经有所不同。在编码过程中，输入图像会逐步下采样，导致一些空间信息（如边缘和纹理）丢失。跳跃连接有助于通过将编码器中的特征图直接传递到解码器，绕过信息瓶颈，从而保留这些信息。

PythonAI算法

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

山野来信发布于 2026/4/9更新于 2026/5/2118 浏览

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

扩散模型已成为生成高分辨率图像的首选方法。其成功在于能够模拟并逆转复杂的噪声添加过程，在生成图像的多样性和准确性之间保持平衡。

去噪扩散模型简介

正向扩散过程

在第 1 个时间步，向图像 $x_0$ 添加噪声 $oldsymbol{ ext{ε}}_0$，从而得到一个带噪声的图像 $x_1$：

$$ x_1 = \sqrt{1 - \beta_1} \cdot x_0 + \sqrt{\beta_1} \cdot \boldsymbol{ ext{ε}}_0 $$

我们可以继续在接下来的 $T - 1$ 个时间步中向图像添加噪声，使得：

$$ x_{t+1} = \sqrt{1 - \beta_{t+1}} \cdot x_t + \sqrt{\beta_{t+1}} \cdot \boldsymbol{ ext{ε}}_t $$

利用重参数化技巧，定义 $oldsymbol{ ext{α}}_t = 1 - \beta_t$，并有：

$$ \bar{\boldsymbol{ ext{α}}}t = \prod{k=1}^t \boldsymbol{ ext{α}}_k $$

这使得我们可以在任意时间步 $t$ 处采样 $x_t$，其中 $t$ 可以取值于 $[1, 2, \dots, T]$。然后有：

$$ x_t = \sqrt{\boldsymbol{ ext{α}}_t} \cdot x_0 + \sqrt{1 - \boldsymbol{ ext{α}}_t} \cdot \boldsymbol{ ext{ε}}_t $$

逆向扩散过程

瓶颈层连接编码器和解码器路径。它由卷积层组成，负责捕捉图像的最抽象表示。

扩张路径（即解码器）由上采样层和卷积层组成。它逐步上采样特征图，同时通过跳跃连接结合编码器的特征来重建图像。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install datasets einops diffusers openai

from datasets import load_dataset 
from util import transforms 

# 下载数据集
dataset = load_dataset("huggan/flowers-102-categories", split="train",)
dataset.set_transform(transforms)

import matplotlib.pyplot as plt 
from torchvision.utils import make_grid 

# 可视化数据样本
grid = make_grid(dataset[:16]["input"],8,2)
plt.figure(figsize=(8,2),dpi=300)
plt.imshow(grid.numpy().transpose((1,2,0)))
plt.axis("off")
plt.show()

import torch 
import matplotlib.pyplot as plt 
from torchvision.utils import make_grid 

resolution=64 
batch_size=4 
train_dataloader=torch.utils.data.DataLoader(
    dataset, batch_size=batch_size,
    shuffle=True)

# 获取四张干净图像
clean_images=next(iter(train_dataloader))["input"]*2-1
print(clean_images.shape) 
nums=clean_images.shape[0]
# 生成张量 noise，其形状与干净图像相同；noise 中的每个值都遵循独立的标准正态分布
noise=torch.randn(clean_images.shape)
print(noise.shape)

torch.Size([2, 3, 64, 64]) 
torch.Size([2, 3, 64, 64])

from util import DDIMScheduler 

# 实例化 DDIMScheduler() 类，并设置 1,000 个时间步
noise_scheduler=DDIMScheduler(num_train_timesteps=1000)
allimgs=clean_images 

# 查看时间步 200、400、600、800 和 1,000
for step in range(200,1001,200):
    # 创建噪声图像
    timesteps=torch.tensor([step-1]*4).long()
    noisy_images=noise_scheduler.add_noise(clean_images, noise, timesteps)
    # 连接噪声图像与干净图像
    allimgs=torch.cat((allimgs,noisy_images))
    # 可视化图像
    import torchvision 
    imgs=torchvision.utils.make_grid(allimgs,4,6)
    fig = plt.figure(dpi=300)
    plt.imshow((imgs.permute(2,1,0)+1)/2)
    plt.axis("off")
    plt.show()

class Attention(nn.Module):
    def __init__(self, dim, heads=4, dim_head=32):
        super().__init__()
        self.scale = dim_head**-0.5
        self.heads = heads
        hidden_dim = dim_head * heads
        self.to_qkv = nn.Conv2d(dim, hidden_dim *3,1, bias=False)
        self.to_out = nn.Conv2d(hidden_dim, dim,1)

    def forward(self, x):
        b, c, h, w = x.shape
        # 将输入通过三个线性层传递，以获取查询 (query)、键 (key) 和值 (value)
        qkv = self.to_qkv(x).chunk(3, dim=1)
        # 将查询 (query)、键 (key) 和值 (value) 拆分成四个头 (heads)
        q, k, v =map(lambda t: rearrange(t,'b (h c) x y -> b h c (x y)', h=self.heads), qkv)
        q = q * self.scale
        sim = einsum('b h d i, b h d j -> b h i j', q, k)
        # 计算注意力权重
        attn = sim.softmax(dim=-1)
        # 计算注意力向量
        out = einsum('b h i j, b h d j -> b h i d', attn, v)
        out = rearrange(out,'b h (x y) d -> b (h d) x y', x=h, y=w)
        # 合并注意力向量
        return self.to_out(out)

attn=Attention(128)
x=torch.rand(1,128,64,64)
out=attn(x)
print(out.shape)

torch.Size([1, 128, 64, 64])

class UNet(nn.Module):
    ...
    def forward(self, sample, timesteps):
        # 模型接收一批噪声图像和时间步长作为输入
        if not torch.is_tensor(timesteps): 
            timesteps = torch.tensor([timesteps], dtype=torch.long, device=sample.device)
        timesteps = torch.flatten(timesteps)
        timesteps = timesteps.broadcast_to(sample.shape[0])
        t_emb = sinusoidal_embedding(timesteps, self.hidden_dims[0])
        # 嵌入的时间步长会在不同阶段作为输入加到图像中
        t_emb = self.time_embedding(t_emb)
        x = self.init_conv(sample)
        r = x.clone()
        skips =[]
        # 将输入传递通过收缩路径
        for block1, block2, attn, downsample in self.down_blocks:
            x = block1(x, t_emb)
            skips.append(x)
            x = block2(x, t_emb)
            x = attn(x)
            skips.append(x)
            x = downsample(x)
        # 将输入传递通过瓶颈路径
        x = self.mid_block1(x, t_emb)
        x = self.mid_attn(x)
        x = self.mid_block2(x, t_emb)
        # 将输入传递通过扩张路径，并带有跳跃连接
        for block1, block2, attn, upsample in self.up_blocks:
            x = torch.cat((x, skips.pop()), dim=1)
            x = block1(x, t_emb)
            x = torch.cat((x, skips.pop()), dim=1)
            x = block2(x, t_emb)
            x = attn(x)
            x = upsample(x)
        x = self.out_block(torch.cat((x, r), dim=1), t_emb)
        out = self.conv_out(x)
        return{"sample": out}

from unet_util import UNet 

device="cuda" if torch.cuda.is_available() else "cpu"
resolution=64 
model=UNet(3,hidden_dims=[128,256,512,1024], image_size=resolution).to(device)
num=sum(p.numel() for p in model.parameters())
print("number of parameters: %.2fM"%(num/1e6,))
print(model)

from diffusers.optimization import get_scheduler 

# 训练 100 个 epoch
num_epochs=100
# 使用 AdamW 优化器
optimizer=torch.optim.AdamW(model.parameters(),lr=0.0001, betas=(0.95,0.999),weight_decay=0.00001,eps=1e-8)
# 使用 diffusers 库中的学习率调度器来控制学习率
lr_scheduler=get_scheduler("cosine", optimizer=optimizer, num_warmup_steps=300, num_training_steps=(len(train_dataloader)* num_epochs))

for epoch in range(num_epochs):
    model.train()
    tloss =0
    print(f"start epoch {epoch}")
    for step, batch in enumerate(train_dataloader):
        clean_images = batch["input"].to(device)*2-1
        nums = clean_images.shape[0]
        noise = torch.randn(clean_images.shape).to(device)
        timesteps = torch.randint(0, noise_scheduler.num_train_timesteps,(nums,), device=device).long()
        # 在训练集中的干净图像上添加噪声
        noisy_images = noise_scheduler.add_noise(clean_images, noise, timesteps)
        # 使用去噪 U-Net 预测噪声
        noise_pred = model(noisy_images, timesteps)["sample"]
        # 将预测的噪声与实际噪声进行比较，计算损失
        loss = torch.nn.functional.l1_loss(noise_pred, noise)
        loss.backward()
        # 调整参数
        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        tloss += loss.detach().item()
        if step%100==0:
            print(f"step {step}, average loss {tloss/(step+1)}")
    torch.save(model.state_dict(),'files/diffusion.pth')

@torch.no_grad()
def generate(self,model,device,batch_size=1,generator=None, eta=1.0,use_clipped_model_output=True,num_inference_steps=50):
    imgs=[]
    # 使用随机噪声作为起始点
    image=torch.randn((batch_size,model.in_channels,model.sample_size, model.sample_size),generator=generator).to(device)
    self.set_timesteps(num_inference_steps)
    # 使用 50 个推理时间步长
    for t in tqdm(self.timesteps):
        # 使用训练好的去噪 U-Net 模型来预测噪声
        model_output = model(image, t)["sample"]
        # 基于预测的噪声创建图像
        image = self.step(model_output,t,image,eta, use_clipped_model_output=use_clipped_model_output)
        img = unnormalize_to_zero_to_one(image)
        img = img.cpu().permute(0,2,3,1).numpy()
        # 将中间图像保存在列表 imgs 中
        imgs.append(img)
        image = unnormalize_to_zero_to_one(image)
        image = image.cpu().permute(0,2,3,1).numpy()
    return{"sample": image}, imgs

sd=torch.load('files/diffusion.pth', weights_only=False)
model.load_state_dict(sd)
with torch.no_grad():
    # 设置随机种子
    generator = torch.manual_seed()
    # 生成 10 张干净图像
    generated_images,imgs = noise_scheduler.generate(
        model,device, num_inference_steps=50,
        generator=generator, eta=1.0, use_clipped_model_output=True, batch_size=10)
    imgnp=generated_images["sample"]
    import matplotlib.pyplot as plt 
    plt.figure(figsize=(10,4),dpi=300)
    # 可视化结果
    for i in range(10):
        ax = plt.subplot(2,5, i +1)
        plt.imshow(imgnp[i])
        plt.xticks([])
        plt.yticks([])
        plt.tight_layout()
        plt.show()

# 保留时间步长 800、600、400、200 和 0
steps=imgs[9::10]
# 从 10 张图像中选择 4 组花卉
imgs20=[]
for j in [1,3,6,9]:
    for i in range(5): 
        imgs20.append(steps[i][j])
# 可视化结果
plt.figure(figsize=(10,8),dpi=300)
for i in range(20): 
    k=i%5 
    ax = plt.subplot(4,5, i +1)
    plt.imshow(imgs20[i])
    plt.xticks([])
    plt.yticks([])
    plt.tight_layout()
    plt.title(f't={800-200*k}',fontsize=15,c="r")
    plt.show()

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

去噪扩散模型简介

正向扩散过程

逆向扩散过程

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

去噪扩散模型简介

正向扩散过程

逆向扩散过程

更多推荐文章

相关免费在线工具

训练去噪 U-Net 模型流程

数据处理

使用花卉图像作为训练数据

可视化前向扩散过程

构建去噪 U-Net 模型

去噪 U-Net 模型中的注意力机制

去噪 U-Net 模型

训练并使用去噪 U-Net 模型

训练去噪 U-Net 模型

使用训练好的模型生成花卉图像

小结

更多推荐文章

相关免费在线工具

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

去噪扩散模型简介

正向扩散过程

逆向扩散过程

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

基于 PyTorch 实现扩散模型：从原理到花卉图像生成

去噪扩散模型简介

正向扩散过程

逆向扩散过程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

训练去噪 U-Net 模型流程

数据处理

使用花卉图像作为训练数据

可视化前向扩散过程

构建去噪 U-Net 模型

去噪 U-Net 模型中的注意力机制

去噪 U-Net 模型

训练并使用去噪 U-Net 模型

训练去噪 U-Net 模型

使用训练好的模型生成花卉图像

小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具