扩散模型（Diffusion Model）原理与图像生成实战

扩散模型示意图

学习目标

掌握扩散模型的核心原理、前向扩散与反向扩散过程，以及基于扩散模型的图像生成任务实战流程。重点理解噪声添加与消除机制，学会使用 PyTorch 搭建 DDPM 模型，完成手写数字图像生成。

核心思想

传统的生成模型（如 GAN）常面临训练不稳定和模式崩溃的问题。扩散模型通过逐步添加噪声和逐步去除噪声的双向过程，实现了更稳定的训练和高质量的生成效果。其灵感来源于非平衡热力学，核心是将复杂的生成问题拆解为多个简单的马尔可夫链步骤。

扩散模型包含两个核心过程：

前向扩散过程：从真实数据出发，逐步添加高斯噪声。经过 T 步后，数据变成完全随机的噪声。
反向扩散过程：从随机噪声出发，训练神经网络逐步去除噪声，还原为真实的数据分布。

整个过程遵循马尔可夫链假设，即每一步的状态只与前一步有关。

前向扩散过程详解

前向扩散是一个固定的、非训练的过程。目标是通过逐步添加噪声，将真实图像 x₀ 转换为随机噪声 x_T。

数学原理

每一步按照以下公式添加噪声：

x_t = √α_t * x_{t-1} + √(1 - α_t) * ε_t

其中 x_t 是第 t 步添加噪声后的图像，α_t 是预设的噪声系数，ε_t 是标准正态分布的高斯噪声。

为了计算方便，定义累计乘积系数：

ᾱ_t = Π_{i=1}^t α_i

通过累计系数，可以直接从 x₀ 计算出任意步的 x_t：

x_t = √ᾱ_t * x₀ + √(1 - ᾱ_t) * ε

⚠️ 注意：前向扩散的步数 T 是超参数。T 越大，前向扩散越充分，但训练和生成的时间也会越长。

代码实现

import torch
import numpy as np
import matplotlib.pyplot as plt

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001  # 初始噪声系数
beta_end = 0.02  # 最终噪声系数

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha = 1 - beta
alpha_bar = torch.cumprod(alpha, dim=0)  # 累计乘积

# 前向扩散函数：从 x0 生成 xt
def forward_diffusion(x0, t, device):
    
    eps = torch.randn_like(x0).to(device)
    alpha_bar_t = alpha_bar[t].reshape(-, , , ).to(device)
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps


 torchvision.datasets  MNIST
 torchvision.transforms  ToTensor

dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i + )
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

import torch.nn as nn import torch.nn.functional as F # 位置嵌入层：将步数 t 转换为高维向量 class PositionalEncoding(nn.Module): def __init__(self, dim): super().__init__() self.dim = dim def forward(self, t): device = t.device half_dim = self.dim // 2 emb = np.log(10000) / (half_dim - 1) emb = torch.exp(torch.arange(half_dim, device=device) * -emb) emb = t[:, None] * emb[None, :] emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1) return emb # 残差块 class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, time_dim): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1) self.bn2 = nn.BatchNorm2d(out_channels) self.time_mlp = nn.Linear(time_dim, out_channels) self.skip = nn.Conv2d(in_channels, out_channels, 1) if in_channels != out_channels else nn.Identity() def forward(self, x, t): h = F.relu(self.bn1(self.conv1(x))) h += self.time_mlp(t)[:, :, None, None] h = F.relu(self.bn2(self.conv2(h))) return h + self.skip(x) # UNet 网络结构 class UNet(nn.Module): def __init__(self, in_channels=1, out_channels=1, time_dim=256): super().__init__() self.time_dim = time_dim self.pos_encoding = PositionalEncoding(time_dim) # 下采样路径 self.down1 = ResidualBlock(in_channels, 64, time_dim) self.down2 = ResidualBlock(64, 128, time_dim) self.down3 = ResidualBlock(128, 256, time_dim) self.pool = nn.MaxPool2d(2) # 瓶颈层 self.bottleneck = ResidualBlock(256, 256, time_dim) # 上采样路径 self.up1 = nn.ConvTranspose2d(256, 128, 2, stride=2) self.res_up1 = ResidualBlock(256, 128, time_dim) self.up2 = nn.ConvTranspose2d(128, 64, 2, stride=2) self.res_up2 = ResidualBlock(128, 64, time_dim) self.up3 = nn.ConvTranspose2d(64, 32, 2, stride=2) # 补充缺失的上采样层 self.res_up3 = ResidualBlock(64, 32, time_dim) # 输出层 self.out = nn.Conv2d(32, out_channels, 1) def forward(self, x, t): t = self.pos_encoding(t) # 下采样 h1 = self.down1(x, t) h2 = self.down2(self.pool(h1), t) h3 = self.down3(self.pool(h2), t) # 瓶颈层 bottleneck = self.bottleneck(self.pool(h3), t) # 上采样 up1 = self.up1(bottleneck) up1 = torch.cat([up1, h3], dim=1) up1 = self.res_up1(up1, t) up2 = self.up2(up1) up2 = torch.cat([up2, h2], dim=1) up2 = self.res_up2(up2, t) up3 = self.up3(up2) up3 = torch.cat([up3, h1], dim=1) up3 = self.res_up3(up3, t) return self.out(up3) model = UNet().to(device) print(model)

扩散模型（Diffusion Model）原理与图像生成实战