扩散模型原理与图像生成实战

核心思想与背景

传统的生成模型（如 GAN）常面临训练不稳定、模式崩溃等挑战。扩散模型作为一种基于概率的生成方法，通过逐步添加噪声和逐步去除噪声的双向过程，实现了更稳定的训练和高质量的生成效果。它的灵感来源于非平衡热力学，核心在于将复杂的生成问题拆解为多个简单的马尔可夫链步骤。

扩散模型包含两个核心过程：

前向扩散过程：从真实数据出发，逐步添加高斯噪声，直到数据变成完全随机的噪声。
反向扩散过程：训练神经网络从随机噪声出发，逐步去除噪声，还原出真实的数据分布。

整个过程遵循马尔可夫链假设，即每一步的状态只与前一步有关。理解这一机制是掌握扩散模型的关键。

前向扩散过程详解

前向扩散是一个固定的、非训练的过程。目标是通过逐步添加噪声，将真实图像 $x_0$ 转换为随机噪声 $x_T$。

数学原理

每一步按照以下公式添加噪声： $$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_t$$ 其中 $\epsilon_t$ 服从标准正态分布。为了计算方便，通常定义累计乘积系数 $\bar{\alpha}t = \prod{i=1}^t \alpha_i$，这样可以直接从 $x_0$ 计算出任意步的 $x_t$： $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$$

注意：前向扩散的步数 $T$ 是超参数。$T$ 越大，前向扩散越充分，但训练和生成的时间也会越长。

代码实现

下面展示了如何定义扩散过程的超参数并实现前向扩散函数。这里以 PyTorch 为例，加载 MNIST 数据集进行可视化测试。

import torch
import numpy as np
import matplotlib.pyplot as plt
from torchvision.datasets import MNIST
from torchvision.transforms import ToTensor

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001
beta_end = 0.02

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha = 1 - beta
alpha_bar = torch.cumprod(alpha, dim=0)  # 累计乘积

# 前向扩散函数：从 x0 生成 xt
def forward_diffusion(x0, t, device):
    """
    x0: 原始图像 (batch_size, channels, height, width)
    t: 扩散步数 (batch_size,)
    """
    eps = torch.randn_like(x0).to(device)
    alpha_bar_t = alpha_bar[t].reshape(-1, , , ).to(device)
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps



dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i + )
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

import torch.nn as nn import torch.nn.functional as F class PositionalEncoding(nn.Module): def __init__(self, dim): super().__init__() self.dim = dim def forward(self, t): device = t.device half_dim = self.dim // 2 emb = np.log(10000) / (half_dim - 1) emb = torch.exp(torch.arange(half_dim, device=device) * -emb) emb = t[:, None] * emb[None, :] emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1) return emb class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, time_dim): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1) self.bn2 = nn.BatchNorm2d(out_channels) self.time_mlp = nn.Linear(time_dim, out_channels) self.skip = nn.Conv2d(in_channels, out_channels, 1) if in_channels != out_channels else nn.Identity() def forward(self, x, t): h = F.relu(self.bn1(self.conv1(x))) h += self.time_mlp(t)[:, :, None, None] h = F.relu(self.bn2(self.conv2(h))) return h + self.skip(x) class UNet(nn.Module): def __init__(self, in_channels=1, out_channels=1, time_dim=256): super().__init__() self.time_dim = time_dim self.pos_encoding = PositionalEncoding(time_dim) self.down1 = ResidualBlock(in_channels, 64, time_dim) self.down2 = ResidualBlock(64, 128, time_dim) self.down3 = ResidualBlock(128, 256, time_dim) self.pool = nn.MaxPool2d(2) self.bottleneck = ResidualBlock(256, 256, time_dim) self.up1 = nn.ConvTranspose2d(256, 128, 2, stride=2) self.res_up1 = ResidualBlock(256, 128, time_dim) self.up2 = nn.ConvTranspose2d(128, 64, 2, stride=2) self.res_up2 = ResidualBlock(128, 64, time_dim) self.out = nn.Conv2d(64, out_channels, 1) def forward(self, x, t): t = self.pos_encoding(t) h1 = self.down1(x, t) h2 = self.down2(self.pool(h1), t) h3 = self.down3(self.pool(h2), t) bottleneck = self.bottleneck(self.pool(h3), t) up1 = self.up1(bottleneck) up1 = torch.cat([up1, h3], dim=1) up1 = self.res_up1(up1, t) up2 = self.up2(up1) up2 = torch.cat([up2, h2], dim=1) up2 = self.res_up2(up2, t) up3 = self.up2(up2) up3 = torch.cat([up3, h1], dim=1) up3 = self.res_up2(up3, t) return self.out(up3) model = UNet().to(device) print(model)

扩散模型原理与图像生成实战