扩散模型（Diffusion Model）原理与图像生成实战

扩散模型基于前向加噪与反向去噪的马尔可夫链机制实现高质量图像生成。内容涵盖 DDPM 核心原理、数学推导、PyTorch 代码实战，包括 MNIST 数据集上的噪声预测网络构建、训练流程及采样生成步骤。涉及余弦噪声调度、分类引导等优化技巧，适合深度学习与生成式 AI 技术学习。

随缘发布于 2026/3/21更新于 2026/5/37 浏览

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

💡 学习目标：掌握扩散模型的核心原理、前向扩散与反向扩散过程，以及基于扩散模型的图像生成任务实战流程。 💡 学习重点：理解扩散模型的噪声添加与噪声消除机制，学会使用 PyTorch 搭建 DDPM 模型，完成手写数字图像生成任务。

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

💡 传统的生成模型（如 GAN）存在训练不稳定、模式崩溃等问题。扩散模型作为一种基于概率的生成模型，通过逐步添加噪声和逐步去除噪声的双向过程，实现了更稳定的训练和更高质量的生成效果。扩散模型的灵感来源于非平衡热力学，它的核心是将复杂的生成问题拆解为多个简单的马尔可夫链步骤。在图像生成、文本生成、语音合成等领域，扩散模型的表现已经超越了传统生成模型。

1.2.2 扩散模型的基本框架

💡 扩散模型包含两个核心过程：前向扩散过程和反向扩散过程。

前向扩散过程：从真实数据出发，逐步向数据中添加高斯噪声。经过 T 步后，数据会变成完全随机的噪声。
反向扩散过程：从随机噪声出发，训练一个神经网络逐步去除噪声。经过 T 步后，噪声会还原为真实的数据分布。

整个过程遵循马尔可夫链的假设，即每一步的状态只与前一步有关。

1.3 前向扩散过程详解

💡 前向扩散过程是一个固定的、非训练的过程。它的目标是通过逐步添加噪声，将真实图像 $x_0$ 转换为随机噪声 $x_T$。

1.3.1 前向扩散的数学原理

前向扩散过程的每一步，都会按照以下公式向图像中添加噪声： $$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_t$$ 其中：

$x_t$ 表示第 t 步添加噪声后的图像
$\alpha_t$ 是一个预先设定的噪声系数，满足 $0 < \alpha_t < 1$
$\epsilon_t$ 是服从标准正态分布的高斯噪声

为了计算方便，通常会定义累计乘积系数： $$\bar{\alpha}t = \prod{i=1}^t \alpha_i$$ 通过累计系数，可以直接从 $x_0$ 计算出任意步的 $x_t$： $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$$

⚠️ 注意：前向扩散的步数 T 是一个超参数。T 越大，前向扩散越充分，反向扩散的效果越好，但训练和生成的时间也会越长。

1.3.2 前向扩散过程的代码实现

import torch
import numpy as np
import matplotlib.pyplot as plt

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001  # 初始噪声系数
beta_end = 0.02  # 最终噪声系数

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha = 1 - beta
alpha_bar = torch.cumprod(alpha, dim=)  


 ():
    
    
    eps = torch.randn_like(x0).to(device)
    
    alpha_bar_t = alpha_bar[t].reshape(-, , , ).to(device)
    
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps



 torchvision.datasets  MNIST
 torchvision.transforms  ToTensor

dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i+)
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

1.2.2 扩散模型的基本框架

💡 扩散模型包含两个核心过程：前向扩散过程和反向扩散过程。

前向扩散过程：从真实数据出发，逐步向数据中添加高斯噪声。经过 T 步后，数据会变成完全随机的噪声。
反向扩散过程：从随机噪声出发，训练一个神经网络逐步去除噪声。经过 T 步后，噪声会还原为真实的数据分布。

整个过程遵循马尔可夫链的假设，即每一步的状态只与前一步有关。

1.3 前向扩散过程详解

💡 前向扩散过程是一个固定的、非训练的过程。它的目标是通过逐步添加噪声，将真实图像 $x_0$ 转换为随机噪声 $x_T$。

1.3.1 前向扩散的数学原理

前向扩散过程的每一步，都会按照以下公式向图像中添加噪声： $$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_t$$ 其中：

$x_t$ 表示第 t 步添加噪声后的图像
$\alpha_t$ 是一个预先设定的噪声系数，满足 $0 < \alpha_t < 1$
$\epsilon_t$ 是服从标准正态分布的高斯噪声

⚠️ 注意：前向扩散的步数 T 是一个超参数。T 越大，前向扩散越充分，反向扩散的效果越好，但训练和生成的时间也会越长。

1.3.2 前向扩散过程的代码实现

import torch
import numpy as np
import matplotlib.pyplot as plt

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001  # 初始噪声系数
beta_end = 0.02  # 最终噪声系数

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha = 1 - beta
alpha_bar = torch.cumprod(alpha, dim=)  


 ():
    
    
    eps = torch.randn_like(x0).to(device)
    
    alpha_bar_t = alpha_bar[t].reshape(-, , , ).to(device)
    
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps



 torchvision.datasets  MNIST
 torchvision.transforms  ToTensor

dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i+)
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

import torch.nn as nn import torch.nn.functional as F # 定义位置嵌入层：将步数 t 转换为高维向量 class PositionalEncoding(nn.Module): def __init__(self, dim): super().__init__() self.dim = dim def forward(self, t): # t: (batch_size,) device = t.device half_dim = self.dim // 2 emb = np.log(10000) / (half_dim - 1) emb = torch.exp(torch.arange(half_dim, device=device) * -emb) emb = t[:, None] * emb[None, :] emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1) return emb # 定义残差块 class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, time_dim): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1) self.bn2 = nn.BatchNorm2d(out_channels) self.time_mlp = nn.Linear(time_dim, out_channels) self.skip = nn.Conv2d(in_channels, out_channels, 1) if in_channels != out_channels else nn.Identity() def forward(self, x, t): # x: (batch_size, channels, h, w) # t: (batch_size, time_dim) h = F.relu(self.bn1(self.conv1(x))) # 添加时间嵌入 h += self.time_mlp(t)[:, :, None, None] h = F.relu(self.bn2(self.conv2(h))) return h + self.skip(x) # 定义噪声预测网络 class UNet(nn.Module): def __init__(self, in_channels=1, out_channels=1, time_dim=256): super().__init__() self.time_dim = time_dim self.pos_encoding = PositionalEncoding(time_dim) # 下采样路径 self.down1 = ResidualBlock(in_channels, 64, time_dim) self.down2 = ResidualBlock(64, 128, time_dim) self.down3 = ResidualBlock(128, 256, time_dim) self.pool = nn.MaxPool2d(2) # 瓶颈层 self.bottleneck = ResidualBlock(256, 256, time_dim) # 上采样路径 self.up1 = nn.ConvTranspose2d(256, 128, 2, stride=2) self.res_up1 = ResidualBlock(256, 128, time_dim) self.up2 = nn.ConvTranspose2d(128, 64, 2, stride=2) self.res_up2 = ResidualBlock(128, 64, time_dim) # 输出层 self.out = nn.Conv2d(64, out_channels, 1) def forward(self, x, t): # x: (batch_size, 1, 28, 28) # t: (batch_size,) # 位置编码 t = self.pos_encoding(t) # 下采样 h1 = self.down1(x, t) h2 = self.down2(self.pool(h1), t) h3 = self.down3(self.pool(h2), t) # 瓶颈层 bottleneck = self.bottleneck(self.pool(h3), t) # 上采样 up1 = self.up1(bottleneck) up1 = torch.cat([up1, h3], dim=1) up1 = self.res_up1(up1, t) up2 = self.up2(up1) up2 = torch.cat([up2, h2], dim=1) up2 = self.res_up2(up2, t) up3 = self.up2(up2) up3 = torch.cat([up3, h1], dim=1) up3 = self.res_up2(up3, t) return self.out(up3) # 初始化模型 model = UNet().to(device) print(model)

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

1.2.2 扩散模型的基本框架

1.3 前向扩散过程详解

1.3.1 前向扩散的数学原理

1.3.2 前向扩散过程的代码实现

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

1.2.2 扩散模型的基本框架

1.3 前向扩散过程详解

1.3.1 前向扩散的数学原理

1.3.2 前向扩散过程的代码实现

更多推荐文章

相关免费在线工具

1.4 反向扩散过程与模型训练

1.4.1 反向扩散的数学原理

1.4.2 构建噪声预测网络

1.4.3 模型训练流程

1.5 实战：基于 DDPM 的图像生成

1.5.1 反向扩散采样过程

1.5.2 模型优化技巧

1.6 扩散模型的发展与应用

1.6.1 经典扩散模型变体

1.6.2 扩散模型的应用场景

1.7 本章总结

更多推荐文章

相关免费在线工具

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

1.2.2 扩散模型的基本框架

1.3 前向扩散过程详解

1.3.1 前向扩散的数学原理

1.3.2 前向扩散过程的代码实现

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

1.1 本章学习目标与重点

1.2 扩散模型的核心思想

1.2.1 为什么需要扩散模型

1.2.2 扩散模型的基本框架

1.3 前向扩散过程详解

1.3.1 前向扩散的数学原理

1.3.2 前向扩散过程的代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 反向扩散过程与模型训练

1.4.1 反向扩散的数学原理

1.4.2 构建噪声预测网络

1.4.3 模型训练流程

1.5 实战：基于 DDPM 的图像生成

1.5.1 反向扩散采样过程

1.5.2 模型优化技巧

1.6 扩散模型的发展与应用

1.6.1 经典扩散模型变体

1.6.2 扩散模型的应用场景

1.7 本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具