扩散模型（Diffusion Model）原理与图像生成实战

扩散模型利用前向加噪与反向去噪的马尔可夫链机制实现稳定图像生成。文章解析 DDPM 数学原理，提供基于 PyTorch 的噪声预测网络构建与训练代码，演示 MNIST 手写数字生成全流程。包含余弦噪声调度及分类引导等优化技巧，并简述 Stable Diffusion 等主流变体应用。

PgDevote发布于 2026/3/24更新于 2026/5/88 浏览

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型示意图

为什么需要扩散模型

传统的生成对抗网络（GAN）虽然经典，但训练过程往往不稳定，容易出现模式崩溃。相比之下，扩散模型通过逐步添加噪声和逐步去除噪声的双向过程，实现了更稳定的训练和高质量的生成效果。它的灵感来源于非平衡热力学，核心在于将复杂的生成问题拆解为多个简单的马尔可夫链步骤。

在图像生成、文本生成及语音合成等领域，扩散模型的表现已经超越了传统方法。本文将带你深入理解其数学原理，并用 PyTorch 从零搭建一个 DDPM 模型，完成手写数字的生成任务。

核心思想：前向与反向扩散

扩散模型包含两个核心过程：

前向扩散过程：从真实数据出发，逐步向数据中添加高斯噪声。经过 T 步后，数据会变成完全随机的噪声。
反向扩散过程：从随机噪声出发，训练一个神经网络逐步去除噪声。经过 T 步后，噪声会还原为真实的数据分布。

整个过程遵循马尔可夫链假设，即每一步的状态只与前一步有关。

前向扩散过程详解

前向扩散是一个固定的、无需训练的过程。目标是通过逐步添加噪声，将真实图像 $x_0$ 转换为随机噪声 $x_T$。

数学原理

每一步按照以下公式添加噪声：

$$ x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_t $$

其中 $x_t$ 是第 t 步添加噪声后的图像，$\alpha_t$ 是预先设定的噪声系数（$0 < \alpha_t < 1$），$\epsilon_t$ 服从标准正态分布。

为了计算方便，通常定义累计乘积系数：

$$ \bar{\alpha}t = \prod{i=1}^t \alpha_i $$

利用累计系数，可以直接从 $x_0$ 计算出任意步的 $x_t$：

$$ x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon $$

注意：前向扩散的步数 T 是一个超参数。T 越大，前向扩散越充分，反向扩散的效果越好，但训练和生成的时间也会越长。

代码实现

这里我们使用 PyTorch 来模拟前向扩散过程。首先定义超参数并生成 beta 序列。

import torch
import numpy as np
import matplotlib.pyplot as plt
from torchvision.datasets import MNIST
from torchvision.transforms import ToTensor

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001
beta_end = 0.02

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha =  - beta
alpha_bar = torch.cumprod(alpha, dim=)  

 ():
    
    
    eps = torch.randn_like(x0).to(device)
    
    alpha_bar_t = alpha_bar[t].reshape(-, , , ).to(device)
    
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps



dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i + )
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型示意图

为什么需要扩散模型

核心思想：前向与反向扩散

扩散模型包含两个核心过程：

前向扩散过程：从真实数据出发，逐步向数据中添加高斯噪声。经过 T 步后，数据会变成完全随机的噪声。
反向扩散过程：从随机噪声出发，训练一个神经网络逐步去除噪声。经过 T 步后，噪声会还原为真实的数据分布。

整个过程遵循马尔可夫链假设，即每一步的状态只与前一步有关。

前向扩散过程详解

前向扩散是一个固定的、无需训练的过程。目标是通过逐步添加噪声，将真实图像 $x_0$ 转换为随机噪声 $x_T$。

数学原理

每一步按照以下公式添加噪声：

$$ x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_t $$

其中 $x_t$ 是第 t 步添加噪声后的图像，$\alpha_t$ 是预先设定的噪声系数（$0 < \alpha_t < 1$），$\epsilon_t$ 服从标准正态分布。

为了计算方便，通常定义累计乘积系数：

$$ \bar{\alpha}t = \prod{i=1}^t \alpha_i $$

利用累计系数，可以直接从 $x_0$ 计算出任意步的 $x_t$：

$$ x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon $$

注意：前向扩散的步数 T 是一个超参数。T 越大，前向扩散越充分，反向扩散的效果越好，但训练和生成的时间也会越长。

代码实现

这里我们使用 PyTorch 来模拟前向扩散过程。首先定义超参数并生成 beta 序列。

import torch
import numpy as np
import matplotlib.pyplot as plt
from torchvision.datasets import MNIST
from torchvision.transforms import ToTensor

# 定义扩散过程的超参数
T = 1000  # 扩散步数
beta_start = 0.0001
beta_end = 0.02

# 生成线性变化的 beta 序列
beta = torch.linspace(beta_start, beta_end, T)
alpha =  - beta
alpha_bar = torch.cumprod(alpha, dim=)  

 ():
    
    
    eps = torch.randn_like(x0).to(device)
    
    alpha_bar_t = alpha_bar[t].reshape(-, , , ).to(device)
    
    xt = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt( - alpha_bar_t) * eps
     xt, eps



dataset = MNIST(root=, train=, download=, transform=ToTensor())
x0, _ = dataset[]
x0 = x0.unsqueeze()  

device = torch.device(  torch.cuda.is_available()  )


plt.figure(figsize=(, ))
 i, t  ([, , , , , ]):
    xt, _ = forward_diffusion(x0, torch.tensor([t]), device)
    xt = xt.squeeze().cpu().detach().numpy()
    plt.subplot(, , i + )
    plt.imshow(xt, cmap=)
    plt.title()
    plt.axis()
plt.show()

import torch.nn as nn import torch.nn.functional as F class PositionalEncoding(nn.Module): def __init__(self, dim): super().__init__() self.dim = dim def forward(self, t): # t: (batch_size,) device = t.device half_dim = self.dim // 2 emb = np.log(10000) / (half_dim - 1) emb = torch.exp(torch.arange(half_dim, device=device) * -emb) emb = t[:, None] * emb[None, :] emb = torch.cat([torch.sin(emb), torch.cos(emb)], dim=-1) return emb class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, time_dim): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, 3, padding=1) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, 3, padding=1) self.bn2 = nn.BatchNorm2d(out_channels) self.time_mlp = nn.Linear(time_dim, out_channels) self.skip = nn.Conv2d(in_channels, out_channels, 1) if in_channels != out_channels else nn.Identity() def forward(self, x, t): # x: (batch_size, channels, h, w) # t: (batch_size, time_dim) h = F.relu(self.bn1(self.conv1(x))) # 添加时间嵌入 h += self.time_mlp(t)[:, :, None, None] h = F.relu(self.bn2(self.conv2(h))) return h + self.skip(x) class UNet(nn.Module): def __init__(self, in_channels=1, out_channels=1, time_dim=256): super().__init__() self.time_dim = time_dim self.pos_encoding = PositionalEncoding(time_dim) # 下采样路径 self.down1 = ResidualBlock(in_channels, 64, time_dim) self.down2 = ResidualBlock(64, 128, time_dim) self.down3 = ResidualBlock(128, 256, time_dim) self.pool = nn.MaxPool2d(2) # 瓶颈层 self.bottleneck = ResidualBlock(256, 256, time_dim) # 上采样路径 self.up1 = nn.ConvTranspose2d(256, 128, 2, stride=2) self.res_up1 = ResidualBlock(256, 128, time_dim) self.up2 = nn.ConvTranspose2d(128, 64, 2, stride=2) self.res_up2 = ResidualBlock(128, 64, time_dim) # 输出层 self.out = nn.Conv2d(64, out_channels, 1) def forward(self, x, t): # x: (batch_size, 1, 28, 28) # t: (batch_size,) t = self.pos_encoding(t) # 下采样 h1 = self.down1(x, t) h2 = self.down2(self.pool(h1), t) h3 = self.down3(self.pool(h2), t) # 瓶颈层 bottleneck = self.bottleneck(self.pool(h3), t) # 上采样 up1 = self.up1(bottleneck) up1 = torch.cat([up1, h3], dim=1) up1 = self.res_up1(up1, t) up2 = self.up2(up1) up2 = torch.cat([up2, h2], dim=1) up2 = self.res_up2(up2, t) up3 = self.up2(up2) up3 = torch.cat([up3, h1], dim=1) up3 = self.res_up2(up3, t) return self.out(up3) model = UNet().to(device) print(model)

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

为什么需要扩散模型

核心思想：前向与反向扩散

前向扩散过程详解

数学原理

代码实现

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

为什么需要扩散模型

核心思想：前向与反向扩散

前向扩散过程详解

数学原理

代码实现

更多推荐文章

相关免费在线工具

反向扩散过程与模型训练

数学原理

构建噪声预测网络

模型训练流程

实战：基于 DDPM 的图像生成

反向扩散采样过程

模型优化技巧

扩散模型的发展与应用

经典变体

应用场景

总结

更多推荐文章

相关免费在线工具

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

为什么需要扩散模型

核心思想：前向与反向扩散

前向扩散过程详解

数学原理

代码实现

扩散模型（Diffusion Model）原理与图像生成实战

扩散模型（Diffusion Model）原理与图像生成实战

为什么需要扩散模型

核心思想：前向与反向扩散

前向扩散过程详解

数学原理

代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

反向扩散过程与模型训练

数学原理

构建噪声预测网络

模型训练流程

实战：基于 DDPM 的图像生成

反向扩散采样过程

模型优化技巧

扩散模型的发展与应用

经典变体

应用场景

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具