深度生成模型对比：VAE、GAN、AR、Flow 与 Diffusion 原理及代码实战 | 极客日志

PythonAI算法

深度生成模型对比：VAE、GAN、AR、Flow 与 Diffusion 原理及代码实战

深度生成模型涵盖 VAE、GAN、AR、Flow 及 Diffusion 五大类。VAE 基于变分推断，适合数据填充；GAN 通过对抗训练提升图像细节；AR 擅长序列建模；Flow 支持精确密度估计；Diffusion 凭借去噪过程实现高质量生成。对比各模型原理、损失函数及优缺点，并提供 PyTorch 核心代码实现，帮助理解不同架构的适用场景与权衡。

信号故障发布于 2026/4/7更新于 2026/5/2111 浏览

深度生成模型对比：VAE、GAN、AR、Flow 与 Diffusion 原理及代码实战

深度生成模型全景解析

随着 Sora、GPT 等模型的兴起，深度生成模型再次成为焦点。这类机器学习工具能从输入数据学习潜在分布，生成与训练数据相似的样本，在计算机视觉、自然语言处理等领域广泛应用。

本文汇总了常用的深度学习模型，深入介绍其原理及应用：VAE（变分自编码器）、GAN（生成对抗网络）、AR（自回归模型）、Flow（流模型）和 Diffusion（扩散模型）。

模型	核心目标	优点	缺点	应用场景
VAE	学习潜在空间分布	训练稳定，支持插值	生成图像模糊	数据填充、特征提取
GAN	生成逼真样本	细节丰富，推理快	训练不稳定，多样性不足	艺术创作、风格迁移
AR	序列数据生成	建模能力强，长序列支持	生成速度慢	文本生成、时序预测
Flow	精确概率密度估计	可逆变换，密度准确	高维下设计复杂	语音合成、密度估计
Diffusion	逐步去噪重建	生成质量最高，稳定	推理慢，显存占用高	高清图像、视频生成

1. 变分自编码器（VAE）

1.1 核心概念

VAE 结合了自编码器和变分推断。它假设隐变量服从某种先验分布（如标准正态分布），通过编码器将输入映射到隐变量的后验分布，再由解码器还原样本。

简单来说，VAE 不仅要求能重构输入，还要求隐空间符合一定的统计规律，这样生成的样本才具有泛化性。

文章配图

1.2 训练损失

VAE 的损失函数包含两部分：重构损失和 KL 散度。

重构项：衡量解码器重建输入的能力，常用均方误差或交叉熵。
KL 散度项：约束潜在分布与标准正态分布的差异，平衡参数为 β。

优化目标是最大化证据下界（ELBO）。这就像在学习绘画时，既要准确临摹（重构），又要符合透视规则（KL 约束）。

文章配图

1.3 VAE 的实现

下面是一个基于 PyTorch 的简化实现。注意重参数化技巧的使用，这是让梯度能通过采样过程的关键。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch
import torch.nn as nn
import torch.nn.functional as F

class VAE(nn.Module):
    def __init__(self, input_dim=784, hidden_dim=400, latent_dim=20):
        super(VAE, self).__init__()
        # 编码器：输入 → 隐藏层 → 均值和方差
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, latent_dim * 2)  # 输出均值和对数方差
        )
        # 解码器：潜在变量 → 隐藏层 → 重构输入
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, input_dim),
            nn.Sigmoid()  # 输出像素值在 [0,1] 区间
        )

    def reparameterize(self, mu, log_var):
        """重参数化技巧：从 N(μ, σ²) 采样潜在变量 z"""
        std = torch.exp(0.5 * log_var)
        eps = torch.randn_like(std)
        return mu + eps * std

    def forward(self, x):
        h = self.encoder(x)
        mu, log_var = torch.chunk(h, 2, dim=1)
        z = self.reparameterize(mu, log_var)
        x_recon = self.decoder(z)
        return x_recon, mu, log_var

    def loss_function(self, x_recon, x, mu, log_var):
        recon_loss = F.binary_cross_entropy(x_recon, x, reduction='sum')
        kl_div = -0.5 * torch.sum(1 + log_var - mu.pow(2) - log_var.exp())
        return recon_loss + kl_div

class Generator(nn.Module):
    def __init__(self, noise_dim=100, output_dim=784):
        super(Generator, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(noise_dim, 256),
            nn.ReLU(),
            nn.Linear(256, 512),
            nn.ReLU(),
            nn.Linear(512, output_dim),
            nn.Tanh()  # 输出范围 [-1,1]
        )
    def forward(self, z):
        return self.model(z).view(-1, 1, 28, 28)

class Discriminator(nn.Module):
    def __init__(self, input_dim=784):
        super(Discriminator, self).__init__()
        self.model = nn.Sequential(
            nn.Linear(input_dim, 512),
            nn.LeakyReLU(0.2),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )
    def forward(self, x):
        x = x.view(-1, 784)
        return self.model(x)

# 训练循环示例（简化版）
def train_gan():
    G = Generator()
    D = Discriminator()
    criterion = nn.BCELoss()
    
    for real_images, _ in dataloader:
        # 训练判别器
        real_labels = torch.ones(real_images.size(0), 1)
        fake_labels = torch.zeros(real_images.size(0), 1)
        
        real_loss = criterion(D(real_images), real_labels)
        z = torch.randn(real_images.size(0), 100)
        fake_images = G(z)
        fake_loss = criterion(D(fake_images.detach()), fake_labels)
        d_loss = real_loss + fake_loss
        d_loss.backward()
        optimizer_D.step()
        
        # 训练生成器
        g_loss = criterion(D(fake_images), real_labels)
        g_loss.backward()
        optimizer_G.step()

class TransformerAR(nn.Module):
    def __init__(self, vocab_size=256, embed_dim=128, num_heads=4, num_layers=3):
        super(TransformerAR, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.positional_enc = nn.Parameter(torch.randn(784, embed_dim))
        
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=embed_dim, nhead=num_heads, dim_feedforward=512
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers)
        self.fc = nn.Linear(embed_dim, vocab_size)

    def forward(self, x):
        x = self.embedding(x) + self.positional_enc
        mask = torch.triu(torch.ones(784, 784), diagonal=1).bool()
        out = self.transformer(x, mask=mask)
        logits = self.fc(out)
        return logits

    def generate(self, start_token, max_len=784):
        generated = start_token
        for _ in range(max_len):
            logits = self(generated)
            next_pixel = torch.multinomial(F.softmax(logits[:, -1, :], dim=-1), 1)
            generated = torch.cat([generated, next_pixel], dim=1)
        return generated

class FlowModel(nn.Module):
    def __init__(self, input_dim=784, hidden_dim=512):
        super(FlowModel, self).__init__()
        self.scale_net = nn.Sequential(
            nn.Linear(input_dim//2, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, input_dim//2)
        )
        self.shift_net = nn.Sequential(
            nn.Linear(input_dim//2, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, input_dim//2)
        )

    def forward(self, x):
        x1, x2 = x.chunk(2, dim=1)
        s = self.scale_net(x1)
        t = self.shift_net(x1)
        z2 = x2 * torch.exp(s) + t
        z = torch.cat([x1, z2], dim=1)
        log_det = s.sum(dim=1)
        return z, log_det

    def inverse(self, z):
        z1, z2 = z.chunk(2, dim=1)
        s = self.scale_net(z1)
        t = self.shift_net(z1)
        x2 = (z2 - t) * torch.exp(-s)
        x = torch.cat([z1, x2], dim=1)
        return x

    def flow_loss(self, z, log_det):
        prior_logprob = -0.5 * (z ** 2).sum(dim=1)
        return (-prior_logprob - log_det).mean()

class DiffusionModel(nn.Module):
    def __init__(self, image_size=28, channels=1):
        super(DiffusionModel, self).__init__()
        self.net = nn.Sequential(
            nn.Conv2d(channels, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, 64, 3, padding=1),
            nn.ReLU(),
            nn.Conv2d(64, channels, 3, padding=1)
        )
        self.num_steps = 1000
        self.betas = torch.linspace(1e-4, 0.02, self.num_steps)
        self.alphas = 1 - self.betas
        self.alpha_bars = torch.cumprod(self.alphas, dim=0)

    def forward(self, x, t):
        return self.net(x)

    def train_step(self, x0):
        t = torch.randint(0, self.num_steps, (x0.size(0),))
        sqrt_alpha_bar = torch.sqrt(self.alpha_bars[t]).view(-1, 1, 1, 1)
        sqrt_one_minus_alpha_bar = torch.sqrt(1 - self.alpha_bars[t]).view(-1, 1, 1, 1)
        epsilon = torch.randn_like(x0)
        xt = sqrt_alpha_bar * x0 + sqrt_one_minus_alpha_bar * epsilon
        epsilon_pred = self(xt, t)
        loss = F.mse_loss(epsilon_pred, epsilon)
        return loss

    def sample(self, num_samples=16):
        xt = torch.randn(num_samples, 1, 28, 28)
        for t in reversed(range(self.num_steps)):
            epsilon_pred = self(xt, t)
            xt = (xt - self.betas[t] * epsilon_pred) / torch.sqrt(self.alphas[t])
            if t > 0:
                xt += torch.sqrt(self.betas[t]) * torch.randn_like(xt)
        return xt

深度生成模型对比：VAE、GAN、AR、Flow 与 Diffusion 原理及代码实战

深度生成模型全景解析

1. 变分自编码器（VAE）

1.1 核心概念

1.2 训练损失

1.3 VAE 的实现

更多推荐文章

相关免费在线工具

2. 生成对抗网络（GAN）

2.1 核心概念

2.2 训练损失

a. 判别器的损失函数

b. 生成器的损失函数

c. 对抗训练的动态过程

2.3 GAN 的实现

3. 自回归模型（AR）

3.1 核心概念

3.2 训练过程

a. 核心思想：用历史预测未来

b. Transformer 的损失计算

c. 具体步骤

3.3 代码实现（Transformer-AR）

4. 流模型（Flow）

4.1 核心概念

4.2 训练过程

4.3 代码实现（Flow）

5. 扩散模型（Diffusion）

5.1 核心概念

5.2 训练过程

5.3 代码实现（Diffusion）

6. 小结

更多推荐文章

相关免费在线工具

深度生成模型对比：VAE、GAN、AR、Flow 与 Diffusion 原理及代码实战

深度生成模型全景解析

1. 变分自编码器（VAE）

1.1 核心概念

1.2 训练损失

1.3 VAE 的实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 生成对抗网络（GAN）

2.1 核心概念

2.2 训练损失

a. 判别器的损失函数

b. 生成器的损失函数

c. 对抗训练的动态过程

2.3 GAN 的实现

3. 自回归模型（AR）

3.1 核心概念

3.2 训练过程

a. 核心思想：用历史预测未来

b. Transformer 的损失计算

c. 具体步骤

3.3 代码实现（Transformer-AR）

4. 流模型（Flow）

4.1 核心概念

4.2 训练过程

4.3 代码实现（Flow）

5. 扩散模型（Diffusion）

5.1 核心概念

5.2 训练过程

5.3 代码实现（Diffusion）

6. 小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具