Transformer、Stable Diffusion 与 LLM 模型对比及实现

Transformer 作为基础架构支撑现代 AI，LLM 专注于文本序列生成，Stable Diffusion 则基于扩散模型处理图像。两者在核心任务、技术基础及生成逻辑上存在显著差异。文章通过对比表格梳理关键区别，并深入解析了 DDPM 模型的 Python 实现，涵盖参数配置、训练循环中的梯度裁剪与学习率调度，以及反向去噪的采样流程，为理解生成式 AI 落地提供实践参考。

链路追踪发布于 2026/4/11更新于 2026/7/2339 浏览

Transformer、Stable Diffusion 与 LLM 模型对比及实现

三种模型的核心差异

Transformer 是现代 AI 的基础架构，而 LLM（大语言模型）和 Stable Diffusion 则是基于不同技术路线的典型应用。简单来说，LLM 擅长处理语言，Stable Diffusion 专注于图像生成。

详细对比表

维度	LLM	Stable Diffusion
核心任务	理解和生成人类语言文本，如对话、协作、翻译、代码生成	生成和编辑图像，根据文本描述生成图片，或对现有图片进行修改
技术基础	主要基于 Transformer 架构的解码器部分（如 GPT 系列），或者编码器 - 解码器部分	基于扩散模型架构，结合了 Transformer 用于理解文本提示，和 U-Net 用于去噪生成图像
处理对象	离散的符号序列	连续的图像数据，像素矩阵
工作原理	根据上下文预测下一个最可能的 token，自回归生成文本	从纯随机噪声开始，通过多步去噪过程，逐步将其塑造成符合文本描述的清晰图像
代表性模型	GPT 系列，LLaMA 系列，ChatGLM，通义千问，文心一言	Stable Diffusion 系列及其变体，SDXL, SD1.5 等，DALL-E2/3, Midjourney
输入输出	输入：文本提示；输出：文本	输入：文本提示 + 可选参数；输出：图像

关键差异点

架构不同：LLM 的核心是 Transformer；Stable Diffusion 的核心是扩散模型，只是借用 Transformer 作为其文本理解器。
数据模态不同：一个处理文本，一个处理图像。
生成逻辑不同：LLM 是从左到右的序列预测；Stable Diffusion 是从噪声到清晰图的迭代去噪。

开源生态的影响

开源是这些模型发展的重要催化剂，但程度和方式有所不同。

Transformer：论文《Attention Is All You Need》彻底开源，代码实现被广泛公开，已成为行业标准。
Stable Diffusion：由 StabilityAI 主动开源，这一举动引爆了 AI 绘画革命，社区可以自由使用、修改、微调模型，催生了海量工具和生态。
LLM：情况更复杂。闭源代表如 OpenAI 的 GPT-4、Google 的 Gemini Advanced，仅提供 API；开源代表如 Meta 的 LLaMA 系列、MistralAI 的 Mistral/Mixtral，以及国产的 ChatGLM、Qwen、Baichuan 等，公开权重和架构，允许本地部署和研究。

开源极大地降低了应用门槛，促进了安全性研究、垂直领域适配、成本下降和技术民主化。

Stable Diffusion 实战：DDPM 模型实现

# DDPM 主程序入口 # 使用方法：Python Main.py # 使用默认配置训练或评估 from Diffusion.Train import train, eval def main(model_config=None): # 主函数：配置参数并启动训练或评估 # args: model_config 可选的配置字典，如果提供则覆盖默认配置 # 模式配置字典：包含所有训练和评估所需的超参数 modelConfig = { # 运行模式：train 训练模式，从头开始训练或继续训练模型；eval 评估模式，加载已训练模型并生成图像 "state": "train", # 训练超参数 "epoch": 200, # 训练的总轮数 "batch_size": 80, # 每个批次的样本数量 "lr": 1e-4, # 初始学习率 "multiplier": 2, # 学习率预热后的倍数 "grad_clip": 1, # 梯度裁剪阈值，防止梯度爆炸 # 扩散过程参数 "T": 1000, # 扩散步数前向过程的步数 "beta_1": 1e-4, # 初始噪声系数 "beta_T": 0.02, # 最终噪声系数 # UNet 模型架构参数 "channel": 128, # 基础通道数 "channel_mult": [1, 2, 3, 4], # 通道倍数列表 "attn": [2], # 在哪些层级添加注意力机制 "num_res_blocks": 2, # 每个分辨率级别的残差块数量 "dropout": 0.15, # Dropout 比率 # 数组相关参数 "img_size": 32, # 图像尺寸 # 设备配置 "device": "cuda:0", # 计算设备 # 模型权重相关 "training_load_weight": None, # 训练时加载的预训练权重文件名 "save_weight_dir": "./Checkpoints/", # 模型权重保存目录 "test_load_weight": "ckpt_199_.pt", # 评估时加载的模型权重文件名 # 图像保存相关 "sampled_dir": "./SampledImgs/", # 生成图像的保存目录 "sampledNoisyImgName": "NoisyNoGuidenceImgs.png", # 初始噪声图像文件名 "sampledImgName": "SampledNoGuidenceImgs.png", # 生成图像文件名 "nrow": 8 # 保存图像时每行显示的图像数量 } # 如果提供了自定义配置，则使用自定义配置覆盖默认值 if model_config is not None: modelConfig.update(model_config) # 根据配置选择运行模式 if modelConfig["state"] == "train": train(modelConfig) else: eval(modelConfig) if __name__ == '__main__': main()

import os from typing import Dict import torch import torch.optim as optim from tqdm import tqdm from torch.utils.data import DataLoader from torchvision import transforms from torchvision.datasets import CIFAR10 from torchvision.utils import save_image from Diffusion import GaussianDiffusionSampler, GaussianDiffusionTrainer from Diffusion.Model import UNet from Scheduler import GradualWarmupScheduler def train(modelConfig: Dict): # 设置计算设备，GPU 或 CPU device = torch.device(modelConfig["device"]) # 数据集准备：加载 CIFAR-10 训练集 dataset = CIFAR10( root='./CIFAR10', train=True, download=True, transform=transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)), ]) ) # 创建数据加载器 dataloader = DataLoader( dataset, batch_size=modelConfig["batch_size"], shuffle=True, num_workers=4, drop_last=True, pin_memory=True ) # 模型初始化：创建 UNet 模型 net_model = UNet( T=modelConfig["T"], ch=modelConfig["channel"], ch_mult=modelConfig["channel_mult"], attn=modelConfig["attn"], num_res_blocks=modelConfig["num_res_blocks"], dropout=modelConfig["dropout"] ).to(device) # 如果指定了预训练权重，则加载 if modelConfig["training_load_weight"] is not None: net_model.load_state_dict(torch.load(os.path.join(modelConfig["save_weight_dir"], modelConfig["training_load_weight"]), map_location=device)) # 优化器设置：使用 AdamW 优化器 optimizer = torch.optim.AdamW(net_model.parameters(), lr=modelConfig["lr"], weight_decay=1e-4) # 学习率调度器设置：余弦退火 + 预热 cosineScheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer=optimizer, T_max=modelConfig["epoch"], eta_min=0) warmUpScheduler = GradualWarmupScheduler( optimizer=optimizer, multiplier=modelConfig["multiplier"], warm_epoch=modelConfig["epoch"] // 10, after_scheduler=cosineScheduler ) # 扩散训练器初始化 trainer = GaussianDiffusionTrainer( net_model, modelConfig["beta_1"], modelConfig["beta_T"], modelConfig["T"] ).to(device) # 开始训练循环 for e in range(modelConfig["epoch"]): with tqdm(dataloader, dynamic_ncols=True) as tqdmDataLoader: for images, labels in tqdmDataLoader: optimizer.zero_grad() x_0 = images.to(device) # 前向传播，计算损失 loss = trainer(x_0).sum() / 1000.0 # 反向传播 loss.backward() # 梯度裁剪 torch.nn.utils.clip_grad_norm_(net_model.parameters(), modelConfig["grad_clip"]) # 更新模型参数 optimizer.step() # 更新进度条显示信息 tqdmDataLoader.set_postfix({"epoch": e, "loss": loss.item(), "img shape": x_0.shape, "LR": optimizer.state_dict()['param_groups'][0]["lr"]}) # 每个 epoch 结束后更新学习率 warmUpScheduler.step() # 保存模型检查点 torch.save(net_model.state_dict(), os.path.join(modelConfig["save_weight_dir"], 'ckpt_' + str(e) + ".pt"))

Transformer、Stable Diffusion 与 LLM 模型对比及实现