【论文阅读】Denoising Diffusion Probabilistic Models (DDPM)详细解析及公式推导

摘要

使用扩散概率模型(一类受非平衡热力学启发的潜变量模型)展示了高质量的图像合成结果。作者最佳的结果是通过在加权变分界上进行训练获得的,该界是根据扩散概率模型与带朗之万动力学的去噪分数匹配之间的新型联系设计的,并且作者的模型自然地支持一种渐进式有损解压方案,这可以被解释为自回归解码的推广。在无条件 CIFAR10 数据集上,作者获得了 9.46 的 Inception 分数和 3.17 的最先进 FID 分数。在 256x256 的 LSUN 数据集上,作者获得了与 ProgressiveGAN 相似的样本质量。我们的实现可在 https://github.com/hojonathanho/diffusion 获取。

核心思想解析

Denoising Diffusion Probabilistic Models (DDPM) 是一种基于扩散过程的生成模型,通过逐步添加和去除噪声实现数据生成。其核心分为前向扩散(加噪)和反向扩散(去噪)两个过程,最终学习从噪声中重构数据。

在这里插入图片描述

重参数化

在这里插入图片描述

前向扩散过程

前向过程将数据逐渐转化为高斯噪声,每一步根据预设的噪声调度参数 βt\beta_tβt​ 添加噪声。给定数据 x0x_0x0​,第 ttt 步的加噪结果 xtx_txt​ 服从以下分布:
q(xt∣xt−1)=N(xt;1−βtxt−1,βtI) q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I}) q(xt​∣xt−1​)=N(xt​;1−βt​​xt−1​,βt​I)
通过重参数化技巧,可直接从 x0x_0x0​ 计算任意 ttt 步的噪声数据:
xt=αˉtx0+1−αˉtϵ x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon xt​=αˉt​​x0​+1−αˉt​​ϵ
其中 αt=1−βt\alpha_t = 1-\beta_tαt​=1−βt​,αˉt=∏s=1tαs\bar{\alpha}_t = \prod_{s=1}^t \alpha_sαˉt​=∏s=1t​αs​,ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, \mathbf{I})ϵ∼N(0,I)。

在这里插入图片描述
在这里插入图片描述


在这里插入图片描述

反向扩散过程

反向过程通过神经网络学习逐步去噪。模型预测噪声 ϵθ\epsilon_\thetaϵθ​ 以重构数据,目标是最小化以下损失函数:
L=Et,x0,ϵ[∥ϵ−ϵθ(xt,t)∥2] \mathcal{L} = \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right] L=Et,x0​,ϵ​[∥ϵ−ϵθ​(xt​,t)∥2]
去噪每一步的均值和方差通过以下公式计算:
pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t)) p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t)) pθ​(xt−1​∣xt​)=N(xt−1​;μθ​(xt​,t),Σθ​(xt​,t))
其中 μθ\mu_\thetaμθ​ 通常由预测噪声 ϵθ\epsilon_\thetaϵθ​ 推导得出。

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
在这里插入图片描述

训练与生成步骤

训练阶段

  1. 从数据集中采样 x0x_0x0​,随机选择时间步 ttt。
  2. 生成噪声 ϵ\epsilonϵ 并计算 xtx_txt​。
  3. 训练神经网络 ϵθ\epsilon_\thetaϵθ​ 预测噪声,优化均方误差损失。

生成阶段

  1. 从高斯噪声 xTx_TxT​ 开始,逐步去噪至 x0x_0x0​。
  2. 每一步使用 ϵθ\epsilon_\thetaϵθ​ 预测噪声,并通过采样得到 xt−1x_{t-1}xt−1​。

关键改进与扩展

  • 噪声调度:线性或余弦调度的 βt\beta_tβt​ 影响训练稳定性和生成质量。
  • 加速采样:DDIM(Denoising Diffusion Implicit Models)通过非马尔可夫链加速生成。
  • 条件生成:通过分类器引导或嵌入条件信息实现可控生成。

代码实现要点

# 噪声预测网络结构(U-Net为例)classUNet(nn.Module):def__init__(self):super().__init__() self.time_embed = nn.Sequential( nn.Linear(embed_dim, time_emb_dim), nn.SiLU(), nn.Linear(time_emb_dim, time_emb_dim)) self.down_blocks = nn.ModuleList([DownsampleBlock(...)for _ inrange(num_layers)]) self.up_blocks = nn.ModuleList([UpsampleBlock(...)for _ inrange(num_layers)])# 训练循环核心步骤deftrain_step(x0, t): noise = torch.randn_like(x0) xt = sqrt_alphas_cumprod[t]* x0 + sqrt_one_minus_alphas_cumprod[t]* noise predicted_noise = model(xt, t) loss = F.mse_loss(predicted_noise, noise)return loss 

数学推导补充

反向过程的真实后验分布 q(xt−1∣xt,x0)q(x_{t-1}|x_t,x_0)q(xt−1​∣xt​,x0​) 可解析计算为:
q(xt−1∣xt,x0)=N(xt−1;μ~t(xt,x0),β~tI) q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t,x_0), \tilde{\beta}_t\mathbf{I}) q(xt−1​∣xt​,x0​)=N(xt−1​;μ~​t​(xt​,x0​),β~​t​I)
其中:
μ~t=αˉt−1βt1−αˉtx0+αt(1−αˉt−1)1−αˉtxt \tilde{\mu}_t = \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t μ~​t​=1−αˉt​αˉt−1​​βt​​x0​+1−αˉt​αt​​(1−αˉt−1​)​xt​
β~t=1−αˉt−11−αˉtβt \tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t β~​t​=1−αˉt​1−αˉt−1​​βt​
模型通过拟合 μ~t\tilde{\mu}_tμ~​t​ 实现去噪。

Read more

构建企业级私有化 AI:从大模型原理到本地智聊机器人全栈部署指南

构建企业级私有化 AI:从大模型原理到本地智聊机器人全栈部署指南

摘要:在生成式人工智能(AIGC)浪潮席卷全球的今天,大语言模型(LLM)已不再是科技巨头的专属玩具。然而,数据隐私泄露的隐忧、云端 API 高昂的调用成本以及网络延迟的不可控性,正成为阻碍企业深度应用 AI 的“三座大山”。本文基于“智聊机器人”项目的核心架构,深入剖析从大模型理论基础到本地私有化部署的全链路实践。我们将摒弃对云端服务的依赖,利用 Ollama 推理引擎与 Streamlit 前端框架,在消费级硬件上构建一个安全、可控、低成本的智能对话系统。这不仅是一次技术环境的搭建,更是一场关于“数据主权”与“AI 民主化”的深度探索。 文章目录 * 🌐 第一章:觉醒时刻——为何我们需要“私有化”大模型? * 1.1 大模型时代的机遇与隐痛 * 1.2 破局之道:开源模型与本地部署的崛起 * 1.

OpenClaw 集成飞书机器人:从入门到精通

OpenClaw 集成飞书机器人:从入门到精通 作者: 你的智能助手 发布时间: 2026-03-11 标签: #OpenClaw #飞书机器人 #自动化 #AIGC 📋 目录 1. 前言 2. 什么是 OpenClaw 3. 前期准备 4. 飞书应用创建与授权 5. OpenClaw 环境搭建 6. 飞书插件配置详解 7. 核心功能实战 8. 进阶技巧与最佳实践 9. 常见问题排查 10. 总结与展望 前言 在当今的数字化办公环境中,企业通讯工具已经成为日常协作的核心。飞书作为国内领先的企业协同平台,其强大的 API 生态为开发者提供了广阔的创作空间。而 OpenClaw 作为一个创新的 AI 代理框架,能够让你轻松地将大语言模型的能力接入到飞书中,实现真正的智能化办公。 本文将带你从零开始,

从人类视频到机器人跳舞:BeyondMimic 全流程解析与 rl_sar 部署实践

从人类视频到机器人跳舞:BeyondMimic 全流程解析与 rl_sar 部署实践

0. 前言 让人形机器人学会跳舞,听起来像是科幻电影中的场景,但在强化学习和运动模仿技术的推动下,这件事正在变得越来越现实。本文将完整介绍一条从"人类 RGB 视频"到"真实机器人跳舞"的技术链路:首先通过视觉算法从视频中提取人体运动轨迹,然后将人体模型重定向到机器人关节空间,接着在仿真环境中进行强化学习训练,最后在 MuJoCo 中验证并部署到真实的 Unitree G1 人形机器人上。 整条流程涉及四个核心开源项目:GVHMR(视频到人体模型)、GMR(人体到机器人重定向)、BeyondMimic(强化学习训练框架)、以及 rl_sar(仿真验证与真机部署框架)。本文不仅会逐一拆解每个环节的原理和操作步骤,还会深入分析 BeyondMimic 的算法设计,并详细记录将训练产物迁移到 rl_sar 项目中进行 sim2sim 和 sim2real 部署时遇到的关键问题与解决方案。 下图展示了

【旋转框】基于YOLO26深度学习的无人机视角车辆检测系统【python源码+Pyqt5界面+数据集+训练代码】

【旋转框】基于YOLO26深度学习的无人机视角车辆检测系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【YOLOv8多目标识别与自动标注软件开发】8.【基于YOLOv8深度学习的行人跌倒检测系统】9.【基于YOLOv8深度学习的PCB板缺陷检测系统】10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统】11.【基于YOLOv8深度学习的安全帽目标检测系统】12.【基于YOLOv8深度学习的120种犬类检测与识别系统】13.【基于YOLOv8深度学习的路面坑洞检测系统】14.【基于YOLOv8深度学习的火焰烟雾检测系统】15.【基于YOLOv8深度学习的钢材表面缺陷检测系统】16.【基于YOLOv8深度学习的舰船目标分类检测系统】17.【基于YOLOv8深度学习的西红柿成熟度检测系统】18.【基于YOLOv8深度学习的血细胞检测与计数系统】19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统】