AIGC 爆款《太空歌剧院》背后的扩散模型技术解析
你能想象吗?下面这些精美绝伦的图片竟然都是 AI 自动生成的!




没想到,AI 界已经有如此炫酷的技术!而在整个过程中,创作者只需做一件事,那就是:用一段文字描述想要的图片内容。
这种效果背后的技术被称作扩散模型(Diffusion Model)。
事实上,它在很多领域都占有一席之地,在游戏、生物、医疗等行业都能看到它的身影。其中,最知名的当属画作《太空歌剧院》。
可见,AI 绘画已经彻底出圈。现如今,要进入 AI 领域,AIGC 几乎已经是人手必备的生存技能了。
那么,在这一过程中,关乎其效果的背后的技术扩散模型是如何发挥魅力的呢?
赶超 AI 风口,让模型'扩散'起来
扩散模型是基于扩散思想的深度学习生成模型,其背后蕴含着复杂的数学原理。
为了便于理解,我们可以避开那些晦涩的公式,直接看核心逻辑。扩散模型借鉴了物理热力学中的扩散思想:分子从高浓度区域扩散到低浓度区域。这与由于噪声干扰导致的信息丢失十分相似。
书中采用了一滴墨水在水中扩散的过程举例。
▮ **初始状态:**扩散开始之前,这滴墨水会在水中的某个地方形成一个大的斑点。
▮ **扩散过程:**这滴墨水随着时间的推移逐步扩散到水中,水的颜色也逐渐变成这滴墨水的颜色。

就这个过程而言,描述该初始状态的概率分布很困难,因为该分布非常复杂。而扩散后的墨水分子的概率分布更加简单和均匀,可以很轻松地用数学公式来描述。
这时候非平衡热力学就派上用场了,它可以描述墨水随时间推移的扩散过程中每一个时间步状态的概率分布。如果把这个过程反过来,就可以从简单的分布中逐步推断出复杂的分布。
扩散模型和这个过程类似,只不过它分为前向扩散和反向扩散两个过程。
▮ **前向扩散:**引入噪声,并学习由噪声引起的信息衰减,最终得到纯随机噪声分布的数据,即类似稳定墨水系统的状态。
▮ **反向扩散:**前向扩散的反向过程,是'去噪'的过程,即从随机噪声中迭代恢复出清晰数据的过程。通俗地说,就是生成模型的采样过程。












