
这项由首尔大学数据科学研究院的李俊豪、金官锡和李俊锡团队完成的研究发表于 2025 年 12 月的《机器学习研究汇刊》(Transactions on Machine Learning Research),感兴趣的读者可以通过论文编号 arXiv:2512.18184 查阅完整内容。
说到 AI 绘画,你可能听说过那些神奇的程序能根据文字描述生成精美图像。但你知道吗?这些 AI 系统在'学习画画'时,都有一个共同的起点——它们都从一种叫做'高斯分布'的数学模式开始。就像所有厨师学做菜都要先学会打鸡蛋一样,几乎所有的 AI 绘画系统都把高斯分布当作基础食材。
高斯分布听起来很复杂,其实可以理解为一种特殊的'随机撒种子'方式。假如你要在花园里种花,高斯分布就像是把种子均匀地撒向四面八方,大部分种子会落在中心附近,少数会散落到边缘。AI 绘画系统用这种方式产生初始的'创作灵感',然后逐步将这些随机点转化为有意义的图像。
但首尔大学的研究团队提出了一个有趣的问题:既然 AI 绘画本质上是一个从随机噪点到清晰图像的转换过程,那么我们为什么一定要用高斯分布作为起点?会不会有更好的'撒种子'方式,让 AI 画得更快更好?
这个问题听起来简单,实际上却困扰了整个 AI 界很久。因为在真实的研究中,科学家们发现,当他们尝试用其他分布方式替代高斯分布时,结果往往不尽如人意,有时甚至比原来更糟。这就像明明觉得应该有比鸡蛋更好的烹饪基础食材,但每次尝试替代品时,做出来的菜都不如预期。
为了彻底搞清楚这个谜题,研究团队做了一件很聪明的事情。他们意识到,直接在复杂的高维空间中研究这个问题太困难了,就像试图在一个有千万个房间的迷宫中寻找最佳路径。所以他们决定先在一个简化的二维世界中进行实验,就像先在平面地图上规划路线,再应用到真实的三维世界中。
一、创新的二维实验:让高维问题变得可视化
传统的 AI 研究往往直接在复杂的高维数据上进行实验,这就像蒙着眼睛在黑暗中摸索。首尔大学团队的第一个重要贡献是设计了一套巧妙的二维实验系统,能够保留高维数据的关键几何特性,同时让研究过程变得直观可见。
在他们设计的实验中,整个学习过程被比作一场'从起点到终点的旅行'。每个 AI 生成的样本就像一个旅行者,需要从某个起始位置(源分布)出发,最终到达目标位置(真实数据分布)。在这个比喻中,高斯分布就像是一个巨大的圆形广场,旅行者们从这个广场的各个方向出发,前往分布在地图上的几个目标景点。
研究团队发现,在高维空间中,数据有一个非常有趣的特性:大部分数据点都分布在一个'球壳'附近,就像地球表面的城市都分布在地球表面这个薄薄的壳层上,而不是均匀分布在整个地球内部。基于这个观察,他们提出了'χ-球面分解'的概念,将每个数据点分解为两个部分:一个表示方向的单位向量(就像指南针方向),和一个表示距离的标量值(就像从原点到该点的距离)。
这种分解方法的巧妙之处在于,它让研究团队能够分别研究'方向'和'距离'两个因素的影响。就像分析一次旅行时,可以分别考虑'走哪个方向'和'走多远'这两个问题。通过这种方式,他们能够清晰地观察到不同源分布策略的优缺点。
在实验设计中,他们构建了一个包含三个数据聚类的目标分布,这些聚类有着不同的密度和大小,模拟了真实世界中数据分布的复杂性。每个聚类就像一个不同大小的城市,有些是繁华的大都市,有些是安静的小镇。AI 系统的任务就是学会如何从起始广场出发,准确地到达这些不同的'城市'。
二、密度近似策略的意外发现:越像目标越糟糕
基于直觉思维,研究团队首先测试了一个看似合理的假设:如果让源分布更接近目标数据的分布,是不是就能获得更好的生成效果?就像如果旅行者的起始位置更接近目标城市,应该更容易到达目的地。
为了验证这个假设,他们设计了一个渐进式的实验。首先训练一个 AI 模型,让它学会从标准的高斯分布转换到目标数据分布。然后在训练的不同阶段(200 次、6000 次、10000 次迭代后),他们把这个部分训练的模型生成的样本作为新的源分布。这样就获得了三个逐渐接近目标分布的源分布。
然而,实验结果完全颠覆了他们的预期。随着源分布越来越接近目标分布,生成质量不仅没有改善,反而显著下降了。这就像原本以为让旅行者从更接近目标的地方出发会更容易,结果发现这样做反而让他们更容易迷路。
深入分析后,研究团队发现了问题的根源,他们称之为'模式差异'现象。当 AI 模型试图近似目标分布时,它不可避免地会丢失一些信息,特别是那些密度较低、样本较少的区域。就像一个不完美的地图,可能会遗漏一些偏远的小村庄。
这种信息丢失导致了一个严重问题:当 AI 系统在生成过程中遇到那些被遗漏区域的目标样本时,它在源分布中找不到合适的对应起点。这就像有些旅行者的目的地是那些在起始地图上被遗漏的村庄,结果他们找不到合适的出发点,只能选择次优的路径,导致旅程变得曲折复杂。
更令人惊讶的是,即使使用了最先进的'最优传输配对'技术(这是一种智能的旅行者 - 目的地配对方法),仍然无法解决这个问题。这说明问题的根源不在配对算法,而在于源分布本身的不完整性。
三、方向对齐策略的陷阱:太过集中反而有害
认识到密度近似策略的局限后,研究团队转向了另一个思路:既然完整复制目标分布有困难,那么至少可以确保源分布覆盖所有目标数据出现的方向。这就像虽然无法在每个目标城市都设立出发点,但至少可以确保每个方向都有出发点。


