
这项研究由首尔大学数据科学研究院的李俊豪、金官锡和李俊锡团队完成,发表在 2025 年 12 月的《机器学习研究汇刊》(Transactions on Machine Learning Research),论文编号是 arXiv:2512.18184。
流匹配里,大家几乎默认把高斯分布当作源分布。它不一定最'像'真实图像,但训练起来稳,覆盖也够广。首尔大学这篇工作追的就是这个问题:为什么换掉高斯后,很多看起来更合理的方案反而更差。
我读下来,结论其实不绕。高斯分布好用,不是因为它优雅,而是因为它给了模型一个很关键的东西:全方向覆盖。很多替代方案在局部上更贴近数据,真到训练和采样时,反而容易把一些方向弄丢,或者把轨迹挤得太紧,最后让学习变难。
先把高维问题拆开看
这篇工作的一个聪明点,是没有一上来就把高维图像空间硬啃到底,而是先做了二维实验,再回到 CIFAR-10 和 ImageNet64 验证。这样做的好处很实际:很多几何上的问题,在二维里能看得很清楚,到了高维只是复杂度变高,核心矛盾并没变。
他们提出了一个 χ-球面分解,把样本拆成'方向'和'范数'两部分。这个拆法挺有用。方向决定往哪走,范数决定走多远。流匹配里很多看似玄学的现象,拆开之后就能看出到底是方向出了问题,还是尺度不对。
贴近目标分布,不一定更好
团队先试了一个直觉上很顺的思路:把源分布做得更像目标分布,生成会不会更好?结果不太乐观。
他们从训练过程中的中间模型里拿样本,构造出逐步逼近目标分布的源分布。按理说,源和目标越接近,任务应该越轻松。但实验显示,越接近,效果反而越差。问题出在'模式差异'上:近似目标分布时,少样本区域和低密度区域很容易被抹掉。模型一旦看不到这些区域,后面就没有可靠的起点去覆盖它们。
这点挺像做地图。你把主要道路标出来了,看起来更接近现实,但把村路漏掉了,真要去偏远地方时,反而没路可走。
方向对齐也有坑
他们接着换了一个思路:既然完整复制目标分布很难,那就至少让源分布覆盖所有方向。于是用了 von Mises-Fisher 分布来控制方向集中度。
理想情况下,方向对齐确实有效。尤其是当你知道目标样本真正朝哪个方向时,生成质量会明显提升。但现实没有那么顺手。用聚类去近似这种方向信息时,只要源分布太集中,问题就来了。
原因是'路径纠缠'。多个起点太靠近,前半段轨迹几乎重叠,后半段又要分开去不同目标,向量场会变得很难学。换句话说,不是越聚焦越好,太挤了,模型反而不知道怎么把这些轨迹拆开。
他们还给了数学分析,说明当源分布浓度过高时,局部利普希茨常数会上升,训练会更不稳定。这个结论不花哨,但很实在:模型不是在学一个漂亮的几何图案,而是在学一个能稳定走通的向量场。
配对策略的差别,没想象中那么简单
这部分我觉得是文章里最有意思的地方之一。
一种做法是独立随机配对,看起来有点粗糙,但它保留了高斯分布的全方向覆盖。每个目标点周围都能看到来自不同方向的源样本,训练到的向量场会更均匀。
另一种是批量最优传输配对。这个办法更'聪明',每次都尽量给你找局部最短路径,单看一批样本确实更高效。问题是它太偏近邻了,长期下来会把方向覆盖压缩掉。模型学到的东西更像几条主干道,而不是完整路网。
所以最优传输并没有天然胜出。它在局部上更漂亮,整体上却可能少了一点鲁棒性。流匹配这类任务里,局部最优常常不是答案。
高斯分布真正强的地方
这篇论文最后把高斯分布的优势说得很清楚:它的强项不是'像数据',而是'哪里都能去一点'。
对流匹配来说,这种全方向覆盖很关键。它保证了训练时向量场不会只在少数方向上变得熟练,而是在整个空间里都能拿到足够的监督。这样一来,生成过程遇到冷门方向时,不至于完全没见过。
当然,高斯分布也不是没问题。最明显的一点是范数不匹配:源样本和目标样本离原点的距离往往不在一个量级。这个差异会让模型多做不少无效工作。
两个改法:一个管训练,一个管推理
针对这个问题,作者提出了两步处理。
第一个是范数对齐。做法很直接:先把目标数据按比例缩放,让它和高斯源分布的平均范数对齐;生成完再缩回去。这个方法简单,成本也低。高质量采样时,它的收益比较稳定,但在快速采样场景里,过度对齐会让路径更弯,有限步数下反而没那么占便宜。
第二个是修剪采样。这个更实用。训练时还是保留完整高斯分布,保证覆盖;推理时用 PCA 找出数据稀疏的方向,再通过拒绝采样避开这些区域。这样做的好处是不用重训模型,直接能接到现有系统上。
从结果看,修剪采样比范数对齐更稳,尤其在低步数采样时改善更明显。两者叠加后,效果还会再往上走一点。


