为什么流匹配常用高斯分布做源分布

首尔大学团队分析了流匹配里为什么常用高斯分布做源分布。结果表明，真正起作用的不是“像目标数据”，而是高斯带来的全方向覆盖；过度贴近目标分布会丢失低密度区域，方向过于集中又会让轨迹纠缠、训练变难。作者进一步提出范数对齐和修剪采样两种改法，前者解决尺度不匹配，后者可直接用于推理阶段，且在 CIFAR-10 和 ImageNet64 上都带来稳定提升。

CryptoLab发布于 2026/6/300 浏览

文章配图

这项研究由首尔大学数据科学研究院的李俊豪、金官锡和李俊锡团队完成，发表在 2025 年 12 月的《机器学习研究汇刊》（Transactions on Machine Learning Research），论文编号是 arXiv:2512.18184。

流匹配里，大家几乎默认把高斯分布当作源分布。它不一定最'像'真实图像，但训练起来稳，覆盖也够广。首尔大学这篇工作追的就是这个问题：为什么换掉高斯后，很多看起来更合理的方案反而更差。

我读下来，结论其实不绕。高斯分布好用，不是因为它优雅，而是因为它给了模型一个很关键的东西：全方向覆盖。很多替代方案在局部上更贴近数据，真到训练和采样时，反而容易把一些方向弄丢，或者把轨迹挤得太紧，最后让学习变难。

先把高维问题拆开看

这篇工作的一个聪明点，是没有一上来就把高维图像空间硬啃到底，而是先做了二维实验，再回到 CIFAR-10 和 ImageNet64 验证。这样做的好处很实际：很多几何上的问题，在二维里能看得很清楚，到了高维只是复杂度变高，核心矛盾并没变。

他们提出了一个 χ-球面分解，把样本拆成'方向'和'范数'两部分。这个拆法挺有用。方向决定往哪走，范数决定走多远。流匹配里很多看似玄学的现象，拆开之后就能看出到底是方向出了问题，还是尺度不对。

贴近目标分布，不一定更好

团队先试了一个直觉上很顺的思路：把源分布做得更像目标分布，生成会不会更好？结果不太乐观。

他们从训练过程中的中间模型里拿样本，构造出逐步逼近目标分布的源分布。按理说，源和目标越接近，任务应该越轻松。但实验显示，越接近，效果反而越差。问题出在'模式差异'上：近似目标分布时，少样本区域和低密度区域很容易被抹掉。模型一旦看不到这些区域，后面就没有可靠的起点去覆盖它们。

这点挺像做地图。你把主要道路标出来了，看起来更接近现实，但把村路漏掉了，真要去偏远地方时，反而没路可走。

方向对齐也有坑

他们接着换了一个思路：既然完整复制目标分布很难，那就至少让源分布覆盖所有方向。于是用了 von Mises-Fisher 分布来控制方向集中度。

理想情况下，方向对齐确实有效。尤其是当你知道目标样本真正朝哪个方向时，生成质量会明显提升。但现实没有那么顺手。用聚类去近似这种方向信息时，只要源分布太集中，问题就来了。

原因是'路径纠缠'。多个起点太靠近，前半段轨迹几乎重叠，后半段又要分开去不同目标，向量场会变得很难学。换句话说，不是越聚焦越好，太挤了，模型反而不知道怎么把这些轨迹拆开。

他们还给了数学分析，说明当源分布浓度过高时，局部利普希茨常数会上升，训练会更不稳定。这个结论不花哨，但很实在：模型不是在学一个漂亮的几何图案，而是在学一个能稳定走通的向量场。

配对策略的差别，没想象中那么简单

这部分我觉得是文章里最有意思的地方之一。

一种做法是独立随机配对，看起来有点粗糙，但它保留了高斯分布的全方向覆盖。每个目标点周围都能看到来自不同方向的源样本，训练到的向量场会更均匀。

另一种是批量最优传输配对。这个办法更'聪明'，每次都尽量给你找局部最短路径，单看一批样本确实更高效。问题是它太偏近邻了，长期下来会把方向覆盖压缩掉。模型学到的东西更像几条主干道，而不是完整路网。

所以最优传输并没有天然胜出。它在局部上更漂亮，整体上却可能少了一点鲁棒性。流匹配这类任务里，局部最优常常不是答案。

高斯分布真正强的地方

这篇论文最后把高斯分布的优势说得很清楚：它的强项不是'像数据'，而是'哪里都能去一点'。

对流匹配来说，这种全方向覆盖很关键。它保证了训练时向量场不会只在少数方向上变得熟练，而是在整个空间里都能拿到足够的监督。这样一来，生成过程遇到冷门方向时，不至于完全没见过。

当然，高斯分布也不是没问题。最明显的一点是范数不匹配：源样本和目标样本离原点的距离往往不在一个量级。这个差异会让模型多做不少无效工作。

两个改法：一个管训练，一个管推理

针对这个问题，作者提出了两步处理。

第一个是范数对齐。做法很直接：先把目标数据按比例缩放，让它和高斯源分布的平均范数对齐；生成完再缩回去。这个方法简单，成本也低。高质量采样时，它的收益比较稳定，但在快速采样场景里，过度对齐会让路径更弯，有限步数下反而没那么占便宜。

第二个是修剪采样。这个更实用。训练时还是保留完整高斯分布，保证覆盖；推理时用 PCA 找出数据稀疏的方向，再通过拒绝采样避开这些区域。这样做的好处是不用重训模型，直接能接到现有系统上。

从结果看，修剪采样比范数对齐更稳，尤其在低步数采样时改善更明显。两者叠加后，效果还会再往上走一点。