近年来,生成模型领域在见证了 GAN 和扩散模型的辉煌之后,迎来了一股新的浪潮——基于连续归一化流(CNF)的模型。特别是 Flow Matching (FM), Rectified Flow (RF) 和 Reflow 这一系列工作的出现,通过解决传统流模型训练和采样的痛点,实现了生成质量与采样速度的显著突破。
引言
在追求高质量、高效率的生成模型道路上,扩散模型无疑是当前的一座高峰。然而,其迭代式的采样过程带来的高昂时间成本,也限制了其在诸多实时应用场景中的部署。一个核心问题随之而来:我们能否构建一个模型,既拥有媲美扩散模型的生成能力,又具备 GAN 一样的高效采样速度?
Flow-based 模型为此提供了一条极具潜力的解决路径。而 Flow Matching、Rectified Flow 与 Reflow 的相继提出,正是这条路径上的三个关键里程碑。它们并非孤立的技术,而是一个层层递进、不断优化的演进过程。
一、基石:Flow Matching (FM)
要理解后续的工作,首先必须掌握 Flow Matching 的核心思想。传统的连续归一化流(CNF)在训练时,需要依赖常微分方程(ODE)求解器来计算精确的概率对数似然,这一过程计算量巨大且数值不稳定。
Flow Matching 则另辟蹊径,提出了一种 simulation-free 的训练范式。它将复杂的概率流学习问题,巧妙地转化为了一个简单直接的向量场回归问题。
核心思想:
给定源分布 $\pi_0$(通常是标准正态分布)中的样本 $x_0$ 和目标分布 $\pi_1$(真实数据)中的样本 $x_1$,FM 的目标是学习一个时变向量场 $v(x,t)$,这个向量场能够驱动一个 ODE,将 $x_0$ 在 $t=0$ 时平滑地变换到 $t=1$ 时的 $x_1$。
关键在于,FM 通过一个回归损失函数,直接让神经网络预测的向量场 $v_\theta(x_t,t)$ 去'匹配'一个预先定义好的、连接 $x_0$ 和 $x_1$ 的条件概率路径 $\pi_t(x|x_0,x_1)$ 上的目标向量场 $u_t(x|x_0,x_1)$。
$$ \mathcal{L}{FM} = \mathbb{E}{t, \pi_t(x|x_0, x_1), \pi(x_0, x_1)} [| v_\theta(x, t) - u_t(x|x_0, x_1) |^2] $$
这个框架的革命性在于:
- 无需 ODE 求解:训练过程中完全摆脱了对 ODE 求解器的依赖,使得训练过程变得极其高效和稳定。
- 高度灵活:可以选择不同的条件概率路径 $\pi_t$,为后续的优化(如 Rectified Flow)埋下了伏笔。
简单来说,Flow Matching 是一个通用的、强大的训练方法论,它为后续流模型的构建铺平了道路。
二、目标:Rectified Flow (RF)
既然 Flow Matching 允许我们选择任意路径,那么一个自然的问题是:什么样的路径是'最优'的?
Rectified Flow (RF) 给出了一个清晰的答案:直线路径。
想象一下,如果从随机噪声到目标图像的变换路径是一条笔直的线段,那么在采样时,我们就不需要用很多小步长去小心翼翼地逼近一条弯曲的轨迹。理论上,一个足够大的步长,甚至一步就能从起点到达终点。
核心思想:
RF 是 FM 框架下的一个特定目标实现。它通过最简单的配对方式——从源分布和目标分布中随机抽取样本对 $(x_0,x_1)$,然后强制模型学习连接这对样本的直线路径上的向量场。这条直线路径可以表示为:
$$x_t = (1-t)x_0 + t x_1, \quad t \in [0, 1]$$
对应的目标向量场也极其简单,就是这两个点的差值:$u_t = x_1 - x_0$。
带来的优势:
- 采样效率极大提升:由于路径是近似直线的,使用简单的欧拉法进行采样时,可以用非常少的步数(Number of Function Evaluations, NFE),例如 10 步甚至更少,就能生成高质量的样本。
- 一步生成潜力:在理论上,如果路径完全笔直,一步欧拉法($x_1 = x_0 + v(x_0, 0)$)就能完成生成,这为实现超实时生成提供了可能。
- 与最优传输的联系:RF 被证明与最优传输(Optimal Transport)问题有着深刻的内在联系,为模型提供了坚实的理论基础。
因此,Rectified Flow 不再仅仅是一个训练框架,而是一个以'路径拉直'为明确目标的具体模型,它将 FM 的潜力转化为了实实在在的采样效率。
三、优化:Reflow
尽管 RF 的目标是学习直线路径,但在单次训练中,由于数据分布的高度复杂性,学习到的 ODE 轨迹场仍然会存在一定的弯曲。我们能否让这条路径变得更直呢?

