批判微调 CFT:低成本媲美 DeepSeek-R1,超越传统 SFT 数学推理
DeepSeek R1/R1-Zero 让强化学习(RL)在大型语言模型领域大火,但这是否意味着监督微调(SFT)已无用?滑铁卢大学与卡内基梅隆大学联合提出了一种全新范式——批判微调(CFT: Critique Fine-Tuning,已开源)。该方法的核心在于让模型学习对有噪声的回答进行批判,而不是简单地模仿正确的回答。
在 Qwen2.5、Qwen2.5-Math 和 DeepSeek-Math 等不同基础模型上,CFT 在六个数学基准测试中相较于 SFT 平均提高了 4-10%。这一成果表明,通过引入批判性思维机制,可以在极低计算成本下获得接近甚至超越基于强化学习复现模型的性能。
CFT 核心原理
CFT受到强调批判性思维的人类学习过程的启发,鼓励模型进行更深入的分析和细致的理解。这些特质通常被标准的 SFT 所忽视。标准 SFT 仅关注输入到输出的映射,而 CFT 引入了中间环节的评估机制,迫使模型识别错误并修正逻辑。
数据集构建
为了训练 CFT 模型,研究团队从 WebInstruct 数据集中构建了一个包含 50,000 个样本的数据集。使用 GPT-4o 作为'教师'模型来生成 Critique(批评),形式为([问题;有噪声的回答],批评)。这种构造方式模拟了人类在学习过程中发现错误并纠正的过程。

模型训练目标
CFT 的目标是训练模型对给定的查询 - 回答对进行批判,最大化生成批判的概率 $P(c|[x;y])$,其中 $c$ 是查询 - 回答对 $[x;y]$ 的标注批判。这意味着模型不仅要学会回答问题,还要学会判断回答的质量。

实验对比分析
为了评估 CFT 的有效性,在三个 7B 参数规模的基础模型上,使用数学推理基准测试将其与各种 SFT 方法进行比较。所有实验均使用 WebInstruct 子集进行训练。CFT 在六个数学基准测试中相较于 SFT 平均提高了 4-10%。
SFT 与 CFT 性能对比
在 WebInstruct 的 50,000 个样本上,CFT 与 SFT 的比较显示显著优势。SFT-verified 表示在经过 GPT-4o 验证的回答上进行的 SFT 训练,SFT-GPT4o 表示在 GPT-4o 生成的回答上进行的 SFT 训练。CFT 在 GPT-4o 提供的批评上进行训练,展现了更强的鲁棒性。

小模型与大模型的较量
将 7B 参数规模的 CFT 模型与其他不同规模的竞争模型进行比较。扩展了评估基准,以涵盖更广泛的 STEM 主题。Qwen2.5-Math-CFT 模型仅需在 8 块 H100 GPU 上训练 1 小时,即可在大多数基准测试中与使用超过 200 万样本训练的强大竞争对手 Qwen2.5-Math-Instruct 相媲美,甚至超越它们。

与强化学习(RL)方法的对比
比较了不同基于强化学习的方法在数学推理中的效率和性能:
- CFT 在计算成本上减少了 144 倍,还能与 SimpleRL 相匹配。SimpleRL 是基于 DeepSeek-r1 复制的模型。
- 在 Minerva-Math 和 AMC23 等严格的数学测试中表现出色。

案例研究
案例 1:连续分数运算
CFT 模型保持精确的逐步计算,显示每个中间分数。原始模型采用正确的方法,但在最后几步中出现计算错误。CFT 在追踪和计算连续分数乘法方面表现出更强的能力,这得益于其批判机制对每一步计算的自我校验。

案例 2:几何面积问题
尽管两种模型都正确地应用了勾股定理,但它们在组合面积的方法上存在显著差异。CFT 模型正确识别出五边形是正方形和三角形面积的总和。SFT 模型在概念上犯了一个关键错误,错误地减去而不是加上面积。这表明 CFT 在空间推理和逻辑一致性上优于传统 SFT。

案例 3:工人效率问题
CFT 模型始终保持对问题核心概念(工作效率和时间)的清晰关注。SFT 模型在问题解读和解决方案方法上表现出显著的混乱。CFT 在处理涉及不同类型工人的多步率问题方面表现出更强的能力,能够准确提取变量关系。


技术深度解析
为什么 CFT 有效?
传统的 SFT 假设训练数据是完美的,模型只需拟合分布。然而,真实世界的数据往往包含噪声或次优解。CFT 通过引入批判信号,实际上是在训练一个判别器(Discriminator)与生成器(Generator)协同工作。当模型面对有噪声的回答时,它必须生成一段批判文本,这段文本隐含了对正确路径的推导。这种隐式的推理过程增强了模型内部的知识表征。
计算成本优势
强化学习(如 PPO、DPO)通常需要大量的采样和奖励模型交互,计算开销巨大。CFT 本质上仍是一个监督学习任务,只需要一次前向传播来计算损失。这使得它在资源受限的场景下极具吸引力。对于 7B 模型,CFT 的训练时间仅为数小时,而同等性能的 RL 方法可能需要数天。
泛化能力
由于 CFT 训练的是批判能力而非特定答案,这种能力具有更好的泛化性。模型学会了如何思考问题的正确性,而不仅仅是记忆正确答案的模式。这在处理未见过的复杂数学问题时尤为明显,模型能够自主发现逻辑漏洞。
结论
批判微调(CFT)提供了一种高效且低成本的替代方案,用于提升大模型的推理能力。它证明了在不依赖昂贵强化学习的情况下,通过改进训练范式同样可以逼近甚至达到 SOTA 水平。未来,结合 CFT 与 RL 可能成为进一步提升模型智能的关键方向。