批判微调 CFT:低成本媲美 DeepSeek-R1,超越传统 SFT 数学推理
DeepSeek R1/R1-Zero 让强化学习(RL)在大型语言模型领域大火,但这是否意味着监督微调(SFT)已无用?滑铁卢大学与卡内基梅隆大学联合提出了一种全新范式——批判微调(CFT: Critique Fine-Tuning,已开源)。该方法的核心在于让模型学习对有噪声的回答进行批判,而不是简单地模仿正确的回答。
在 Qwen2.5、Qwen2.5-Math 和 DeepSeek-Math 等不同基础模型上,CFT 在六个数学基准测试中相较于 SFT 平均提高了 4-10%。这一成果表明,通过引入批判性思维机制,可以在极低计算成本下获得接近甚至超越基于强化学习复现模型的性能。
CFT 核心原理
CFT受到强调批判性思维的人类学习过程的启发,鼓励模型进行更深入的分析和细致的理解。这些特质通常被标准的 SFT 所忽视。标准 SFT 仅关注输入到输出的映射,而 CFT 引入了中间环节的评估机制,迫使模型识别错误并修正逻辑。
数据集构建
为了训练 CFT 模型,研究团队从 WebInstruct 数据集中构建了一个包含 50,000 个样本的数据集。使用 GPT-4o 作为'教师'模型来生成 Critique(批评),形式为([问题;有噪声的回答],批评)。这种构造方式模拟了人类在学习过程中发现错误并纠正的过程。

模型训练目标
CFT 的目标是训练模型对给定的查询 - 回答对进行批判,最大化生成批判的概率 $P(c|[x;y])$,其中 $c$ 是查询 - 回答对 $[x;y]$ 的标注批判。这意味着模型不仅要学会回答问题,还要学会判断回答的质量。

实验对比分析
为了评估 CFT 的有效性,在三个 7B 参数规模的基础模型上,使用数学推理基准测试将其与各种 SFT 方法进行比较。所有实验均使用 WebInstruct 子集进行训练。CFT 在六个数学基准测试中相较于 SFT 平均提高了 4-10%。
SFT 与 CFT 性能对比
在 WebInstruct 的 50,000 个样本上,CFT 与 SFT 的比较显示显著优势。SFT-verified 表示在经过 GPT-4o 验证的回答上进行的 SFT 训练,SFT-GPT4o 表示在 GPT-4o 生成的回答上进行的 SFT 训练。CFT 在 GPT-4o 提供的批评上进行训练,展现了更强的鲁棒性。

小模型与大模型的较量
将 7B 参数规模的 CFT 模型与其他不同规模的竞争模型进行比较。扩展了评估基准,以涵盖更广泛的 STEM 主题。Qwen2.5-Math-CFT 模型仅需在 8 块 H100 GPU 上训练 1 小时,即可在大多数基准测试中与使用超过 200 万样本训练的强大竞争对手 Qwen2.5-Math-Instruct 相媲美,甚至超越它们。







