DeepSeekMath-V2：基于自我验证的数学推理新范式

一、核心要点

DeepSeekMath-V2 提出了一种面向自我验证的数学推理方法，突破了传统大语言模型仅关注最终答案正确性的问题。具体来说：

传统强化学习方法通过奖励最终答案提升性能，但无法保证推理链条的严谨性与完整性。
DeepSeekMath-V2 引入 Verifier（验证器）+ Generator（生成器）协同机制：生成器产生证明，验证器对推理步骤进行严格检查并反馈错误。
通过不断迭代验证与自我修正，该系统能生成既正确又逻辑完备的数学证明。
模型经过 scaled test-time compute（扩展测试时算力）后，在 IMO、CMO、Putnam 等高难度数学竞赛上表现出色。

二、研究背景

2.1 传统的数学推理强化学习方法的局限性

数学推理一直是 AI 推理能力的核心挑战。传统的数学推理强化学习方法通过对定量推理问题的最终答案是否与真实答案匹配来给予奖励，让 LLM 在主要评估最终答案的数学竞赛（如 AIME 和 HMMT）中达到饱和水平。但这种奖励机制在数学证明类任务中存在两个根本性限制：

正确答案 ≠ 正确推理：模型可能通过错误的逻辑得出正确答案。
不适用于定理证明任务：数学证明需要严谨的逐步演绎。

这种 Final Answer Reward 训练范式造成的结果：

模型缺乏验证证明有效性的能力，表现出较高的假阳性率。
即使明显存在逻辑缺陷，也常常声称证明是正确的。

DeepSeekMath-V2 的出现就是为了解决这一根本性问题。

2.2 自我可验证是数学推理的关键一步

基于人类启发，对自我验证能力的三条关键观察：

无需参考解的错误发现能力：人类在数学证明中，即使没有标准答案，也能通过逻辑一致性和推理完整性发现潜在错误。这表明模型应具备独立评估自身推理正确性的能力，而无需依赖外部参考解。
多轮验证未发现错误意味着更高的可信度：如果一个证明在多次、多角度的验证后仍未暴露问题，其正确性的可信度显著提升。
错误识别难度可作为证明质量的代理指标：在人类推理中，发现错误的难度与证明质量相关。越严谨的证明越难被快速指出问题。因此，验证器对难以识别错误的证明赋予更高评分，驱动生成器优化推理结构，提升逻辑严谨性。

三、主要方法

3.1 总体框架概述

DeepSeekMath-V2 的核心目标是：训练一个不仅能给出正确答案，而且其推理过程本身'难以被否定'的数学推理模型。为此提出了一套以自我可验证（Self-Verification）为核心的生成–验证协同框架。它由三个核心组件构成：

Generator（生成器）：负责生成完整的数学推理过程或证明；
Verifier（验证器）：负责评估生成推理中是否存在逻辑错误、不完整推导或不严谨步骤。
Meta-Verifier（元验证器）：用于对 Verifier 的证明分析本身进行二级评估。

[图片：生成器、验证器与元验证器的协同架构示意图]

通过这三个组件，生成–验证形成一个完整的闭环系统：Generator 生成证明 → Verifier 尝试发现问题并评分（Meta-Verifier 约束验证质量） → 奖励信号反向优化 Generator。

3.2 Verifier：证明验证器

3.2.1 验证目标

Verifier 的目标并非判断'答案是否正确'，而是回答：该推理过程中是否存在可被明确指出的错误？

给定一个问题 X 和一个证明 Y，验证器 π_φ(·|X, Y, I_ν) (I_ν 表示评分标准) 生成一个证明分析，首先总结识别出的问题（如果有的话），然后根据三个等级给出评分：

对于完整且严谨的证明，所有逻辑步骤都清晰有理，评分为 1
对于总体逻辑合理但存在小错误或遗漏细节的证明，评分为 0.5
对于存在致命逻辑错误或关键漏洞的证明，评分为 0。

此处，评分并不代表'证明一定正确'，而是'在当前验证能力下难以被否定'。

通过 Prompt 引导完成这项任务：

## Instructions Your task is to evaluate ... Please evaluate the solution and score it according to the following criteria: // 评分准则 I_v **Here is my evaluation of the solution:** ...// 评估分析 **Based on my evaluation, the final overall score should be:** **\boxed{{...}}** // 最终打分结果 (0, 0.5, or 1, and nothing else) --- Here is your task input: ## Problem {question} ## Solution {proof}

维度	GAN	DeepSeekMath-V2
生成组件	Generator	Proof Generator
判别组件	Discriminator	Proof Verifier
判别目标	区分真实 / 生成样本	识别证明中的逻辑问题
生成目标	欺骗判别器	生成'难以被否定'的证明
学习驱动力	判别失败样本	验证失败（困难）证明

对比维度	GAN	DeepSeekMath-V2
博弈关系	严格零和	非零和、协同演化
失败的含义	判别器失败即系统失败	验证失败 = 新的高价值训练信号
稳定性机制	依赖技巧（正则、谱归一化等）	显式引入 Meta-Verifier
对抗对象	数据分布	推理与验证能力边界
优化目标	分布匹配	推理'不可反驳性'最大化

DeepSeekMath-V2：基于自我验证的数学推理新范式

一、核心要点

二、研究背景

2.1 传统的数学推理强化学习方法的局限性

2.2 自我可验证是数学推理的关键一步

三、主要方法

3.1 总体框架概述

3.2 Verifier：证明验证器

3.2.1 验证目标

更多推荐文章

相关免费在线工具

3.2.2 Verifier 训练过程 -RL

3.3 Meta-Verifier：验证分析的二级审查器

3.3.1 引入的原因与作用

3.3.2 Meta-Verifier 训练过程

3.3.3 将元验证反馈整合进验证器训练

3.4 Generator：证明生成器

3.4.1 优化目标的转变

3.4.2 自我验证训练机制

3.5 Verifier 与 Generator 的协同进化

3.5.1 自动化协同标注流程

3.5.2 类 GAN 视角下的协同进化机制分析

四、实验

4.1 训练设置

4.1.1 强化学习方法

4.1.2 训练顺序

4.1.3 实验结果

4.2 生成 → 自我分析 → 再生成

4.3 高计算量搜索

五、小结

更多推荐文章

相关免费在线工具

DeepSeekMath-V2：基于自我验证的数学推理新范式

一、核心要点

二、研究背景

2.1 传统的数学推理强化学习方法的局限性

2.2 自我可验证是数学推理的关键一步

三、主要方法

3.1 总体框架概述

3.2 Verifier：证明验证器

3.2.1 验证目标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2.2 Verifier 训练过程 -RL

3.3 Meta-Verifier：验证分析的二级审查器

3.3.1 引入的原因与作用

3.3.2 Meta-Verifier 训练过程

3.3.3 将元验证反馈整合进验证器训练

3.4 Generator：证明生成器

3.4.1 优化目标的转变

3.4.2 自我验证训练机制

3.5 Verifier 与 Generator 的协同进化

3.5.1 自动化协同标注流程

3.5.2 类 GAN 视角下的协同进化机制分析

四、实验

4.1 训练设置

4.1.1 强化学习方法

4.1.2 训练顺序

4.1.3 实验结果

4.2 生成 → 自我分析 → 再生成

4.3 高计算量搜索

五、小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具