大模型强化学习核心算法：PPO、GRPO 与 RLVR 解析

一、强化学习概述

强化学习（Reinforcement Learning, RL）是一种通过与环境交互学习最优策略的机器学习方法。其核心要素包括状态（State）、动作（Action）、奖励（Reward）和策略（Policy）。典型框架为马尔可夫决策过程（MDP），目标是通过最大化累积奖励来优化策略。

如果把模型比作一个人，可以这样理解大模型的整个流程：

预训练：好比培养这个人读遍世界上广阔的知识，但此时他并不会利用这些知识；
微调 (SFT)：让这个人继续去学习一些特定的指令，相当于学习题目和标准答案，通过范式做模仿学习；
强化学习 (RL)：让这个人去自己探索解决一些实际没有标准答案的问题，通过'尝试 - 反馈 - 修正'的机制，去探索更优解。

强化学习的本质是对齐工作，让模型朝着符合人类喜好的方向迭代优化。

二、PPO 算法

接下来我们看看强化学习大模型中的经典——近端策略优化（Proximal Policy Optimization, PPO）。这是一种基于策略梯度的 RL 算法。

1. 算法整体

PPO 继承了 TRPO 算法的'信赖域'思想，即限制新策略和旧策略之间的差异不要太大。但它不直接解带约束的优化问题，而是通过裁剪（Clipping）或者'自适应 KL 惩罚'将约束放入目标函数。

简单提一下 TRPO，它的主要贡献是引入信赖域的概念，强制新旧策略之间的 KL 散度小于某个阈值。理论很完美，保证策略单调提升，但计算太复杂，难以工程化大规模应用。

PPO 算法涉及的四个模型分别是：

策略模型（Actor Model）：最终想要得到的模型。
价值模型（Critic Model）：策略模型的参考，用于预测奖励。
参考模型（Reference Model）：原始的策略模型，用于 KL 散度计算。
奖励模型（Reward Model）：训练好的用来给策略模型回复打分。

从 PPO 整体的目标来看，整个目标函数分为三个部分：第一个是 Actor 想最大化的奖励，第二部分是 Critic 想预测准确的奖励，第三部分是模型的熵值。

文章配图

对应到损失函数来看是：

文章配图

Loss 计算的流程如下：

生成：Actor Model 接受 $x$，生成回答 $y$，得到轨迹 $(x, y)$。
约束：把 $(x, y)$ 同时喂给 Reference Model，之后计算 Actor Model 和 Reference Model 在生成每个词时的概率差，得到 KL 散度。
迭代：计算损失，梯度下降，更新模型参数。
估值：Critic Model 接收 $(x, y)$，针对序列中的每一个位置，预测后续的预期得分 $V_{curr}$。
修正奖励：使用 KL 散度修正奖励，$R_{total} = R_{score} - \beta \cdot KL_penalty$。
打分：Reward Model 接受 $(x, y)$，给出一个原始的分数 $R_{score}$。

这个流程看起来会涉及很多部分的计算，下面我会详细的说明每一个部分都是如何计算和使用的。

大模型强化学习核心算法：PPO、GRPO 与 RLVR 解析