强化学习算法 GRPO：原理与实战详解

一、提出背景

GRPO（Group Relative Policy Optimization，群组相对策略优化） 是一种基于强化学习的策略优化算法，旨在提升大语言模型在复杂任务（如数学推理、编程）中的表现。其提出背景主要源于传统强化学习（RL）方法在大语言模型（LLM）训练中的局限性，特别是在计算效率、训练稳定性和资源消耗方面的挑战。

高计算成本：传统的 PPO（Proximal Policy Optimization）需要同时训练策略模型（Actor）和价值函数模型（Critic），导致显存占用和计算开销翻倍，尤其在大模型场景下资源消耗巨大。
训练复杂性：PPO 依赖价值网络估计优势函数（Advantage），而奖励模型通常仅对完整序列打分，导致 token 级奖励信号不匹配，影响训练稳定性。
样本效率低：PPO 需频繁采样新数据，训练过程耗时且对超参数敏感。

GRPO 最初在 DeepSeekMath 中提出，用于提升模型在开放域数学问题上的推理能力，后扩展至 DeepSeek-R1 等通用推理模型。结合 LoRA（低秩适配）技术，GRPO 可在消费级 GPU 上微调小模型，降低了 RLHF 门槛。

二、核心思想

GRPO（Group Relative Policy Optimization，群组相对策略优化）算法的核心思想是通过组内样本的相对比较替代传统强化学习中的绝对价值估计，从而简化训练流程、提升计算效率并保持策略优化的稳定性。

2.1 组内相对奖励

多响应生成：对同一输入提示（prompt），并行生成多个响应（即一个'组'），形成组内样本。
相对优势计算：通过组内样本的奖励值（由奖励模型或人类标注给出）的归一化比较计算每个响应的相对优势，替代传统 PPO 中依赖价值网络估计的绝对优势（Advantage）。
核心公式： $\text{相对优势} \hat{A}_i = \frac{R_i - \mu_R}{\sigma_R + \epsilon}$ 其中 $R_i$ 为第 $i$ 个响应的奖励，$\mu_R$ 和 $\sigma_R$ 分别为组内奖励的均值和标准差，$\epsilon$ 为平滑项。

2.2 去价值网络设计

消除 Critic 模型（Critic-free）：传统 PPO 需要额外训练价值网络（Critic）来估计状态值函数，而 GRPO 直接利用组内奖励的统计特性（如均值和方差）计算相对优势，省去 Critic 的显存和计算开销。
显存优化：仅需维护策略模型（Actor）和参考模型（Reference Model），降低显存占用。

2.3 稳定优化机制

KL 散度惩罚：约束策略模型与参考模型的输出分布差异，防止过度偏离初始策略： $\mathcal{L}{\text{KL}} = \beta \cdot \text{KL}(\pi\theta | \pi_{\text{ref}})$
策略裁剪（Clipping）：类似 PPO，对策略更新的幅度进行裁剪，确保训练稳定性： $\mathcal{L}{\text{clip}} = \min\left( \frac{\pi\theta(a|s)}{\pi_{\text{old}}(a|s)} \hat{A}i, \text{clip}\left(\frac{\pi\theta(a|s)}{\pi_{\text{old}}(a|s)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_i \right)$
归一化优势：组内奖励的标准化处理减少了极端值的影响，使梯度更新更平滑。

2.4 PPO vs GRPO

在这里插入图片描述

特性	PPO	GRPO
优势估计	依赖价值网络（Critic）	组内奖励归一化（无 Critic）
显存占用	高（需同时训练 Actor+Critic）	低（仅需 Actor）
奖励信号	Token 级或序列级	组内序列级相对比较
训练稳定性	对超参数敏感	通过归一化和 KL 约束更稳定
适用规模	大模型需分布式训练	适合单卡中等规模模型

分项类型	示例	设计要点
正确答案奖励	`reward_correct_answer()` 检测 `\boxed{A-D}` 是否匹配目标答案	奖励值需显著高于其他分项（如 +2.0），突出核心目标。
格式合规奖励	`reward_strict_format()` 检查 XML 标签完整性	分层设计（严格格式 1.0 分，宽松格式 0.5 分），引导模型遵循规范。
推理质量奖励	`reward_reasoning_keywords()` 统计关键词命中数	避免过度依赖关键词，可结合语义分析（如 LLM 自评）提升鲁棒性。
结构完整性奖励	`xmlcount_reward_func()` 计算标签位置和数量	对标签缺失或冗余进行惩罚（如 -0.001/多余字符），确保输出整洁。
长度适度奖励	`reward_reasoning_length()` 根据单词数分段打分	防止模型生成过长或过短的无效内容（如'短于 20 词无奖励'）。

import re def reward_correct_answer(responses, answers, **kwargs) -> list[float]: """根据答案的正确性给予奖励。""" pattern = r"<answer>.*?\\boxed{([A-D])}.*?</answer>" rewards = [] for resp, target in zip(responses, answers): match = re.search(pattern, resp, re.DOTALL) if match and match.group(1) == target: rewards.append(2.0) # 正确选项，高奖励 else: rewards.append(0.0) # 错误或无法提取，无奖励 return rewards def reward_strict_format(responses, **kwargs) -> list[float]: """奖励符合严格格式 <reasoning>...</reasoning><answer>...</answer> 的回答""" pattern = r"^<reasoning>\n.*?\n</reasoning>\n<answer>\n\\boxed{[A-D]}\n</answer>$" return [1.0 if re.fullmatch(pattern, r.strip(), re.DOTALL) else 0.0 for r in responses] def reward_soft_format(responses, **kwargs) -> list[float]: """奖励符合宽松格式 <reasoning>...</reasoning><answer>...</answer> 的回答""" pattern = r"<reasoning>.*?</reasoning>.*?<answer>.*?[A-D].*?</answer>" return [0.5 if re.search(pattern, r, re.DOTALL) else 0.0 for r in responses] def count_xml(text: str) -> float: """根据 XML 标签的出现次数和位置给予分数""" score = 0.0 if text.count("<reasoning>\n") == 1: score += 0.125 if text.count("\n</reasoning>\n") == 1: score += 0.125 if text.count("\n</answer>") == 1: score += 0.125 score -= max(0, (len(text.split("\n</answer>")[-1]) - 1)) * 0.001 return max(0.0, score) def xmlcount_reward_func(responses, **kwargs) -> list[float]: """使用 count_xml 函数计算每个回答的分数。""" return [count_xml(r) for r in responses] def reward_reasoning_length(responses, **kwargs) -> list[float]: """ 根据推理部分的长度给予奖励。 - 长度小于 20 个单词，无奖励。 - 长度在 20 到 50 个单词之间，奖励 0.25。 - 长度在 50 到 100 个单词之间，奖励 0.5。 - 长度超过 100 个单词，奖励 0.75。 """ rewards = [] for r in responses: score = 0.0 match = re.search(r"<reasoning>(.*?)</reasoning>", r, re.DOTALL) if match: content = match.group(1).strip() length = len(content.split()) if length < 20: score += 0.0 elif length < 50: score += 0.25 elif length < 100: score += 0.5 else: score += 0.75 rewards.append(max(0.0, score)) return rewards def reward_reasoning_keywords(responses, **kwargs) -> list[float]: """ 根据推理部分是否包含特定关键词给予奖励。每命中一个关键词，奖励 0.1 分，上限为 0.5 分。 """ key_terms = ["row", "column", "sum", "unique", "digit", "no repeat", "clue"] rewards = [] for r in responses: match = re.search(r"<reasoning>(.*?)</reasoning>", r, re.DOTALL) if not match: rewards.append(0.0) continue content = match.group(1).lower() hits = sum(1 for k in key_terms if k in content) rewards.append(min(hits * 0.1, 0.5)) # 命中多个关键词，奖励上限 0.5 return rewards # 合并所有奖励函数 def combined_reward_func(prompts, completions, response, **kwargs) -> list[float]: responses = completions pattern = r"^<reasoning>\n.*?\n</reasoning>\n<answer>\n\\boxed{([A-D])}\n</answer>$" answers = [re.search(pattern, answer, re.DOTALL).group(1) for answer in response] rca = reward_correct_answer(responses, answers) rstf = reward_strict_format(responses) rsof = reward_soft_format(responses) xrf = xmlcount_reward_func(responses) rrl = reward_reasoning_length(responses) rrk = reward_reasoning_keywords(responses) # 返回每个回答的总奖励 return [rca[i] + rstf[i] + rsof[i] + xrf[i] + rrl[i] + rrk[i] for i in range(len(responses))]

强化学习算法 GRPO：原理与实战详解

一、提出背景

二、核心思想

2.1 组内相对奖励

2.2 去价值网络设计

2.3 稳定优化机制

2.4 PPO vs GRPO

更多推荐文章

相关免费在线工具

三、算法原理

3.1 生成响应（Generating completions）

3.2 计算优势值（Computing the advantage）

3.3 估计 KL 散度（Estimating the KL divergence）

3.4 计算损失（Computing the loss）

3.5 重要性采样*（Importance Sampling）

四、代码示例

4.1 设计奖励函数

4.2 GRPO 训练

五、总结

更多推荐文章

相关免费在线工具

强化学习算法 GRPO：原理与实战详解

一、提出背景

二、核心思想

2.1 组内相对奖励

2.2 去价值网络设计

2.3 稳定优化机制

2.4 PPO vs GRPO

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、算法原理

3.1 生成响应（Generating completions）

3.2 计算优势值（Computing the advantage）

3.3 估计 KL 散度（Estimating the KL divergence）

3.4 计算损失（Computing the loss）

3.5 重要性采样*（Importance Sampling）

四、代码示例

4.1 设计奖励函数

4.2 GRPO 训练

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具