大语言模型人类对齐五大核心算法：SFT、RLHF、DPO、PPO、GRPO

大语言模型人类对齐涉及 SFT、RLHF、PPO、DPO、GRPO 五种核心算法。SFT 是基础，通过指令微调建立指令遵循能力。RLHF 是经典框架，包含奖励模型与强化学习（PPO），效果极致但成本高。DPO 作为 RLHF 替代方案，直接优化偏好数据，流程简单且成本低，成为主流选择。GRPO 则是 PPO 的改进版，提升训练稳定性。文章对比了各算法的定位、步骤及优缺点，建议中小团队采用 SFT+DPO，头部厂商追求极致可选 RLHF 框架。

Stephaine Walsh发布于 2026/3/24更新于 2026/7/2540 浏览

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

这些算法均是大语言模型人类对齐阶段的核心方法，核心目标是让预训练大模型的输出贴合人类偏好、遵循自然语言指令、符合伦理规范与事实逻辑。其中SFT 是所有对齐的基础，RLHF 是经典对齐框架，PPO 是 RLHF 的核心强化学习组件，DPO 是 RLHF 的极简替代方案，GRPO 是 PPO 的改进版，彼此存在明确的层级和技术承接关系。

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

大模型人类对齐的第一步，所有后续对齐算法的基础。无 SFT 的基础模型，后续 RLHF/DPO/PPO/GRPO 的对齐都是空中楼阁。

核心原理

用高质量人类标注的指令 - 回答成对数据，在大模型预训练的基础上做小幅度微调，让模型学习人类的指令理解逻辑、基础回答范式和语言表达习惯，把预训练阶段'无目标的语言建模'转化为'有目标的指令遵循'。

核心步骤

构建高质量数据集：整理多样化指令库（覆盖日常对话、专业任务、逻辑推理等），由人类标注对应的优质回答，保证数据的准确性和多样性；
轻量化微调：为防止灾难性遗忘（丢失预训练的通用语言能力），通常冻结模型底层的大部分参数，仅微调上层的注意力层/全连接层，或采用 LoRA/QLoRA 等高效微调方法；
评估与筛选：通过自动指标（如 BLEU、CHRF）+ 人工抽样评估，筛选出指令理解能力最优的 SFT 模型，作为后续对齐的初始模型。

优缺点

优点：实现简单、训练稳定、工程成本低，能快速让模型具备基础的指令遵循能力；
缺点：依赖高质量人类标注，无法解决人类偏好的细粒度差异（如两个回答都正确，哪个更简洁/更贴合语境/更有深度），泛化性有限，对未见过的指令处理能力弱。

适用场景

所有大模型的对齐前置步骤，是中小规模大模型'轻量对齐'的可选终方案（若对偏好对齐要求不高，仅需基础指令遵循，SFT 即可满足）。

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

OpenAI 提出的大模型经典对齐框架，行业内首个实现'细粒度人类偏好对齐'的方案，GPT-3.5/Claude 早期版本均基于此，并非单一算法，而是SFT+ 人类偏好标注 + 奖励模型 + 强化学习的组合体系。

核心原理

把人类主观偏好转化为模型可量化的奖励信号，以 SFT 模型为初始策略，通过强化学习算法优化模型参数，让模型生成'人类认为更优'的回答，核心是'用人类反馈指导模型的迭代方向'。

核心三步法（经典流程）

基础 SFT：训练得到具备基础指令遵循能力的 SFT 模型（同上文）；
奖励模型（RM）训练：让 SFT 模型对同一指令生成多个不同回答，由人类对这些回答进行排序/评分（标注偏好），用这些带偏好标签的数据训练奖励模型，RM 的核心输出是奖励值，奖励值越高代表回答越符合人类偏好；
强化学习微调：以 SFT 模型为初始策略，以 RM 为奖励函数，用强化学习算法（核心是 PPO）优化模型，让模型生成的回答能获得 RM 的高奖励，同时加入KL 散度约束，限制模型与 SFT 模型的分布差异，防止丢失基础能力。

优缺点

优点：对齐效果极致，能精准捕捉人类的细粒度偏好（如简洁性、逻辑性、友好度），是大模型对齐的'行业标杆'；

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

大模型人类对齐的第一步，所有后续对齐算法的基础。无 SFT 的基础模型，后续 RLHF/DPO/PPO/GRPO 的对齐都是空中楼阁。

核心原理

核心步骤

构建高质量数据集：整理多样化指令库（覆盖日常对话、专业任务、逻辑推理等），由人类标注对应的优质回答，保证数据的准确性和多样性；
轻量化微调：为防止灾难性遗忘（丢失预训练的通用语言能力），通常冻结模型底层的大部分参数，仅微调上层的注意力层/全连接层，或采用 LoRA/QLoRA 等高效微调方法；
评估与筛选：通过自动指标（如 BLEU、CHRF）+ 人工抽样评估，筛选出指令理解能力最优的 SFT 模型，作为后续对齐的初始模型。

优缺点

优点：实现简单、训练稳定、工程成本低，能快速让模型具备基础的指令遵循能力；
缺点：依赖高质量人类标注，无法解决人类偏好的细粒度差异（如两个回答都正确，哪个更简洁/更贴合语境/更有深度），泛化性有限，对未见过的指令处理能力弱。

适用场景

所有大模型的对齐前置步骤，是中小规模大模型'轻量对齐'的可选终方案（若对偏好对齐要求不高，仅需基础指令遵循，SFT 即可满足）。

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

核心原理

核心三步法（经典流程）

基础 SFT：训练得到具备基础指令遵循能力的 SFT 模型（同上文）；
奖励模型（RM）训练：让 SFT 模型对同一指令生成多个不同回答，由人类对这些回答进行排序/评分（标注偏好），用这些带偏好标签的数据训练奖励模型，RM 的核心输出是奖励值，奖励值越高代表回答越符合人类偏好；
强化学习微调：以 SFT 模型为初始策略，以 RM 为奖励函数，用强化学习算法（核心是 PPO）优化模型，让模型生成的回答能获得 RM 的高奖励，同时加入KL 散度约束，限制模型与 SFT 模型的分布差异，防止丢失基础能力。

优缺点

优点：对齐效果极致，能精准捕捉人类的细粒度偏好（如简洁性、逻辑性、友好度），是大模型对齐的'行业标杆'；

大语言模型人类对齐五大核心算法：SFT、RLHF、DPO、PPO、GRPO

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

核心原理

核心步骤

优缺点

适用场景

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

核心原理

核心三步法（经典流程）

优缺点

大语言模型人类对齐五大核心算法：SFT、RLHF、DPO、PPO、GRPO

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

核心原理

核心步骤

优缺点

适用场景

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

核心原理

核心三步法（经典流程）

优缺点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

适用场景

三、PPO：近端策略优化（Proximal Policy Optimization）

核心定位

核心原理

核心改进（相比传统 RL）

在 RLHF 中的作用

优缺点

适用场景

四、DPO：直接偏好优化（Direct Preference Optimization）

核心定位

核心原理

核心步骤

优缺点

适用场景

五、GRPO：广义近端策略优化（Generalized Proximal Policy Optimization）

核心定位

核心原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具