大语言模型对齐核心算法浅析:SFT、RLHF、DPO、PPO、GRPO
这些算法均是大语言模型人类对齐阶段的核心方法,核心目标是让预训练大模型的输出贴合人类偏好、遵循自然语言指令、符合伦理规范与事实逻辑。其中SFT 是所有对齐的基础,RLHF 是经典对齐框架,PPO 是 RLHF 的核心强化学习组件,DPO 是 RLHF 的极简替代方案,GRPO 是 PPO 的改进版,彼此存在明确的层级和技术承接关系。
一、SFT:监督微调(Supervised Fine-Tuning)
核心定位
大模型人类对齐的第一步,所有后续对齐算法的基础。无 SFT 的基础模型,后续 RLHF/DPO/PPO/GRPO 的对齐都是空中楼阁。
核心原理
用高质量人类标注的指令 - 回答成对数据,在大模型预训练的基础上做小幅度微调,让模型学习人类的指令理解逻辑、基础回答范式和语言表达习惯,把预训练阶段'无目标的语言建模'转化为'有目标的指令遵循'。
核心步骤
- 构建高质量数据集:整理多样化指令库(覆盖日常对话、专业任务、逻辑推理等),由人类标注对应的优质回答,保证数据的准确性和多样性;
- 轻量化微调:为防止灾难性遗忘(丢失预训练的通用语言能力),通常冻结模型底层的大部分参数,仅微调上层的注意力层/全连接层,或采用 LoRA/QLoRA 等高效微调方法;
- 评估与筛选:通过自动指标(如 BLEU、CHRF)+ 人工抽样评估,筛选出指令理解能力最优的 SFT 模型,作为后续对齐的初始模型。
优缺点
- 优点:实现简单、训练稳定、工程成本低,能快速让模型具备基础的指令遵循能力;
- 缺点:依赖高质量人类标注,无法解决人类偏好的细粒度差异(如两个回答都正确,哪个更简洁/更贴合语境/更有深度),泛化性有限,对未见过的指令处理能力弱。
适用场景
所有大模型的对齐前置步骤,是中小规模大模型'轻量对齐'的可选终方案(若对偏好对齐要求不高,仅需基础指令遵循,SFT 即可满足)。
二、RLHF:人类反馈的强化学习(Reinforcement Learning from Human Feedback)
核心定位
OpenAI 提出的大模型经典对齐框架,行业内首个实现'细粒度人类偏好对齐'的方案,GPT-3.5/Claude 早期版本均基于此,并非单一算法,而是SFT+ 人类偏好标注 + 奖励模型 + 强化学习的组合体系。
核心原理
把人类主观偏好转化为模型可量化的奖励信号,以 SFT 模型为初始策略,通过强化学习算法优化模型参数,让模型生成'人类认为更优'的回答,核心是'用人类反馈指导模型的迭代方向'。
核心三步法(经典流程)
- 基础 SFT:训练得到具备基础指令遵循能力的 SFT 模型(同上文);
- 奖励模型(RM)训练:让 SFT 模型对同一指令生成多个不同回答,由人类对这些回答进行排序/评分(标注偏好),用这些带偏好标签的数据训练奖励模型,RM 的核心输出是奖励值,奖励值越高代表回答越符合人类偏好;
- 强化学习微调:以 SFT 模型为初始策略,以 RM 为奖励函数,用强化学习算法(核心是 PPO)优化模型,让模型生成的回答能获得 RM 的高奖励,同时加入KL 散度约束,限制模型与 SFT 模型的分布差异,防止丢失基础能力。
优缺点
- 优点:对齐效果极致,能精准捕捉人类的细粒度偏好(如简洁性、逻辑性、友好度),是大模型对齐的'行业标杆';

