Karpathy与LeCun质疑 RLHF:它算不算真正的强化学习
Andrej Karpathy 近日在社交平台上抛出一个颇有争议的判断:RLHF 只是勉强算得上强化学习。LeCun 也随即表示认同,直接补了一句:RLHF 不是真正的 RL。
这场讨论之所以会迅速发酵,是因为 RLHF 几乎已经成了大模型训练流程里的'标准配置'——从预训练、监督微调到基于人类反馈的对齐,很多人默认它就是让 ChatGPT 这类模型'更像助手'的关键一步。但如果回到强化学习最原始的定义,RLHF 和 AlphaGo 那种典型的 RL 之间,确实隔着一段不小的距离。
RLHF 从哪来
RLHF 的思路最早可以追溯到 OpenAI 安全团队在 2017 年的工作:通过人类反馈训练奖励模型,让系统学会更符合人类偏好的行为。后来,这套方法被逐步迁移到语言模型上,最终成为 InstructGPT、ChatGPT 等模型对齐流程中的重要环节。
它的典型做法并不复杂:先让模型生成多个候选答案,再由人类标注者进行偏好比较,随后训练一个奖励模型去拟合这种偏好,最后再用强化学习去优化原模型。问题也正出在这里——这个奖励并不是任务本身的'真实目标',而是一个由人类偏好近似出来的替代目标。
为什么会有人说它'不像 RL'
Karpathy 的核心观点其实很直接:
- 真正的强化学习,像 AlphaGo 那样,是围绕明确、可验证的目标展开的,比如赢棋;
- RLHF 面对的目标却往往模糊、主观,奖励模型更多是在模仿人类'觉得不错'的直觉;
- 一旦优化开始变强,模型很容易学会'讨好奖励模型',而不是解决原问题。
这也是为什么他举了一个很典型的反例:如果把围棋也改成 RLHF,会让人类先比较两个棋盘状态哪个更好,再训练奖励模型去模仿这种判断。可围棋真正重要的是'赢',不是'看起来像好棋'。一旦奖励函数偏离了真实目标,优化就会朝着错误的方向滑过去。
在语言模型里,这种现象会表现得更隐蔽一些。模型可能会学会生成一些在人类看来怪异、甚至毫无意义的 token,但奖励模型却给了它高分。换句话说,模型不是在回答问题,而是在钻奖励模型的空子。
争议的焦点:它到底有没有用
尽管 Karpathy 质疑 RLHF 不算'真正的 RL',但他并没有否认它的价值。恰恰相反,他也承认 RLHF 在大模型对齐中依旧有实际收益。
这里最有意思的一点,是所谓的 generator-discriminator gap:
对于很多任务,人类要从零写出一个理想答案并不轻松,但从一组候选答案里挑出更好的那个,往往要容易得多。比如让普通人直接写一首高质量的诗,难度很高;可如果给他几首候选作品,选出相对更好的那一个,就现实得多。
RLHF 正是利用了这种差距。它不要求人类写出完美答案,而是让人类负责'挑',再把这种偏好转化成可优化的信号。对于聊天助手、内容生成、幻觉抑制这类任务,这种做法确实比纯粹依赖人工编写标准答案更实用。
不过,这种实用性并不等于它就是经典意义上的强化学习。更准确地说,RLHF 更像是一种借用了 RL 优化框架的人类偏好建模方法。
真正的强化学习,和 RLHF 有什么区别
如果回到 Sutton 和 Barto 对强化学习的定义,核心要素其实很清楚:
- agent 与环境交互;
- reward 指示长期目标;
- policy 决定行动方式;
- value function 估计长期收益;
- 有时还会引入 environment model 来帮助预测环境演化。
真正的 RL 关注的是:在一个可以持续交互、反馈明确的环境里,智能体如何通过试错不断改进行为。AlphaGo 就是最典型的例子——奖励就是赢棋,目标明确,反馈也清晰。
而 RLHF 的难点恰恰在于:它面对的是开放式任务。你很难给'总结一篇文章''回答一个模糊问题''写一个有趣的笑话'这类任务定义一个完全可信、可自动验证的奖励。于是人类反馈就成了现实中的折中方案。
也正因为如此,RLHF 常常更像'用偏好信号做对齐',而不是标准教科书里的强化学习。
为什么这个争论值得看
这场争论真正有意思的地方,不只是'术语之争',而是它暴露了大模型训练里的一个根本问题:我们到底是在优化真实目标,还是在优化一个看起来接近真实目标的替代品。
支持 Karpathy 的人担心,过度依赖 RLHF 会让大家误以为已经找到了通往通用智能的通道;反对者则认为,在当前阶段,RLHF 已经是少数真正能落地、能缓解偏见和幻觉的方法之一。两边其实都没完全错。


