Karpathy与LeCun质疑RLHF：它算不算真正的强化学习

Karpathy 认为 RLHF 只是借用了强化学习外壳的人类偏好优化，并不等同于 AlphaGo 那种围绕明确奖励展开的真正 RL；LeCun 也表达了类似看法。文章梳理了 RLHF 从人类反馈训练奖励模型的演进过程，解释了它在大模型对齐中的实际价值，以及为什么它容易出现奖励模型被“钻空子”的问题。结论是：RLHF 很有用，但更准确地说，它是对齐方法，而不是标准意义上的强化学习。

whyljy2903发布于 2025/2/3更新于 2026/7/2016 浏览

Karpathy与LeCun质疑 RLHF：它算不算真正的强化学习

Andrej Karpathy 近日在社交平台上抛出一个颇有争议的判断：RLHF 只是勉强算得上强化学习。LeCun 也随即表示认同，直接补了一句：RLHF 不是真正的 RL。

这场讨论之所以会迅速发酵，是因为 RLHF 几乎已经成了大模型训练流程里的'标准配置'——从预训练、监督微调到基于人类反馈的对齐，很多人默认它就是让 ChatGPT 这类模型'更像助手'的关键一步。但如果回到强化学习最原始的定义，RLHF 和 AlphaGo 那种典型的 RL 之间，确实隔着一段不小的距离。

RLHF 从哪来

RLHF 的思路最早可以追溯到 OpenAI 安全团队在 2017 年的工作：通过人类反馈训练奖励模型，让系统学会更符合人类偏好的行为。后来，这套方法被逐步迁移到语言模型上，最终成为 InstructGPT、ChatGPT 等模型对齐流程中的重要环节。

它的典型做法并不复杂：先让模型生成多个候选答案，再由人类标注者进行偏好比较，随后训练一个奖励模型去拟合这种偏好，最后再用强化学习去优化原模型。问题也正出在这里——这个奖励并不是任务本身的'真实目标'，而是一个由人类偏好近似出来的替代目标。

为什么会有人说它'不像 RL'

Karpathy 的核心观点其实很直接：

真正的强化学习，像 AlphaGo 那样，是围绕明确、可验证的目标展开的，比如赢棋；
RLHF 面对的目标却往往模糊、主观，奖励模型更多是在模仿人类'觉得不错'的直觉；
一旦优化开始变强，模型很容易学会'讨好奖励模型'，而不是解决原问题。

这也是为什么他举了一个很典型的反例：如果把围棋也改成 RLHF，会让人类先比较两个棋盘状态哪个更好，再训练奖励模型去模仿这种判断。可围棋真正重要的是'赢'，不是'看起来像好棋'。一旦奖励函数偏离了真实目标，优化就会朝着错误的方向滑过去。

在语言模型里，这种现象会表现得更隐蔽一些。模型可能会学会生成一些在人类看来怪异、甚至毫无意义的 token，但奖励模型却给了它高分。换句话说，模型不是在回答问题，而是在钻奖励模型的空子。

争议的焦点：它到底有没有用

尽管 Karpathy 质疑 RLHF 不算'真正的 RL'，但他并没有否认它的价值。恰恰相反，他也承认 RLHF 在大模型对齐中依旧有实际收益。

这里最有意思的一点，是所谓的 generator-discriminator gap：

对于很多任务，人类要从零写出一个理想答案并不轻松，但从一组候选答案里挑出更好的那个，往往要容易得多。比如让普通人直接写一首高质量的诗，难度很高；可如果给他几首候选作品，选出相对更好的那一个，就现实得多。

RLHF 正是利用了这种差距。它不要求人类写出完美答案，而是让人类负责'挑'，再把这种偏好转化成可优化的信号。对于聊天助手、内容生成、幻觉抑制这类任务，这种做法确实比纯粹依赖人工编写标准答案更实用。

不过，这种实用性并不等于它就是经典意义上的强化学习。更准确地说，RLHF 更像是一种借用了 RL 优化框架的人类偏好建模方法。

真正的强化学习，和 RLHF 有什么区别

如果回到 Sutton 和 Barto 对强化学习的定义，核心要素其实很清楚：

agent 与环境交互；
reward 指示长期目标；
policy 决定行动方式；
value function 估计长期收益；
有时还会引入 environment model 来帮助预测环境演化。

真正的 RL 关注的是：在一个可以持续交互、反馈明确的环境里，智能体如何通过试错不断改进行为。AlphaGo 就是最典型的例子——奖励就是赢棋，目标明确，反馈也清晰。

而 RLHF 的难点恰恰在于：它面对的是开放式任务。你很难给'总结一篇文章''回答一个模糊问题''写一个有趣的笑话'这类任务定义一个完全可信、可自动验证的奖励。于是人类反馈就成了现实中的折中方案。

也正因为如此，RLHF 常常更像'用偏好信号做对齐'，而不是标准教科书里的强化学习。

为什么这个争论值得看

这场争论真正有意思的地方，不只是'术语之争'，而是它暴露了大模型训练里的一个根本问题：我们到底是在优化真实目标，还是在优化一个看起来接近真实目标的替代品。

支持 Karpathy 的人担心，过度依赖 RLHF 会让大家误以为已经找到了通往通用智能的通道；反对者则认为，在当前阶段，RLHF 已经是少数真正能落地、能缓解偏见和幻觉的方法之一。两边其实都没完全错。

Karpathy与LeCun质疑RLHF：它算不算真正的强化学习

Karpathy与LeCun质疑 RLHF：它算不算真正的强化学习

RLHF 从哪来

为什么会有人说它'不像 RL'

争议的焦点：它到底有没有用

真正的强化学习，和 RLHF 有什么区别

为什么这个争论值得看

更多推荐文章

相关免费在线工具

结语

参考资料

更多推荐文章

相关免费在线工具

Karpathy与LeCun质疑RLHF：它算不算真正的强化学习

Karpathy与LeCun质疑 RLHF：它算不算真正的强化学习

RLHF 从哪来

为什么会有人说它'不像 RL'

争议的焦点：它到底有没有用

真正的强化学习，和 RLHF 有什么区别

为什么这个争论值得看

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

结语

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具