OpenAI o1 模型背后的强化学习基础
北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 o1 大模型,旨在专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。

秘密武器在于强化学习和思维链。OpenAI 的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。
下面我们用最简单的语言,解释下强化学习中的基本思想:Exploit and Explore(利用与探索)。
1. 场景类比
又到周末了,你和女朋友出来约会,到了饭点你们开始纠结去哪里吃饭。这时候,经典的对话就出现了:
你:笨笨,今天你想吃什么? 她:随便呀,你定吧。 你:那我们吃火锅吧,上次的我觉得很好吃? 她:不要啦,火锅味太重了,我昨晚刚洗的头发呢。 你:那吃烤肉吧,那边新开了一家烤肉? 她:不行啦,烤肉也有味道,我可是刚洗了头发的!生气! 你:那吃日料吧,上次的那家... 她:唔,上次那家不好吃,三文鱼都不知道是不是虹鳟。 你:那吃西餐吧? 她:哎呀,西餐太贵啦,我们还是省点吧,别告诉我你想的是必胜客!

下面,让我们用 Exploit and Explore 策略帮你终结选择困难症。
2. Exploit and Explore 策略
利用与探索策略是一种在推荐系统/强化学习中常用的策略,用于在已知的最优策略和未知的最优策略之间进行权衡。在谈恋爱的场景中,我们可以将 Exploit and Explore 策略应用于解决待会儿去哪吃饭的问题。
最简单的方案是:
- 我们以 1-ϵ 的概率选择她最喜欢的餐厅 (Exploit);
- 以 ϵ 的概率从全部的餐厅中随机选择一个 (Explore)。
这样,我们就可以在已知的最优策略和未知的最优策略之间进行权衡。

问题是,这有什么理论依据吗?
3. 多臂老虎机问题
多臂老虎机问题 (Multi-armed bandit, MAB): 赌场内,有一名赌徒想要去摇老虎机 (bandit),他面前有一排机器,每台机器都拥有一个臂 (arm),而且每台机器看上去都一样。每次投一枚游戏币就能获得一次摇臂 (play) 的机会,而且每个臂摇下都有可能吐出一枚硬币,即奖励 (rewards)。
但是,每台老虎机吐出硬币的概率分布是未知的。作为赌徒,自然希望自己的累积收益的期望 (expected cumulative reward) 最大化(假如一共有 n 次摇臂的机会),那么,请问这名赌徒应该采取怎样的行动?

目前的解决方案不外乎以下几种:
- ϵ-贪心算法
- UCB 算法
- Thompson Sampling 算法






