PbRL | Deep reinforcement learning from human preferences (Christiano 2017)
**信息:**PbRL 开山之作,NeurIPS 2017,提出了 PrefPPO。
**ArXiv:**https://arxiv.org/abs/1706.03741
这篇文章是 PbRL 的开山之作,(可能)首次明确提出了 PbRL 试图解决的核心问题:对于那些目标复杂、定义模糊、难以用数学形式描述的 task,我们希望从 human feedback 中学习一个 reward model,并将其作为 RL 的奖励函数。
这个问题的现实意义在于:许多 real-world task 的目标非常复杂,难以用数学函数精确描述。手工设计奖励函数可能导致 reward hacking,需要反复进行 reward engineering,费时费力。如果有人类 demo / 专家数据,可以做 inverse RL 或 behavior cloning,但是很多任务难以给出人类 demo,比如控制奇形怪状的、跟人类很不像的机器人。而 PbRL 提出的'比较而非打分'范式,可以显著降低人类认知负荷,让 agent 行为更自然地与人类意图对齐,做人类想做的事。
在 formulation 方面,文章定义 preference 可以由一个 underlying reward function 生成(第四页顶部):通过比较两个 trajectory segment 的累计 reward 之和的大小关系来确定 preference。
然后,文章提出了用 Bradley-Terry model 来建模 preference 与 reward model 之间的关系,并设计了一个交叉熵 loss function,用于惩罚

