近两年 PbRL 及相关强化学习论文阅读总结

PbRL | Deep reinforcement learning from human preferences (Christiano 2017)

**信息：**PbRL 开山之作，NeurIPS 2017，提出了 PrefPPO。

**ArXiv：**https://arxiv.org/abs/1706.03741

这篇文章是 PbRL 的开山之作，（可能）首次明确提出了 PbRL 试图解决的核心问题：对于那些目标复杂、定义模糊、难以用数学形式描述的 task，我们希望从 human feedback 中学习一个 reward model，并将其作为 RL 的奖励函数。

这个问题的现实意义在于：许多 real-world task 的目标非常复杂，难以用数学函数精确描述。手工设计奖励函数可能导致 reward hacking，需要反复进行 reward engineering，费时费力。如果有人类 demo / 专家数据，可以做 inverse RL 或 behavior cloning，但是很多任务难以给出人类 demo，比如控制奇形怪状的、跟人类很不像的机器人。而 PbRL 提出的'比较而非打分'范式，可以显著降低人类认知负荷，让 agent 行为更自然地与人类意图对齐，做人类想做的事。

在 formulation 方面，文章定义 preference 可以由一个 underlying reward function 生成（第四页顶部）：通过比较两个 trajectory segment 的累计 reward 之和的大小关系来确定 preference。

然后，文章提出了用 Bradley-Terry model 来建模 preference 与 reward model 之间的关系，并设计了一个交叉熵 loss function，用于惩罚

近两年 PbRL 及相关强化学习论文阅读总结

PbRL | Deep reinforcement learning from human preferences (Christiano 2017)

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

近两年 PbRL 及相关强化学习论文阅读总结

PbRL | Deep reinforcement learning from human preferences (Christiano 2017)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具