清华、谷歌等10篇强化学习论文解读

强化学习（Reinforcement Learning，RL）正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同，强化学习强调智能体（agent）与环境（environment）的交互，交互过程中智能体需要根据自身所处的状态（state）选择接下来采取的动作（action），执行动作后，智能体会进入下一个状态，同时从环境中得到这次状态转移的奖励（reward）。

强化学习的目标就是从智能体与环境的交互过程中获取信息，学习状态与动作之间的映射，指导智能体根据状态做出最佳决策，最大化获得的奖励。

在强化学习系统中，除了智能体和环境，重要元素还包括价值函数（value function）、策略（policy）以及奖励信号（reward signal）。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中，奖励是智能体在某个状态执行动作后立即得到的反馈，而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。

本文对近两年来发表在ICLR、ICML等AI顶会上有关强化学习的论文进行了解读。

Ask the Right Questions：Active Question Reformulation with Reinforcement Learning

总结：本文将问答看做一个强化学习任务，主要思想是在用户和问答系统之间增加一个问题重构模块。该模块可以将用户问题改写成不同形式，这些改写后的问题可以通过问答系统得到多个答案，该模块再从这些答案中选择质量最高的回答返回给用户。问题重构模块的核心是一个类似机器翻译的sequence-to-sequence模型，该模型首先通过单语语料预训练，之后使用Policy Gradient进行强化学习的训练过程，目标是使问答系统得到最佳回答的奖励。

强化学习论文示意图

Go for a Walk and Arrive at the Answer：Reasoning over Paths in Knowledge Bases using Reinforcement Learning

总结：本文提出了MINERVA算法解决知识图谱中的自动推理问题。MINERVA算法主要用于基于知识图谱的自动问答：给定三元组中的关系和其中一个实体，补全另一个实体。作者采用基于路径搜索的方法，从已知的实体节点出发，根据问题选择合适的路径到达答案节点。作者将问题形式化为一个部分可观察的马尔可夫决策过程，将观察序列和历史决策序列用基于LSTM的策略网络表示。LSTM的训练使用了Policy Gradient方法。

强化学习论文示意图

Active Neural Localization

总结：本文介绍了Active Neural Localization模型，根据给定的环境地图和智能体的观察，可以估计出智能体的位置。该方法可以直接从数据学习，并主动预测智能体行动来获得精确和高效的定位。该方法结合了传统的filter-based定位方法和策略模型，可以使用强化学习进行end-to-end训练。模型包括一个感知模型和一个策略模型，感知模型根据当前智能体的观测计算可能位置的信念（Belief），策略模型基于这些信念估计下一步行动并进行精确定位。

强化学习论文示意图

The Reactor：A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

总结：本文提出了Reactor模型，该模型结合了off-policy经验回放的低样本复杂度和异步算法的高训练效率两方面优点，比Prioritized Dueling DQN和Categorical DQN有更低的样本复杂度，同时比A3C有更低的运行时间。作者在模型中使用了多个技术，包括：新的策略梯度算法beta-LOO，多步off-policy分布式强化学习算法Retrace，prioritized replay方法以及分布式训练框架。

清华、谷歌等10篇强化学习论文解读

Ask the Right Questions：Active Question Reformulation with Reinforcement Learning

Go for a Walk and Arrive at the Answer：Reasoning over Paths in Knowledge Bases using Reinforcement Learning

Active Neural Localization

The Reactor：A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

更多推荐文章

相关免费在线工具

Reinforcement Learning for Relation Classification from Noisy Data

Learning Structured Representation for Text Classification via Reinforcement Learning

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

Learning to Collaborate：Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

Soft Actor-Critic：Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

更多推荐文章

相关免费在线工具

清华、谷歌等10篇强化学习论文解读

Ask the Right Questions：Active Question Reformulation with Reinforcement Learning

Go for a Walk and Arrive at the Answer：Reasoning over Paths in Knowledge Bases using Reinforcement Learning

Active Neural Localization

The Reactor：A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Reinforcement Learning for Relation Classification from Noisy Data

Learning Structured Representation for Text Classification via Reinforcement Learning

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

Learning to Collaborate：Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

Soft Actor-Critic：Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具