跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

清华、谷歌等10篇强化学习论文解读

综述由AI生成强化了智能体与环境交互的学习范式。文章解读了10篇ICLR、ICML顶会论文,涵盖问答系统重构、知识图谱推理、神经定位、Actor-Critic模型、关系分类、文本结构化表示、基于模型强化学习、多场景排序、异构网络嵌入及Soft Actor-Critic算法。涉及Policy Gradient、DQN、LSTM等技术,解决状态动作映射、路径搜索及多智能体协作问题,旨在最大化奖励信号。

深海蔚蓝发布于 2025/2/7更新于 2026/5/2819 浏览
清华、谷歌等10篇强化学习论文解读

强化学习(Reinforcement Learning,RL)正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同,强化学习强调智能体(agent)与环境(environment)的交互,交互过程中智能体需要根据自身所处的状态(state)选择接下来采取的动作(action),执行动作后,智能体会进入下一个状态,同时从环境中得到这次状态转移的奖励(reward)。

强化学习的目标就是从智能体与环境的交互过程中获取信息,学习状态与动作之间的映射,指导智能体根据状态做出最佳决策,最大化获得的奖励。

在强化学习系统中,除了智能体和环境,重要元素还包括价值函数(value function)、策略(policy)以及奖励信号(reward signal)。Value-based 和 Policy-based 是强化学习算法设计的两大思路。在智能体与环境交互过程中,奖励是智能体在某个状态执行动作后立即得到的反馈,而价值函数则反映了智能体考虑未来的行动之后对所有可能状态的评估。

本文对近两年来发表在ICLR、ICML等AI顶会上有关强化学习的论文进行了解读。

Ask the Right Questions:Active Question Reformulation with Reinforcement Learning

总结:本文将问答看做一个强化学习任务,主要思想是在用户和问答系统之间增加一个问题重构模块。该模块可以将用户问题改写成不同形式,这些改写后的问题可以通过问答系统得到多个答案,该模块再从这些答案中选择质量最高的回答返回给用户。问题重构模块的核心是一个类似机器翻译的sequence-to-sequence模型,该模型首先通过单语语料预训练,之后使用Policy Gradient进行强化学习的训练过程,目标是使问答系统得到最佳回答的奖励。

强化学习论文示意图

Go for a Walk and Arrive at the Answer:Reasoning over Paths in Knowledge Bases using Reinforcement Learning

总结:本文提出了MINERVA算法解决知识图谱中的自动推理问题。MINERVA算法主要用于基于知识图谱的自动问答:给定三元组中的关系和其中一个实体,补全另一个实体。作者采用基于路径搜索的方法,从已知的实体节点出发,根据问题选择合适的路径到达答案节点。作者将问题形式化为一个部分可观察的马尔可夫决策过程,将观察序列和历史决策序列用基于LSTM的策略网络表示。LSTM的训练使用了Policy Gradient方法。

强化学习论文示意图

Active Neural Localization

总结:本文介绍了Active Neural Localization模型,根据给定的环境地图和智能体的观察,可以估计出智能体的位置。该方法可以直接从数据学习,并主动预测智能体行动来获得精确和高效的定位。该方法结合了传统的filter-based定位方法和策略模型,可以使用强化学习进行end-to-end训练。模型包括一个感知模型和一个策略模型,感知模型根据当前智能体的观测计算可能位置的信念(Belief),策略模型基于这些信念估计下一步行动并进行精确定位。

强化学习论文示意图

The Reactor:A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

总结:本文提出了Reactor模型,该模型结合了off-policy经验回放的低样本复杂度和异步算法的高训练效率两方面优点,比Prioritized Dueling DQN和Categorical DQN有更低的样本复杂度,同时比A3C有更低的运行时间。作者在模型中使用了多个技术,包括:新的策略梯度算法beta-LOO,多步off-policy分布式强化学习算法Retrace,prioritized replay方法以及分布式训练框架。

强化学习论文示意图

Reinforcement Learning for Relation Classification from Noisy Data

总结:现有的关系分类方法主要有两个局限性:无法进行sentece-level的关系分类;依赖远程监督(distant supervision)标注的数据,但标注数据中存在较大误差。本文介绍了一个sentence-level的关系分类算法。算法由两个部分组成,分别是'instance selector'和'relation classifier'。Instance selector用于选取质量高的句子作为relation classifier的训练数据,该过程可以看做一个强化学习问题。作者分别定义了Instance selector的动作空间,状态空间和奖励函数,并给出了基于Policy Gradient的优化方法。

强化学习论文示意图

Learning Structured Representation for Text Classification via Reinforcement Learning

总结:本文提出了一个基于深度学习的句子表示算法,可以针对任务学习句子的结构化表示。该算法不需要解析树或其他显示的结构化表示标注作为输入,而是通过训练数据自动效识别与任务相关的句子结构。作者使用强化学习的方法构建任务相关的句子结构表示,模型由三部分组成,分别是Policy Network(PNet),Structured Representation Model和Classification Network(CNet),PNet为句子产生一个动作序列,Structured Representation Model将动作序列转化为结构化表示,CNet提供奖励信号,模型参数可以使用Policy Gradient方法优化。

强化学习论文示意图

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

总结:本文提出了一种新的model-based的强化学习学法,并可以用于初始化model-free的算法。作者提出的model-based算法使用神经网络拟合动力学模型,并结合了MPC(model predictive control)。作者使用model-based优化得到的动力学模型作为model-free算法的初始化,可以同时保留model-based算法样本复杂度小,model-free算法泛化能力强两方面的优势。

强化学习论文示意图

Learning to Collaborate:Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

总结:本文提出了一个多场景联合排序算法,目标是提高多场景的整体效果。多场景之间存在博弈关系,单个场景提升无法保证整体提升。本文将多场景排序看做一个完全合作,部分可观测的多智能体序列决策问题,并采用多智能体强化学习的框架建模。作者提出了MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)算法,利用DRQN对用户的历史信息建模,同时用DPG对连续状态和连续动作空间进行探索。

强化学习论文示意图

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

总结:本文将深度强化学习应用到了异构星型网络的表示学习中。在异构星型网络表示的学习过程中通常需要采样一系列的边来得到点之间的相似性,作者发现这些边的顺序会显著影响表示学习的效果。作者借鉴了课程学习(Curriculum Learning)的思想,研究如何在网络表示学习中学习这些边的采样顺序。该问题可以形式化为马尔可夫决策过程,作者提出了一个基于深度强化学习的解决方法。

强化学习论文示意图

Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

总结:本文提出了soft actor-critic算法。该算法是一个基于最大熵强化学习的off-policy actor-critic算法,在最大化奖励的同时最大化熵,让动作尽可能随机。作者证明了算法的收敛性,并在多个benchmark上超越了已有的on-policy或off-policy的算法。

强化学习论文示意图

目录

  1. Ask the Right Questions:Active Question Reformulation with Reinforcement Learning
  2. Go for a Walk and Arrive at the Answer:Reasoning over Paths in Knowledge Bases using Reinforcement Learning
  3. Active Neural Localization
  4. The Reactor:A fast and sample-efficient Actor-Critic agent for Reinforcement Learning
  5. Reinforcement Learning for Relation Classification from Noisy Data
  6. Learning Structured Representation for Text Classification via Reinforcement Learning
  7. Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
  8. Learning to Collaborate:Multi-ScenarioRanking via Multi-Agent Reinforcement Learning
  9. Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning
  10. Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Stable Diffusion WebUI 落幕:AIGC 框架迭代与生态竞争分析
  • VSCode 集成 Copilot MCP 快速上手指南
  • DeepSeek-V3 技术报告详解:架构、训练与性能评估
  • LangChain.js 实战入门:从模型调用到函数调用详解
  • 利用 cpolar 实现 Open-Lovable 远程访问与网页克隆
  • MySQL 表约束核心指南:从基础到外键实战
  • 2025 年 11 月 TIOBE 排行榜:C# 能否首次超越 Java?
  • Distributed-LLama 实战:构建支持多用户的高性能聊天 API 服务
  • SpringBoot+Vue 校园网上店铺设计与实现
  • 二分查找实战:山峰数组的峰顶索引与寻找峰值
  • 数据结构:常见排序算法原理与实现
  • Java 注解与反射实战:自定义日志与参数校验注解实现
  • 10 款 AI 论文写作工具实测与使用指南
  • Spring Bean 管理与 Spring Boot 自动配置原理
  • 学术论文如何应对查重与 AIGC 检测的双重挑战
  • AI 产品经理核心能力与实施框架指南
  • Vector 与 pthread_create 线程函数的使用注意事项
  • Rust 核心基础数据类型与变量系统
  • 微信小程序全局配置 window 属性详解及常见误区
  • Kali Linux 虚拟机安装教程

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online