大模型辅助强化学习的四条主流技术路线综述

引言

强化学习（Reinforcement Learning, RL）通过与环境交互的试错反馈来优化顺序决策问题。虽然 RL 在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力（例如王者荣耀、Dota 2 等），但在包含大量自然语言和视觉图像的现实复杂应用中落地仍然面临巨大挑战。主要原因包括数据获取困难、样本利用率低、多任务学习能力差、泛化性差以及稀疏奖励等问题。

大语言模型（LLM）通过在海量数据集上的训练，展现了超强的多任务学习能力、通用世界知识目标规划以及推理能力。以 ChatGPT 为代表的 LLM 已经被广泛应用到各种现实领域中，包括但不限于机器人、医疗、教育、法律等。在此背景下，LLM 可以提高强化学习在多任务学习、样本利用率、任务规划等方面的能力，帮助提高强化学习在复杂应用下的学习表现，例如自然语言指令跟随、谈判、自动驾驶等。

为此，来自香港中文大学（深圳）的团队调研了 130 余篇大语言模型及视觉 - 语言模型（VLM）在辅助强化学习（LLM-enhanced RL）方面的最新研究进展，形成了该领域的综述文章一篇，目前以预印版形式上传到 arXiv 网站，期望能为各位研究人员和工程人员提供一定的技术参考。

论文链接：https://arxiv.org/abs/2404.00282

该综述总结了 LLM-enhanced RL 的主要技术框架、特性以及四种主要技术路线；并分析了未来该方向的机会与挑战。

LLM-enhanced RL 框架

定义与核心特性

LLM-enhanced RL 定义为利用已预训练、内含知识（knowledge-inherent）的 AI 模型的多模态（multi-modal）信息处理、生成、推理等能力来辅助 RL 范式的各种方法。

其主要特性包括：

多模态信息理解：能够同时处理文本、图像、音频等多种输入形式，提取关键特征。
多任务学习和泛化：利用预训练知识快速适应新任务，减少从头训练的需求。
样本利用率的提高：通过先验知识引导探索，显著降低对环境交互次数的需求。
长期轨迹规划能力：具备长上下文窗口，能够处理长序列决策问题。
奖励信号生成能力：能够根据复杂语义描述自动生成或修正奖励函数。

LLM-enhanced RL Framework Diagram

LLM 的主要角色分类

在该框架下，LLM 主要扮演以下四种角色：

信息处理者（Information Processor）：负责文字和视觉表征提取，以及复杂自然语言翻译。
奖励设计者（Reward Designer）：构建隐式奖励模型或显式奖励模型（奖励函数代码生成）。
决策者（Decision-Maker）：包含直接决策与间接辅助决策两种模式。
生成者（Generator）：用于世界模型中的轨迹生成和强化学习中的策略解释生成。

LLM 作为信息处理者

在富含文字和视觉信息的环境中，深度强化学习通常需要同时学习多模态的信息处理和决策控制策略，因此学习效率大幅下降。且不规范、多变的自然语言和视觉信息往往会对代理学习产生大量干扰。

LLM 在此情况下可以发挥以下作用：

有效表征提取：利用强大的编码器能力，将高维原始观测（如图像、语音）转化为紧凑的语义向量，加速下游神经网络的学习过程。
自然语言翻译：将不规范、冗余复杂的自然语言指令和环境信息翻译为规范的任务语言，帮助代理过滤无效信息，统一状态空间表示。

这种机制特别适用于开放世界环境，其中指令可能随时变化，或者环境状态描述极其复杂。

大模型辅助强化学习的四条主流技术路线综述