近期,新加坡南洋理工大学、北京邮电大学与清华大学联合发表了一篇关于视觉 - 语言 - 动作(VLA)模型强化学习的综述。构建能够执行各种操作任务的通用机器人系统愿景已通过 VLA 得到显著推进。这类模型利用大规模预训练,通过模仿学习获取通用的视觉运动先验知识。然而,目前的预训练 VLA 仍需微调才能适应实际部署,因为传统的模仿学习依赖于状态和动作覆盖范围有限的已收集数据集,难以实现分布外(OOD)泛化。强化学习(RL)利用自探索和结果驱动优化来增强 VLA 的 OOD 泛化能力。本文概述 RL 如何弥合预训练和实际部署之间的差距,并全面介绍 RL-VLA 的训练范式。
为了说明将强化学习方法扩展到 VLA 模型时存在的差距,我们需要形式化 RL-VLA 问题,详细描述其状态表示、动作空间、奖励函数和环境动态。将机器人操作任务形式化为马尔可夫决策过程(MDP),由元组 (S, A, p, r, γ) 定义。强化学习的目标是学习一个由 θ 参数化的策略 π_θ(a_t | s_t),以最大化预期折现收益 J(π)。在 RL-VLA 的背景下,这种形式是高度专门化的。状态 S 是多模态且高维的,通常定义为 s_t = (ovis_t, oprop_t, l_task),包含视觉观测(例如 RGB 图像、点云)、本体感觉信息(例如关节角度、末端执行器姿态)和语言指令。动作 a_t 由 VLA 的解码器根据其内部隐状态生成。值得注意的是,VLA 通常使用扩散解码器或动作 token 化器等机制输出动作块 a_t:t+k−1,而不是单步动作。奖励 r(s_t, a_t) 对优化至关重要,它通常将稀疏的二元任务成功信号与密集的、基于过程的奖励相结合,以提供更丰富的学习信号。最后,转移模型 p(s_{t+1} | s_t, a_t) 可以在仿真中定义,也可以由真实世界机器人感知到的物理交互隐式确定。
为最优决策而开发的强化学习算法主要分为三大类。基于价值的方法,例如深度 Q 网络 (DQN),侧重于估计价值函数。相比之下,策略梯度方法,例如近端策略优化 (PPO),通过计算预期收益相对于策略参数的梯度来直接优化策略。最后,诸如软 A-C (SAC) 之类的 Actor-Critics 方法,通过同时学习价值函数和策略来结合这些方法。这些方法可以是无模型的,直接从交互中学习策略;也可以是基于模型的,首先学习转移模型。算法还可以根据在线策略或离线策略来区分。
尽管强化学习取得了显著进展,但将 RL 与 VLA 模型集成仍然面临着独特的挑战。早期研究涵盖了多种范式,包括离线、在线和测试时 RL。在离线强化学习领域,策略从预先收集的固定数据集中学习。ReinboT 通过预测密集回报来更好地利用混合质量数据。CO-RFT 则引入分块强化学习,扩展时间差分学习以兼容动作分块机制。对于在线强化学习,它通过试错主动收集新经验。VLA-RL 提出轨迹级强化学习公式并使用 VLM 作为机器人流程奖励模型来解决稀疏奖励挑战。SimpleVLA-RL 提供高效的强化学习框架,包含增强探索的策略。测试时方法可以增强部署时的策略:V-GPS 引入价值引导策略转向,无需权重更新即可重排序动作;Hume 实现双系统模型,通过在运行时采样选择最佳动作候选。
下图展示了 RL-VLA 的分类体系:

尽管基于模仿学习的预训练使得 VLA 模型在各种操作任务中都能取得优异的性能,但其泛化能力仍然受限于离线数据覆盖范围的不足。为了解决这一限制,近期研究将预训练的 VLA 模型与强化学习相结合,将开环推理转化为由在线反馈驱动的闭环优化过程。
动作
在 RL-VLA 中,动作模型充当视觉观察和物理交互动作之间的桥梁。虽然预训练的 VLA 通常以开环方式生成动作,但强化学习进一步引入任务级监督,使得策略能够通过交互和反馈进行调整。
- 自回归模型:自回归 VLA 遵循语言建模范式,将机器人操作建模为离散 token 空间中的序列决策过程。强化学习可以直接利用自回归 VLA 输出的 token 预测概率,通过 token 级监督和奖励驱动机制实现更稳定的策略优化。具体而言,TGRPO 将策略梯度目标重写为基于优势加权的 token 级交叉熵损失。CO-RFT 进一步利用动作概率的时空动态特性,解决了自回归 VLA 离散动作预测中轨迹一致性较差的问题。
潜在挑战:尽管自回归 VLA 为强化学习训练目标提供了直接的动作预测概率,但离散的动作 token 使得自回归 VLA 难以进行灵巧操作。粗粒度的 token 设计会导致 VLA 失去灵巧控制,而细粒度的 token 划分会降低动作 token 之间的区分度。
- 生成式动作 VLA:为了解决离散动作预测中时间一致性差的问题,近期的研究人员致力于利用基于扩散或流匹配动作头直接生成动作轨迹。然而,生成式动作头无法提供明确的动作预测概率。近期的研究致力于重新参数化生成式动作头的输出,以近似动作预测概率。πRL 采用流随机微分方程干预措施来消除过程中的噪声。FPO 利用每个样本的变化来替换动作概率,从而缩小了流匹配头与强化学习更新策略之间的差距。
潜在挑战:由于生成式可变长度算法依赖于近似密度,且这些智能体仅在高奖励区域进行调整,因此它们的更新是由局部采样且不完美的信号驱动。智能体与预训练行为之间的微小偏差会在多步生成过程中累积,最终扭曲原始动作分布的部分区域。
- 双 - 系统模型:为了进一步增强 VLA 理解人类指令和执行长时域任务的能力,研究人员提出双 - 系统 VLM-VLA 架构。高层任务规划 VLM 理解人类意图并生成逐步子任务,底层动作控制 VLA 提供操作轨迹。Hume 利用 RL 训练一个高层任务规划系统,该系统能够从多个采样动作中选择最优动作。


