机器人操作 VLA 模型强化学习综述

综述了视觉 - 语言 - 动作（VLA）模型在机器人操作中结合强化学习（RL）的研究进展。文章从 RL-VLA 架构（动作、奖励、转换建模）、训练范式（在线、离线、测试时）、实际部署（仿真到真实、安全探索）及基准测试四个维度展开。重点分析了如何利用 RL 增强 VLA 的分布外泛化能力，解决模仿学习的局限性。同时探讨了当前面临的挑战，如长时程任务处理、样本效率、安全性及可复现性等问题，为构建通用机器人系统提供了发展路径参考。

嘘发布于 2026/4/6更新于 2026/7/2661 浏览

构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉 - 语言 - 动作模型（VLA）得到显著推进。VLA 利用大规模预训练，通过模仿学习获取通用的视觉运动先验知识。然而，目前的预训练 VLA 仍需微调才能适应实际部署，因为传统的模仿学习由于依赖于状态和动作覆盖范围有限的已收集数据集，难以实现分布外（OOD）泛化。强化学习（RL）利用自探索和结果驱动优化来增强 VLA 的 OOD 泛化能力。本文概述 RL 如何弥合预训练和实际部署之间的差距，并全面介绍 RL-VLA 的训练范式。分类体系围绕四个核心维度展开，反映从学习到部署的完整生命周期：RL-VLA 架构、训练范式、实际部署以及基准测试和评估。

为了说明将强化学习（RL）方法扩展到 VLA 模型时存在的差距，形式化 RL-VLA 问题，详细描述其状态表示、动作空间、奖励函数和环境动态。将机器人操作任务形式化为马尔可夫决策过程（MDP），由元组 (S, A, p, r, γ) 定义。强化学习的目标是学习一个由θ参数化的策略π_θ(a_t | s_t)，以最大化预期折现收益 J(π)。在 RL-VLA 的背景下，这种形式是高度专门化的。状态 S 是多模态且高维的，通常定义为 s_t = (ovis_t, oprop_t, l_task)，包含视觉观测、本体感觉信息和语言指令。动作 a_t 由 VLA 的解码器根据其内部隐状态生成。值得注意的是，VLA 通常使用扩散解码器或动作 token 化器等机制输出动作块 a_t:t+k−1，而不是单步动作。奖励 r(s_t, a_t) 对优化至关重要，它通常将稀疏的二元任务成功信号与密集的、基于过程的奖励相结合。最后，转移模型 p(s_{t+1} | s_t, a_t) 可以在仿真中定义，也可以由真实世界机器人感知到的物理交互隐式确定。

为最优决策而开发的强化学习算法主要分为三大类。基于价值的方法，例如深度 Q 网络 (DQN)，侧重于估计价值函数。相比之下，策略梯度方法，例如近端策略优化 (PPO)，通过计算预期收益相对于策略参数的梯度来直接优化策略。最后，诸如软 A-C（SAC）之类的 Actor-Critics 方法，通过同时学习价值函数和策略来结合这些方法。

尽管强化学习（RL）取得了显著进展，但将 RL 与 VLA 模型集成仍然面临着独特的挑战。早期关于 RL-VLA 的研究已经奠定了重要的基础。在离线强化学习领域，ReinboT 通过预测密集回报来更好地利用混合质量数据。CO-RFT 则引入分块强化学习（Chunked RL）。对于在线强化学习，VLA-RL 通过提出轨迹级强化学习公式并使用 VLM 作为机器人流程奖励模型来解决稀疏奖励挑战。SimpleVLA-RL 提供一个高效的强化学习框架。测试时方法可以增强部署时的策略：V-GPS 引入价值引导策略转向，Hume 实现一个双系统模型。

RL-VLA 分类体系

RL-VLA 分类体系图

尽管基于模仿学习的预训练使得 VLA 模型在各种操作任务中都能取得优异的性能，但其泛化能力仍然受限于离线数据覆盖范围的不足。为了解决这一限制，近期研究将预训练的 VLA 模型与强化学习（RL）相结合，将开环推理转化为由在线反馈驱动的闭环优化过程。

动作

在 RL-VLA 中，动作模型充当视觉观察和物理交互动作之间的桥梁。基于对操作动作空间的预测方法，强化学习（RL）在动作生成改进中可以发挥不同的作用。

1）自回归模型：自回归 VLA 遵循语言建模范式，将机器人操作建模为离散 token 空间中的序列决策过程。强化学习可以直接利用自回归 VLA 输出的 token 预测概率，通过 token 级监督和奖励驱动机制实现更稳定的策略优化。TGRPO 将策略梯度目标重写为基于优势加权的 token 级交叉熵损失。CO-RFT 进一步利用动作概率的时空动态特性。潜在挑战：离散的动作 token 使得自回归 VLA 难以进行灵巧操作。粗粒度的 token 设计会导致 VLA 失去灵巧控制，而细粒度的 token 划分会降低动作 token 之间的区分度。

生成式动作 VLA：近期的研究人员致力于利用基于扩散或流匹配动作头直接生成动作轨迹。πRL 采用流随机微分方程 (Flow-SDE) 或流噪声干预措施来消除过程中的噪声。FPO 利用每个样本的变化来替换动作概率。ARFM 提出了一种动态缩放因子调整策略。潜在挑战：更新是由局部采样且不完美的信号驱动，智能体与预训练行为之间的微小偏差会在多步生成和迭代更新过程中累积。
双 - 系统模型：高层任务规划 VLM 理解人类意图并生成逐步子任务，而底层动作控制 VLA 提供操作轨迹。Hume 利用 RL 训练一个高层任务规划系统，该系统能够从多个采样动作中选择最优动作。潜在挑战：双系统 VLA 面临的一个核心挑战是实现高层 VLM 规划器和底层 VLA 控制器之间可靠的价值对齐。

奖励

强化学习中的奖励是量化任务成功并指导策略优化的基本学习信号。RL-VLA 利用奖励驱动的反馈来克服模仿学习的局限性。

内在奖励：基于规则的自监督信号，源自数据集或智能体与环境之间的交互。基于势函数的奖励塑造（PBRS）利用辅助势函数将原始奖励信号修改。探索驱动奖励通过赋予探索行为额外的内在价值来鼓励智能体探索新的或不确定的状态。潜在挑战：内在奖励与任务目标缺乏明确的关联，可能导致不当和不一致的行为。

机器人操作 VLA 模型强化学习综述

RL-VLA 分类体系

动作

奖励

更多推荐文章

相关免费在线工具

转换建模

训练范式

在线 RL-VLA

离线 RL-VLA

测试 - 时 RL-VLA

实际部署

仿真 - 到-真实迁移

真实世界强化学习

基准测试和评估

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

总结

更多推荐文章

相关免费在线工具

机器人操作 VLA 模型强化学习综述

RL-VLA 分类体系

动作

奖励

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

转换建模

训练范式

在线 RL-VLA

离线 RL-VLA

测试 - 时 RL-VLA

实际部署

仿真 - 到-真实迁移

真实世界强化学习

基准测试和评估

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具