机器人操作 VLA 模型的强化学习综述 | 极客日志

编程语言AI算法

机器人操作 VLA 模型的强化学习综述

综述了视觉 - 语言 - 动作（VLA）模型在机器人操作中的强化学习（RL）研究。文章形式化了 RL-VLA 问题，分析了架构设计原则，涵盖动作建模、奖励函数及转换建模。重点讨论了在线、离线及测试时三种训练范式及其挑战。此外，还介绍了仿真到真实的迁移策略、真实世界部署的安全与恢复机制，以及基准测试与评估指标。最后总结了当前面临的长时程任务扩展、样本效率及安全性等挑战与发展路径。

不知所云发布于 2026/4/6更新于 2026/7/2263 浏览

构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉 - 语言 - 动作模型（VLA）得到显著推进。VLA 利用大规模预训练，通过模仿学习获取通用的视觉运动先验知识。然而，目前的预训练 VLA 仍需微调才能适应实际部署，因为传统的模仿学习由于依赖于状态和动作覆盖范围有限的已收集数据集，难以实现分布外（OOD）泛化。强化学习（RL）利用自探索和结果驱动优化来增强 VLA 的 OOD 泛化能力。本文概述 RL 如何弥合预训练和实际部署之间的差距，并全面介绍 RL-VLA 的训练范式。分类体系围绕四个核心维度展开，反映从学习到部署的完整生命周期：RL-VLA 架构、训练范式、实际部署以及基准测试和评估。首先，介绍 RL-VLA 组件的关键设计原则，包括动作、奖励和转换建模。其次，回顾在线、离线和测试时 RL 范式，分析它们在提升 VLA 泛化能力方面的有效性和挑战。第三，考察实际部署框架，从仿真 - 到 - 真实的迁移到安全探索、自主恢复和人机协同。最后，总结基准测试方法，重点指出尚未解决的挑战，并概述构建通用机器人系统的发展路径。

为了说明将强化学习（RL）方法扩展到 VLA 模型时存在的差距，形式化 RL-VLA 问题，详细描述其状态表示、动作空间、奖励函数和环境动态。将机器人操作任务形式化为马尔可夫决策过程（MDP），由元组 (S, A, p, r, γ) 定义。强化学习的目标是学习一个由θ参数化的策略π_θ(a_t | s_t)，以最大化预期折现收益 J(π)，其中 τ = (s_0, a_0, s_1, a_1, . . .) 是由策略生成的轨迹，T 是任务范围。在 RL-VLA 的背景下 [41][42]，这种形式是高度专门化的。状态 S 是多模态且高维的，通常定义为 s_t = (ovis_t , oprop_t , l_task )，包含视觉观测（例如，RGB 图像、点云）、本体感觉信息（例如，关节角度、末端执行器姿态）和语言指令。动作 A a_t 由 VLA 的解码器根据其内部隐状态生成。值得注意的是，VLA 通常使用扩散解码器或动作 token 化器等机制输出动作块 a_t:t+k−1，而不是单步动作 [43]。奖励 r(s_t, a_t) 对优化至关重要，它通常将稀疏的二元任务成功信号与密集的、基于过程的奖励（例如，到目标的距离）相结合，以提供更丰富的学习信号 [28]。最后，转移模型 p(s_t+1 | s_t, a_t) 可以在仿真中定义，也可以由真实世界机器人感知到的物理交互隐式确定 [44]。

为最优决策而开发的强化学习算法主要分为三大类。基于价值的方法，例如深度 Q 网络 (DQN) [45]，侧重于估计价值函数，以确定每个状态或状态 - 动作对的预期累积奖励。相比之下，策略梯度方法，例如近端策略优化 (PPO) [46]，通过计算预期收益相对于策略参数的梯度来直接优化策略。最后，诸如软 A-C（SAC）[47] 之类的 Actor- Critics 方法，通过同时学习价值函数（Critics）和策略（Actors）来结合这些方法。这些方法可以是无模型的，直接从交互中学习策略；也可以是基于模型的，首先学习转移模型 p。算法还可以根据在线策略（从当前策略数据学习）或离线策略（从回放缓冲区学习）来区分。

尽管强化学习（RL）取得了显著进展，但将 RL 与 VLA 模型集成仍然面临着独特的挑战，需要进一步研究。早期关于 RL-VLA 的研究已经奠定了重要的基础，并展示了有前景的方向。这些研究涵盖了多种范式，包括离线、在线和测试时 RL。在离线强化学习（RL）领域，策略从预先收集的固定数据集中学习。ReinboT [21] 通过预测密集回报来更好地利用混合质量数据，从而整合了强化学习原理。而 CO-RFT [22] 则引入分块强化学习（Chunked RL），这是一个新框架，它扩展时间差分（TD）学习，使其与许多 VLA 中固有的动作分块机制兼容。对于在线强化学习，它通过试错主动收集新经验来改进策略。VLA-RL [23] 通过提出轨迹级强化学习公式并使用 VLM 作为机器人流程奖励模型来解决稀疏奖励挑战，从而利用在线改进。类似地，SimpleVLA-RL [24] 提供一个高效的强化学习框架，其中包含增强探索的策略，使策略能够发现演示数据之外先前未见过的模式。最后，测试时方法可以增强部署时的策略：V-GPS [26] 引入价值引导策略转向（Value-Guided Policy Steering），它使用离线学习的价值函数对策略的动作进行重排序，而无需任何权重更新；Hume [27] 实现一个双系统模型，该模型通过在运行时采样和选择最佳动作候选来执行价值引导的系统 -2 思维。尽管 VLA-RL 领域取得开创性的贡献和令人瞩目的进展，但在这些系统能够在动态、开放的物理环境中稳健运行之前，仍然存在着巨大的挑战，这为进一步的研究留下了广阔的空间。

如图所示 RL-VLA 的分类：

尽管基于模仿学习的预训练使得 VLA 模型在各种操作任务中都能取得优异的性能，但其泛化能力仍然受限于离线数据覆盖范围的不足，尤其是在 OOD 状态下。为了解决这一限制，近期研究将预训练的 VLA 模型与强化学习（RL）相结合，将开环推理转化为由在线反馈驱动的闭环优化过程。在这种架构下，策略与环境交互，收集轨迹，并通过奖励引导的更新逐步调整自身行为。

动作

在 RL-VLA 中，动作模型充当视觉观察和物理交互动作之间的桥梁。虽然预训练的 VLA 通常以开环方式生成动作，但强化学习进一步引入任务级监督，使得策略能够通过交互和反馈进行调整，从而提升泛化能力。基于对操作动作空间的预测方法，强化学习（RL）在动作生成改进中可以发挥不同的作用，从自回归动作模型中的 token 级监督，到生成式动作模型中的序列级优化，再到结合高层推理和低层控制的双 - 系统 VLA 中的层级协调。

1）自回归模型：自回归 VLA 遵循语言建模范式，将机器人操作建模为离散 token 空间中的序列决策过程，其中动作通过对下一个 token 的预测逐步生成。强化学习可以直接利用自回归 VLA 输出的 token 预测概率，通过 token 级监督和奖励驱动机制实现更稳定的策略优化。该范式在机器人场景中展现出更优的任务适应性和泛化能力，并启发了一系列后续工作 [22]–[24]、[28]、[48]，这些工作探索自回归 RL-VLA 在在线微调和离线策略改进方面的应用。具体而言，TGRPO [48] 将策略梯度目标重写为基于优势加权的 token 级交叉熵损失，从而能够在不改变动作头形式的前提下，对 VLA 动作生成进行稳定的强化学习微调。CO-RFT [22] 进一步利用动作概率的时空动态特性，解决了自回归 VLA 离散动作预测中轨迹一致性较差的问题。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

模型生成的奖励：模型生成的奖励主要利用预训练的基础模型而非人类反馈，这使得智体的行为与基础模型的常识保持一致，并实现了跨不同环境的可扩展监督。奖励转换器（translator）[147] 将语言指令和交互数据转换为参数化的奖励代码，从而将自然语言任务规范与机器人强化学习连接起来。Eureka [18] 通过 LLM 生成的提议和环境反馈迭代地演化奖励代码，其在各种操作技能方面通常优于专家设计的奖励。近期研究 [148] 也证明了利用 LLM/VLM 作为代理（proxy）来学习有效奖励函数而无需人工干预的潜力。DVD[149] 通过区分人类和机器人视频中的任务相似性来学习多任务奖励，实现了零样本泛化。视频生成模型提供一种替代方法：VIPER[54] 从专家演示中学习视频预测 transformer，并将模型的似然性用作奖励；而 TeViR[150] 采用文本 - 到 - 视频的扩散模型生成预测图像序列，并通过将其与实际观测结果进行比较来计算奖励。其他方法利用 VLM 进行时间推理和对比学习：GVL[55] 将奖励估计表述为视频帧的时间顺序；ReWiND[151] 使用倒放帧来增强任务序列，以提高对故障的鲁棒性；VLAC[53] 通过负样本的对比学习来增强可解释性。基于查询的方法，例如 RoboCLIP [56]、RL-VLM-F [152] 和 RG-VLM [153]，直接查询 VLM，从图像观测和文本任务描述中生成奖励，展现出强大的生成能力，能够捕捉任务进展。这些方法的核心原则是奖励分布一致性：当智体的行为与从专家数据或互联网规模视频中学习到的分布相匹配时，它们会获得更高的奖励。
潜在挑战：外部奖励提供外部任务监督，但在可扩展性、可靠性和一致性方面面临着持续的挑战。无论是人工对齐的奖励还是模型生成的奖励，都容易出现错误设定、域偏移和感知噪声等问题，这限制它们在复杂的现实世界环境中的有效性。

基于状态的方法：基于状态的方法将环境编码成一个紧凑的潜状态空间，从而高效地对状态转换进行建模。这使得模型能够预测长时程动态和奖励，而无需重建完整的视觉观测。PlaNet [154] 采用循环状态空间模型构建了一个动态世界模型，能够预测动作序列的未来潜在状态和奖励。Dreamer [59] 和 DreamerV2 [155] 进一步提高了潜在状态空间的表达能力，从而增强了长时程规划的质量和基于模型的强化学习（MBRL）的整体性能。TransDreamer [156] 用基于 Transformer 的模型替换了循环架构，以实现更稳定的长时程预测。然而，这些方法将图像重建视为辅助目标，因此对精确的视觉观测建模关注有限。因此，它们在真实场景中的生成能力有限，无法充分利用大规模视频数据。
基于观察的方法：基于观察的方法直接对像素级的观察转换进行建模，从而能够生成保持几何和视觉保真度的逼真环境展开。这种范式更适合表示真实世界的物理特性，并能使奖励与视觉预测保持一致。iVideoGPT [60] 利用大型自回归视频预测模型 [157]，并对预训练模型进行微调以适应机器人场景。预训练的视觉世界模型与学习的奖励模型相结合，可以作为 MBRL 任务的神经模拟器。GWM [61] 和 iMoWM [62] 融合了多模态数据，以更好地表示环境的三维几何结构，从而提高 MBRL 任务的性能。这些模型在各种任务中展现出强大的泛化能力，并通过提高视觉质量和奖励预测精度来增强 MBRL 性能，因为奖励本质上与反映物理世界理解的视觉保真度密切相关。然而，仅仅依赖于从真实世界数据分布中学习而忽略强物理先验会降低这些模型的可靠性，尤其是在复杂或分布外的场景中。EmbodiedDreamer [63] 通过引入 PhysAligner 和 VisAligner 来解决这一局限性。PhysAligner 结合基于物理的模拟器先验，以提供物理上一致的转换动力学，而 VisAligner 则使用视频绘制技术来增强生成观测结果的真实感。虽然这种方法提高了物理精度，但物理模拟器的引入降低了计算效率，而计算效率通常是基于学习的世界模型所受益的。

1）策略优化：策略优化决定了 VLA 如何根据环境奖励更新其策略，直接影响在线 RL-VLA 的稳定性和效率。激进的优化可能会破坏预训练动作空间中的训练稳定性，而过于保守的策略则需要过多的交互并增加成本。最近的研究通过采用 PPO 变体来缓解这种权衡，从而提高学习效率和稳定性。一方面，FLaRe [68] 将 PPO 算法应用于后训练的 VLA 模型，是该领域的奠基性工作；随后，RLRC [69] 也利用 PPO 来微调 VLA 模型。最近，RIPT-VLA [41] 将 Leave-One-Out（RLOO）优势估计与 PPO 相结合用于训练后优化，无需形状奖励或价值函数即可实现高效学习。另一方面，VLA-RL [23] 使用 PPO 算法对自回归 VLA 模型进行微调，同时引入机器人过程奖励模型 (RPRM) 以提供密集奖励，从而提高学习效率。SimpleVLA-RL [24] 引入 GRPO 算法，实现更稳定的策略更新，并在 LIBERO 基准测试中取得了显著的性能提升。至关重要的是，一项实证研究 RLVLA [42] 比较 DPO、PPO 和 GRPO 算法在 VLA 模型在线强化学习微调中的应用，并提供了令人信服的证据，表明与标准的监督式微调相比，强化学习微调在分布外（OOD）场景下显著增强了模型的泛化能力。DeepThinkVLA [72] 引入了具有因果注意机制的 CoT，并采用 GRPO 进行策略优化，以使完整的推理 - 动作序列与期望结果在因果关系上保持一致。对于基于流匹配的 VLA 模型，一些研究也探索专门的策略优化算法。FPO [49] 提出一种流策略优化算法，该算法在基于流匹配的 VLA 模型中实现了重要性采样，以提高策略优化效率。πRL [25] 为基于流匹配的 VLA 模型引入两种在线强化学习算法：Flow-Noise 将去噪过程建模为离散时间马尔可夫决策过程 (MDP)，而 Flow-SDE 将去噪与智体 - 环境交互相结合。其他工作也探索了强化学习对齐。GRAPE [71] 通过生成定制成本并基于轨迹数据优化策略，使 VLA 与偏好对齐。RobustVLA [73] 提出了一种轻量级的在线强化学习后训练方法，通过雅可比正则化和平滑正则化项来增强 VLA 模型对扰动的鲁棒性和可靠性。

机器人操作 VLA 模型的强化学习综述

如图所示 RL-VLA 的分类：

动作

更多推荐文章

相关免费在线工具

奖励

转换建模

在线 RL-VLA

离线 RL-VLA

测试 - 时 RL-VLA

仿真 - 到 - 真实迁移

真实世界强化学习

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

更多推荐文章

相关免费在线工具

机器人操作 VLA 模型的强化学习综述

如图所示 RL-VLA 的分类：

动作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

奖励

转换建模

在线 RL-VLA

离线 RL-VLA

测试 - 时 RL-VLA

仿真 - 到 - 真实迁移

真实世界强化学习

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具