跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

机器人操作 VLA 模型强化学习综述

综述由AI生成综述了视觉 - 语言 - 动作(VLA)模型在机器人操作中结合强化学习(RL)的研究进展。文章从 RL-VLA 架构(动作、奖励、转换建模)、训练范式(在线、离线、测试时)、实际部署(仿真到真实、安全探索)及基准测试四个维度展开。重点分析了如何利用 RL 增强 VLA 的分布外泛化能力,解决模仿学习的局限性。同时探讨了当前面临的挑战,如长时程任务处理、样本效率、安全性及可复现性等问题,为构建通用机器人系统提供了发展路径参考。

嘘发布于 2026/4/6更新于 2026/5/2032 浏览
机器人操作 VLA 模型强化学习综述

构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉 - 语言 - 动作模型(VLA)得到显著推进。VLA 利用大规模预训练,通过模仿学习获取通用的视觉运动先验知识。然而,目前的预训练 VLA 仍需微调才能适应实际部署,因为传统的模仿学习由于依赖于状态和动作覆盖范围有限的已收集数据集,难以实现分布外(OOD)泛化。强化学习(RL)利用自探索和结果驱动优化来增强 VLA 的 OOD 泛化能力。本文概述 RL 如何弥合预训练和实际部署之间的差距,并全面介绍 RL-VLA 的训练范式。分类体系围绕四个核心维度展开,反映从学习到部署的完整生命周期:RL-VLA 架构、训练范式、实际部署以及基准测试和评估。

为了说明将强化学习(RL)方法扩展到 VLA 模型时存在的差距,形式化 RL-VLA 问题,详细描述其状态表示、动作空间、奖励函数和环境动态。将机器人操作任务形式化为马尔可夫决策过程(MDP),由元组 (S, A, p, r, γ) 定义。强化学习的目标是学习一个由θ参数化的策略π_θ(a_t | s_t),以最大化预期折现收益 J(π)。在 RL-VLA 的背景下,这种形式是高度专门化的。状态 S 是多模态且高维的,通常定义为 s_t = (ovis_t, oprop_t, l_task),包含视觉观测、本体感觉信息和语言指令。动作 a_t 由 VLA 的解码器根据其内部隐状态生成。值得注意的是,VLA 通常使用扩散解码器或动作 token 化器等机制输出动作块 a_t:t+k−1,而不是单步动作。奖励 r(s_t, a_t) 对优化至关重要,它通常将稀疏的二元任务成功信号与密集的、基于过程的奖励相结合。最后,转移模型 p(s_{t+1} | s_t, a_t) 可以在仿真中定义,也可以由真实世界机器人感知到的物理交互隐式确定。

为最优决策而开发的强化学习算法主要分为三大类。基于价值的方法,例如深度 Q 网络 (DQN),侧重于估计价值函数。相比之下,策略梯度方法,例如近端策略优化 (PPO),通过计算预期收益相对于策略参数的梯度来直接优化策略。最后,诸如软 A-C(SAC)之类的 Actor-Critics 方法,通过同时学习价值函数和策略来结合这些方法。

尽管强化学习(RL)取得了显著进展,但将 RL 与 VLA 模型集成仍然面临着独特的挑战。早期关于 RL-VLA 的研究已经奠定了重要的基础。在离线强化学习领域,ReinboT 通过预测密集回报来更好地利用混合质量数据。CO-RFT 则引入分块强化学习(Chunked RL)。对于在线强化学习,VLA-RL 通过提出轨迹级强化学习公式并使用 VLM 作为机器人流程奖励模型来解决稀疏奖励挑战。SimpleVLA-RL 提供一个高效的强化学习框架。测试时方法可以增强部署时的策略:V-GPS 引入价值引导策略转向,Hume 实现一个双系统模型。

RL-VLA 分类体系

RL-VLA 分类体系图

尽管基于模仿学习的预训练使得 VLA 模型在各种操作任务中都能取得优异的性能,但其泛化能力仍然受限于离线数据覆盖范围的不足。为了解决这一限制,近期研究将预训练的 VLA 模型与强化学习(RL)相结合,将开环推理转化为由在线反馈驱动的闭环优化过程。

动作

在 RL-VLA 中,动作模型充当视觉观察和物理交互动作之间的桥梁。基于对操作动作空间的预测方法,强化学习(RL)在动作生成改进中可以发挥不同的作用。

1)自回归模型:自回归 VLA 遵循语言建模范式,将机器人操作建模为离散 token 空间中的序列决策过程。强化学习可以直接利用自回归 VLA 输出的 token 预测概率,通过 token 级监督和奖励驱动机制实现更稳定的策略优化。TGRPO 将策略梯度目标重写为基于优势加权的 token 级交叉熵损失。CO-RFT 进一步利用动作概率的时空动态特性。 潜在挑战:离散的动作 token 使得自回归 VLA 难以进行灵巧操作。粗粒度的 token 设计会导致 VLA 失去灵巧控制,而细粒度的 token 划分会降低动作 token 之间的区分度。

  1. 生成式动作 VLA:近期的研究人员致力于利用基于扩散或流匹配动作头直接生成动作轨迹。πRL 采用流随机微分方程 (Flow-SDE) 或流噪声干预措施来消除过程中的噪声。FPO 利用每个样本的变化来替换动作概率。ARFM 提出了一种动态缩放因子调整策略。 潜在挑战:更新是由局部采样且不完美的信号驱动,智能体与预训练行为之间的微小偏差会在多步生成和迭代更新过程中累积。

  2. 双 - 系统模型:高层任务规划 VLM 理解人类意图并生成逐步子任务,而底层动作控制 VLA 提供操作轨迹。Hume 利用 RL 训练一个高层任务规划系统,该系统能够从多个采样动作中选择最优动作。 潜在挑战:双系统 VLA 面临的一个核心挑战是实现高层 VLM 规划器和底层 VLA 控制器之间可靠的价值对齐。

奖励

强化学习中的奖励是量化任务成功并指导策略优化的基本学习信号。RL-VLA 利用奖励驱动的反馈来克服模仿学习的局限性。

  1. 内在奖励:基于规则的自监督信号,源自数据集或智能体与环境之间的交互。基于势函数的奖励塑造(PBRS)利用辅助势函数将原始奖励信号修改。探索驱动奖励通过赋予探索行为额外的内在价值来鼓励智能体探索新的或不确定的状态。 潜在挑战:内在奖励与任务目标缺乏明确的关联,可能导致不当和不一致的行为。

  2. 外在奖励:利用外部感知信息来指导智能体的行为。人类导向奖励代表人类偏好,基于人类反馈的强化学习 (RLHF) 基于行为对之间的人类偏好比较来训练奖励模型。模型生成的奖励主要利用预训练的基础模型而非人类反馈。RoboCLIP 等直接查询 VLM,从图像观测和文本任务描述中生成奖励。 潜在挑战:无论是人工对齐的奖励还是模型生成的奖励,都容易出现错误设定、域偏移和感知噪声等问题。

转换建模

强化学习中的转换建模旨在刻画基于动作的环境动态。

1)基于物理的模拟器:通过精确的物理建模显式地复制环境动态。Isaac Sim 和 Gazebo 等模拟器可以根据动作序列精确生成环境转换。 潜在挑战:构建高保真模拟器需要大量的人工投入和精确的物理标注。

2)基于学习的世界模型:采用数据驱动的方法进行转换建模。PlaNet 采用循环状态空间模型构建了一个动态世界模型。Dreamer 和 DreamerV2 进一步提高了潜在状态空间的表达能力。EmbodiedDreamer 通过引入 PhysAligner 和 VisAligner 来解决物理一致性问题。 潜在挑战:世界模型在不同场景、身体形态和机器人形态上的泛化能力仍然较差。

训练范式

现有的 RL-VLA 训练范式可以根据智能体获取和利用环境反馈的方式分为三类:在线 RL-VLA,离线 RL-VLA,以及测试 - 时 RL-VLA。

在线 RL-VLA

在线 RL-VLA 范式支持交互式策略学习。现有关于在线 RL-VLA 的研究主要集中在五个方向:

1)策略优化:FLaRe 将 PPO 算法应用于后训练的 VLA 模型。RIPT-VLA 将 Leave-One-Out 优势估计与 PPO 相结合。VLA-RL 使用 PPO 算法对自回归 VLA 模型进行微调。SimpleVLA-RL 引入 GRPO 算法。 潜在挑战:现实世界任务的多样性和动态性显著扩展了动作空间。

  1. 样本效率:RLDG 将人类专家演示与在线 RL 微调相结合。iRe-VLA 采用两阶段训练流程。VLAC 将 Actor-Critic 架构集成到单个 VLM 模型中。 潜在挑战:当前在线 RL-VLA 的样本效率在可扩展性和泛化能力方面仍然有限。

  2. 主动探索:Plan-Seq-Learn 使用 LLM 生成高层任务规划。SIME 在强化学习微调阶段引入模态级探索。RESample 自动生成具有挑战性的分布外数据。 潜在挑战:当前方法从高维且常受无关噪声污染的潜表示中生成探索策略。

  3. 训练稳定性:RIPT-VLA 利用动态 Rollout 采样。ConRFT 引入离线 RL 预训练。World-Env 利用学习的世界模型作为模拟器。 潜在挑战:现有的稳定在线 RL-VLA 训练方法仍然局限于简单的短时程操作任务。

  4. 在线 RL-VLA 基础设施:RLinf 和 RLinf-VLA 提出一种灵活的基础设施。vLLM 和 VeRL 也被应用于 VLA。 潜在挑战:现有的在线 RL-VLA 基础设施通常绑定到特定的架构或优化方法。

离线 RL-VLA

离线强化学习在静态数据集上训练价值评估模型。

1)数据利用:定制表示方法主动调整离线数据集。ReinboT 通过修改离线数据集来最大化累积奖励。保守约束方法限制策略更新,以防止偏离离线数据集覆盖的数据分布。ConRFT 将行为克隆与 Cal-QL 相结合。 潜在挑战:离线 RL-VLA 的挑战通常源于数据集的整理。

2)目标函数修改:架构感知目标函数设计。数据驱动的目标自适应。 潜在挑战:数据驱动的目标自适应也存在分布漂移的风险。

测试 - 时 RL-VLA

测试时 RL-VLA 训练范式指的是 VLA 在部署期间通过轻量级更新或适配器模块来调整其行为。

价值引导:V-GPS 利用预训练的价值函数对基础策略中的动作候选进行重新排序。Hume 框架引入'价值引导思维'过程。 内存缓冲区引导:STRAP 实现一个紧凑且表达力强的模式库。RA-DT 存储过去经验的外部记忆。 规划引导的自适应:VLA-Reasoner 提出了一种插件框架,该框架在测试时增强了 VLA 模型的规划能力。 潜在挑战:现有的规划引导自适应方法需要预先推断未来的动作序列,这会带来显著的计算成本。

实际部署

真实世界部署是指在真实世界动态环境下,在物理机器人上运行 RL-VLA 模型。

仿真 - 到-真实迁移

域随机化 (DR) 采用随机仿真参数来模拟真实世界部署中遇到的感知多样性。数字孪生 (DT) 创建物理系统的同步虚拟副本。Real-Is-Sim 维护一个动态数字孪生。RoboTwin 使用生成框架,利用 3D 生成模型和 LLM。 潜在挑战:迁移策略的性能仍然不如其仿真对应策略。

真实世界强化学习
  1. 人机交互强化学习:HiL 方法利用人类干预来纠正机器人的动作。HIL-SERL 引入人机交互强化学习。CR-DAgger 引入一种柔顺的力敏界面。TRANSIC 被提出作为一种仿真 - 到-现实的框架。 潜在挑战:现有的人机协作强化学习方法仍然严重依赖人工干预样本。

2)可逆性和自主恢复:无重置学习旨在通过鼓励智能体保持在状态空间的可恢复区域内。功能可逆性强调机器人能够逆转其动作。语义 - 觉察恢复强调对操作时空动力学进行推理。 潜在挑战:可逆性和恢复仍然很困难。

  1. 安全探索:保守安全评估器提供了一种原则性的机制。结构化任务分解将复杂的机器人训练任务分解为更简单的子任务。实时安全执行通过在执行层面直接应用控制理论安全约束。 潜在挑战:如何将高级语义推理与低级安全保障相结合。

基准测试和评估

仿真数据集和基准测试

LIBERO 和 Meta-World 是两个常用的套件。ManiSkill 是一个接触丰富的、物理精确的仿真套件。BEHAVIOR 和 RoboVerse 都提供了大量不同的任务。RoboCasa 专注于家庭场景。CALVIN 提供了一个标准评估。 双臂操作基准:RoboTwin 是一个双臂操作基准。RoboTwin 2.0 扩展了该平台的功能。

真实世界数据集和基准测试

LeRobot 提供一个通用的开源基础架构。SERL 是一套基于真实机器人的强化学习套件。RoboTwin2.0 支持在多种双臂机器人形态和广泛的任务集上进行标准化的机器人上评估。FurnitureBench 实现了家具组装的标准化。

评估指标

(1) 成功率:衡量智能体达到目标的比例。(2) 平均 episode 收益:评估每个回合的预期累积奖励。(3) 安全成本:衡量训练和部署过程中风险或约束违规的程度。(4) 周期时间:量化实际学习周期的时间效率。(5) episode 长度:表明智能体是否能够维持连贯的动作序列。(6) 干预率:衡量人类监督员在实际训练或部署期间的干预频率。 潜在挑战:目前实际强化学习中的评估协议通常侧重于任务级指标,而忽略了反映实际部署性能的系统级指标。

总结

尽管 RL-VLA 取得令人瞩目的进展,但在此类系统能够在动态、开放的物理环境中稳健运行之前,仍然存在诸多挑战。扩展到长时程任务、基于模型的 RL 用于 VLA、高效且可扩展的真实机器人训练、可靠且可复现的 RL-VLA、安全且风险感知的 RL-VLA 是未来发展的关键方向。

目录

  1. RL-VLA 分类体系
  2. 动作
  3. 奖励
  4. 转换建模
  5. 训练范式
  6. 在线 RL-VLA
  7. 离线 RL-VLA
  8. 测试 - 时 RL-VLA
  9. 实际部署
  10. 仿真 - 到-真实迁移
  11. 真实世界强化学习
  12. 基准测试和评估
  13. 仿真数据集和基准测试
  14. 真实世界数据集和基准测试
  15. 评估指标
  16. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 递归搜索与回溯算法详解及综合练习
  • 微信小程序 WebView 组件使用指南与常见应用场景
  • MyLesson 微信小程序前台前端开发(一)
  • 调试段错误利器:开启和使用 Core Dump(进程信号·叁)
  • 基于 GFPGAN 的低质量人脸图像超分辨率恢复实战
  • AI 大模型发展趋势:技术演进、应用场景与商业模式深度解析
  • 网站漏洞挖掘与渗透测试常见思路指南
  • VSCode 集成 GitHub Copilot 安装与使用指南
  • Java Map 核心实现与常用方法详解
  • 2026年医疗AI的可信革命全栈实现(上)
  • PIL 读取图片及 numpy 与 tensor 格式转换详解
  • llama.cpp Vulkan 后端编译指南:环境配置与问题修复
  • Redisson 核心原理详解:分布式锁与对象映射
  • 图文内容社区数据指标体系构建方法与实践
  • 初识 Git 与安装入门
  • Java 9 至 Java 25:语言演进与技术革新全解析
  • 三款主流云电脑部署 DeepSeek 大模型性能对比评测
  • C++ 实现 2026 新年烟花特效程序
  • VS Code C/C++ 编译与运行配置指南
  • 零基础转行网络安全就业前景与技能要求分析

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online