PPO-VLA:强化学习如何让机器人“看得更懂、抓得更准”?

PPO-VLA:强化学习如何让机器人“看得更懂、抓得更准”?

一项来自清华大学的实证研究表明,相比传统的监督微调,使用PPO算法进行强化学习微调,能使VLA模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达42.6%。

论文:What Can RL Bring to VLA Generalization? An Empirical Study 链接:https://arxiv.org/abs/2505.19789 代码:https://rlvla.github.io

想象一下,你让一个家用机器人“把桌上的苹果放进碗里”。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的“碗”、或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?

这正是当前VLA模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调,本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人“不知所措”。

来自清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为VLA的泛化带来什么? 他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升VLA模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。

一、 问题核心:SFT的“模仿”瓶颈与RL的“试错”潜力

VLA模型通常基于在互联网海量数据上预训练的大模型(如LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍“正确”的笔画,希望他能模仿出来。

然而,这种方法的根本局限在于 “分布偏移下的复合误差” 。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于“记忆”做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。

相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的“正确”答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。

尽管RL在语言模型等领域已展现出卓越的泛化能力,但其在VLA模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。

二、 方法探路:为何PPO成为VLA微调的“最优解”?

研究首先面临一个关键选择:在众多适用于大模型的RL算法中,哪种最适合VLA?团队测试了三种代表性算法:

  • • 近端策略优化:经典的在线策略梯度算法,通过交互采样数据并优化策略。
  • • 组相对策略优化:一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分NLP任务中表现优异。
  • • 直接偏好优化:一种流行的离线对齐算法,利用偏好数据直接优化策略。

图片

本研究的基模型——OpenVLA架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。

实验在一个典型的“拾取-放置”任务上进行。结果如图3所示,PPO的表现显著且稳定地优于GRPO和DPO。

图:不同RL算法在VLA微调中的性能对比。PPO及其变体(PPO-ORZ)展现出明显优势。

图:不同RL算法在VLA微调中的性能对比。PPO及其变体(PPO-ORZ)展现出明显优势。

研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而DPO依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。

因此,PPO凭借其稳定在线学习和高效利用奖励信号的能力,被确立为VLA微调的首选算法。

高效PPO-VLA训练方案的精炼

选定PPO后,研究团队进一步优化,提炼出一套高效、实用的微调方案,核心包含三个设计:

1、共享骨干的演员-评论家架构:直接在预训练的VLA模型(演员)上,附加一个轻量的多层感知机作为评论家头,两者共享Transformer骨干网络。具体而言,评论家接收模型第一个动作词元位置对应的隐藏向量 ,来预测状态价值 。这种设计在保持性能的同时,比独立评论家网络节省了约83%的显存,训练速度提升35%。

2、必要的VLA预热:直接使用在通用数据集上预训练的VLA模型进行RL训练,初期效率低下。研究者先用少量目标任务的演示数据对模型进行监督微调预热,这能使RL收敛所需的环境交互步数减少约50%。

3、最少的PPO更新轮次:实验发现,在每次收集的数据批次上,仅进行1轮PPO更新(即 epoch=1)就能达到最佳样本效率。增加更新轮次不会带来性能提升,反而线性增加训练时间。

图:预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

图:预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

这套方案使得在单个NVIDIA A100 GPU上微调一个7B参数的VLA模型仅需约42小时,具备了很强的实用性。

三、 系统评估:RL在哪些方面真正超越了SFT?

为了全面评估泛化能力,研究者构建了一个涵盖三个维度的严格基准:

  • • 视觉泛化:测试面对未见过的桌面背景、叠加动态纹理或噪声时的鲁棒性。
  • • 语义泛化:测试对未见过的物体、容器以及多样化语言指令的理解能力。
  • • 执行泛化:测试在物体/容器初始位置变化、机器人初始姿态变化、甚至任务中途物体被意外移动等情况下的鲁棒性。

在训练中,模型会接触到上述三个维度有限范围内的随机变化。而在测试时,则专门引入分布外的挑战,例如全新的物体、桌子纹理和干扰项。

关键结果:RL全面领先,尤其在语义与执行层面

首先,研究者探索了监督微调的性能上限。如图6所示,随着演示数据量增加,SFT性能在约1.6万条轨迹后达到平台,无法再通过增加数据获得显著提升。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约16k条轨迹后饱和。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约16k条轨迹后饱和。

随后,他们将达到饱和的SFT模型(SFT-16k)与PPO微调的模型进行全方位对比。核心结论清晰有力:

RL微调不仅在训练分布上达到与最佳SFT相当的水平,更在分布外泛化上实现了大幅超越。 具体而言,在未见过的物体和桌子测试中,RL相比SFT性能提升了42.6%。

更细致的分维度对比如图7和下表所示:

泛化维度

具体任务

SFT成功率

RL成功率

RL相对提升

视觉

背景变化 (OOD Table)

0.80

0.83

+3.8%

动态噪声 (强)

0.47

0.60

+27.7%

语义

未见物体 (Single)

0.57

0.83

+45.6%

多物体选择

0.50

0.77

+54.0%

未见容器

0.70

0.90

+28.6%

执行

物体/容器位置偏移

0.63

0.93

+47.6%

机器人初始位姿变化

0.73

0.97

+32.9%

任务中物体重定位

0.20

0.63

+215%

表:SFT与RL在各类分布外任务上的性能对比。RL在语义和执行泛化上优势显著。

图:(a) SFT与RL在各任务上的详细性能对比(雷达图更直观展示了RL在执行和语义维度的优势)。

图:(a) SFT与RL在各任务上的详细性能对比(雷达图更直观展示了RL在执行和语义维度的优势)。

分析解读:

1、视觉泛化相当:RL并未在视觉扰动上表现出显著优势。研究者认为,这是因为两种方法的训练都包含了类似的视觉随机化,模型从中学习的视觉鲁棒性水平相近。

2、语义泛化显著提升:面对全新物体,RL表现远优于SFT。这表明通过试错,RL学习到的是更本质的“抓取”技能,减少了对特定物体外观的依赖。

3、执行泛化巨大优势:这是RL最亮眼的地方。尤其是在“任务中物体重定位”这种极端动态干扰下,RL的成功率是SFT的三倍以上。RL智能体学会了在抓取失败或目标移动后主动调整、重新尝试,而SFT智能体则倾向于机械地执行预设动作流程。

定性洞察:RL学到了更丰富的策略空间

为何RL能获得更好的泛化能力?可视化分析提供了线索。

图:SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

图:SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

如图8所示,SFT模型的轨迹分布紧密聚集在演示数据提供的运动规划路径周围,本质上是“模仿”。而RL模型的轨迹则覆盖了更广阔的工作空间和更多样的姿态,这是其通过探索学到的、更丰富的技能集。

图9的案例生动展示了这种差异:

1、在强视觉噪声下,SFT智能体抓取后因定位困难而反复掉落物体;RL智能体则能克服干扰完成放置。

2、面对未见物体,SFT智能体出现困惑行为(试图抓取已持有的物体);RL智能体则能顺利执行。

3、当物体被意外移动,SFT智能体“无视”变化继续原计划导致失败;RL智能体则能重新定位并成功抓取。

图:SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。

图:SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。

四、 结论与展望:通向更通用机器人智能的强化学习之路

这项来自清华大学的研究通过严谨的实证分析,明确了强化学习在提升VLA模型泛化能力中的独特价值:

  • • 算法有效性:PPO是当前微调VLA模型最有效的RL算法,优于DPO和GRPO。
  • • 性能增益:相比监督微调,RL能显著提升模型对语义变化和执行干扰的鲁棒性,同时在视觉泛化上保持相当水平。
  • • 实用方案:研究提出了一套高效的PPO-VLA微调方案,具备实际应用可行性。

一个值得注意的技术细节是评论家网络的设计。研究发现,使用共享骨干网络,并取第一个动作词元对应的隐藏状态作为评论家输入,在性能和效率上达到了最佳平衡。

这一设计充分利用了VLA模型因果Transformer的特性,其中第一个动作词元的位置可能聚合了为生成整个动作序列所需的综合状态信息。

这项工作的意义在于,它系统性地验证了强化学习作为突破VLA模型“模仿学习”天花板的关键工具。尽管当前实验限于仿真环境中的单一任务,但其揭示的原理——通过试错探索获得更本质、更鲁棒的技能表示——为未来开发能适应复杂、开放世界环境的通用具身智能体指明了方向。

下一步,将RL微调与仿真到真实的迁移技术结合,在物理机器人上验证其泛化能力,将是激动人心的前沿。

Read more

74个低空无人机AI算法详解,总体精度达90%,公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

74个低空无人机AI算法详解,总体精度达90%,公安执法、消防应急、水利、林业、能源电力、城建、市政、城管、工程、农业、生态

公安执法 一、人员智能识别与管控 聚焦人员相关的身份、行为、状态识别,核心服务于治安防控、人群管理、突发事件处置,是公安基层执法的核心应用方向: 1. 人员识别/计数:支持复杂场景(人群聚集、遮挡、移动)下的人员精准检测与数量统计,实时反馈人群密度,为大型活动安保、人群聚集风险管控提供数据支撑; 2. 人员异常聚焦识别:识别人员突然聚集、徘徊、逃窜、翻越护栏等异常行为,快速锁定可疑区域,触发执法预警; 3. 打架斗殴识别:精准检测肢体冲突、推搡、殴打等暴力行为,毫秒级触发预警并定位事发位置,助力执法人员快速处置,减少冲突升级; 4. 重点人员监控识别:对接公安重点人员数据库,通过人脸识别算法实现低空移动场景下的重点人员精准匹配与轨迹追踪,支持跨区域、动态化管控; 5. 人员属性识别:识别人员性别、年龄段、衣着特征、是否携带疑似管制器具 / 大件物品等属性信息,

Magic API:低代码接口开发平台完全指南

Magic API:低代码接口开发平台完全指南

Magic API:低代码接口开发平台完全指南 🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银河; 🛠️ 每一个算法都是我绘制的星图,指引着数据流动的最短路径; 🔍 每一次调试都是星际对话,用耐心和智慧解开宇宙的谜题。 🚀 准备好开始我们的星际编码之旅了吗? 目录 * Magic API:低代码接口开发平台完全指南 * 摘要 * 1. Magic API概述与核心概念 * 1.1 什么是Magic API * 1.2 Magic API的核心特性 * 1.3 Magic API的设计理念 * 2. Magic API架构设计与组件分析 * 2.1 整体架构概览 * 2.2 API引擎工作原理 * 2.3 脚本引擎与SQL执行机制 * 3. Magic API核心功能实现

AI绘画报错

提示输出验证失败:CheckpointLoaderSimple: - 值不在列表中:ckpt_name: 'v1-5-pruned-emaonly-fp16.safetensors' 不在 ['anything-v5-PrtRE.safetensors'] 中 模型文件夹里面没模型 这是官方链接:v1-5-pruned-emaonly.safetensors https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main 点击同一行的小下载箭头。然后把文件放在:models/checkpoints文件夹里 你还需要标准的VAE文件,也就是:vae-ft-mse-840000-ema-pruned.safetensors https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main 这个文件放在:models/vae文件夹里 现在你已经拥有运行所需的一切了。慢慢来。你最初生成的图片会很糟糕。但是继续尝试,很快你就能得到很棒的结果。

宇树 G1 机器人开发入门:有线 & 无线连接完整指南

宇树 G1 机器人开发入门:有线 & 无线连接完整指南

适用读者:机器人二次开发者、科研人员 开发环境:Ubuntu 20.04(推荐) 机器人型号:Unitree G1 EDU+ 前言 宇树 G1 是一款面向科研与商业应用的高性能人形机器人,支持丰富的二次开发接口。在正式进行算法调试与功能开发之前,首要任务是建立稳定的开发连接。本文将详细介绍两种主流连接方式:有线(网线直连) 与 无线(WiFi + SSH),并附上完整的配置流程,帮助开发者快速上手。 一、有线连接(推荐新手优先使用) 有线连接通过网线直接将开发电脑与 G1 机器人相连,具有延迟低、稳定性高、不依赖外部网络的优势,是新手入门和底层调试的首选方式。 1.1 前置条件 所需物品说明开发电脑推荐安装 Ubuntu 20.04,或在 Windows 上使用虚拟机宇树 G1 机器人确保已开机且处于正常状态网线(