PPO-VLA:强化学习如何让机器人“看得更懂、抓得更准”?
一项来自清华大学的实证研究表明,相比传统的监督微调,使用PPO算法进行强化学习微调,能使VLA模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达42.6%。
论文:What Can RL Bring to VLA Generalization? An Empirical Study 链接:https://arxiv.org/abs/2505.19789 代码:https://rlvla.github.io想象一下,你让一个家用机器人“把桌上的苹果放进碗里”。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的“碗”、或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?
这正是当前VLA模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调,本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人“不知所措”。
来自清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为VLA的泛化带来什么? 他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升VLA模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。
一、 问题核心:SFT的“模仿”瓶颈与RL的“试错”潜力
VLA模型通常基于在互联网海量数据上预训练的大模型(如LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍“正确”的笔画,希望他能模仿出来。
然而,这种方法的根本局限在于 “分布偏移下的复合误差” 。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于“记忆”做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。
相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的“正确”答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。
尽管RL在语言模型等领域已展现出卓越的泛化能力,但其在VLA模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。
二、 方法探路:为何PPO成为VLA微调的“最优解”?
研究首先面临一个关键选择:在众多适用于大模型的RL算法中,哪种最适合VLA?团队测试了三种代表性算法:
- • 近端策略优化:经典的在线策略梯度算法,通过交互采样数据并优化策略。
- • 组相对策略优化:一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分NLP任务中表现优异。
- • 直接偏好优化:一种流行的离线对齐算法,利用偏好数据直接优化策略。

本研究的基模型——OpenVLA架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。
实验在一个典型的“拾取-放置”任务上进行。结果如图3所示,PPO的表现显著且稳定地优于GRPO和DPO。

图:不同RL算法在VLA微调中的性能对比。PPO及其变体(PPO-ORZ)展现出明显优势。
研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而DPO依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。
因此,PPO凭借其稳定在线学习和高效利用奖励信号的能力,被确立为VLA微调的首选算法。
高效PPO-VLA训练方案的精炼
选定PPO后,研究团队进一步优化,提炼出一套高效、实用的微调方案,核心包含三个设计:
1、共享骨干的演员-评论家架构:直接在预训练的VLA模型(演员)上,附加一个轻量的多层感知机作为评论家头,两者共享Transformer骨干网络。具体而言,评论家接收模型第一个动作词元位置对应的隐藏向量 ,来预测状态价值 。这种设计在保持性能的同时,比独立评论家网络节省了约83%的显存,训练速度提升35%。
2、必要的VLA预热:直接使用在通用数据集上预训练的VLA模型进行RL训练,初期效率低下。研究者先用少量目标任务的演示数据对模型进行监督微调预热,这能使RL收敛所需的环境交互步数减少约50%。
3、最少的PPO更新轮次:实验发现,在每次收集的数据批次上,仅进行1轮PPO更新(即 epoch=1)就能达到最佳样本效率。增加更新轮次不会带来性能提升,反而线性增加训练时间。

图:预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。
这套方案使得在单个NVIDIA A100 GPU上微调一个7B参数的VLA模型仅需约42小时,具备了很强的实用性。
三、 系统评估:RL在哪些方面真正超越了SFT?
为了全面评估泛化能力,研究者构建了一个涵盖三个维度的严格基准:
- • 视觉泛化:测试面对未见过的桌面背景、叠加动态纹理或噪声时的鲁棒性。
- • 语义泛化:测试对未见过的物体、容器以及多样化语言指令的理解能力。
- • 执行泛化:测试在物体/容器初始位置变化、机器人初始姿态变化、甚至任务中途物体被意外移动等情况下的鲁棒性。
在训练中,模型会接触到上述三个维度有限范围内的随机变化。而在测试时,则专门引入分布外的挑战,例如全新的物体、桌子纹理和干扰项。
关键结果:RL全面领先,尤其在语义与执行层面
首先,研究者探索了监督微调的性能上限。如图6所示,随着演示数据量增加,SFT性能在约1.6万条轨迹后达到平台,无法再通过增加数据获得显著提升。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约16k条轨迹后饱和。
随后,他们将达到饱和的SFT模型(SFT-16k)与PPO微调的模型进行全方位对比。核心结论清晰有力:
RL微调不仅在训练分布上达到与最佳SFT相当的水平,更在分布外泛化上实现了大幅超越。 具体而言,在未见过的物体和桌子测试中,RL相比SFT性能提升了42.6%。
更细致的分维度对比如图7和下表所示:
泛化维度 | 具体任务 | SFT成功率 | RL成功率 | RL相对提升 |
|---|---|---|---|---|
视觉 | 背景变化 (OOD Table) | 0.80 | 0.83 | +3.8% |
动态噪声 (强) | 0.47 | 0.60 | +27.7% | |
语义 | 未见物体 (Single) | 0.57 | 0.83 | +45.6% |
多物体选择 | 0.50 | 0.77 | +54.0% | |
未见容器 | 0.70 | 0.90 | +28.6% | |
执行 | 物体/容器位置偏移 | 0.63 | 0.93 | +47.6% |
机器人初始位姿变化 | 0.73 | 0.97 | +32.9% | |
任务中物体重定位 | 0.20 | 0.63 | +215% |
表:SFT与RL在各类分布外任务上的性能对比。RL在语义和执行泛化上优势显著。

图:(a) SFT与RL在各任务上的详细性能对比(雷达图更直观展示了RL在执行和语义维度的优势)。
分析解读:
1、视觉泛化相当:RL并未在视觉扰动上表现出显著优势。研究者认为,这是因为两种方法的训练都包含了类似的视觉随机化,模型从中学习的视觉鲁棒性水平相近。
2、语义泛化显著提升:面对全新物体,RL表现远优于SFT。这表明通过试错,RL学习到的是更本质的“抓取”技能,减少了对特定物体外观的依赖。
3、执行泛化巨大优势:这是RL最亮眼的地方。尤其是在“任务中物体重定位”这种极端动态干扰下,RL的成功率是SFT的三倍以上。RL智能体学会了在抓取失败或目标移动后主动调整、重新尝试,而SFT智能体则倾向于机械地执行预设动作流程。
定性洞察:RL学到了更丰富的策略空间
为何RL能获得更好的泛化能力?可视化分析提供了线索。

图:SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。
如图8所示,SFT模型的轨迹分布紧密聚集在演示数据提供的运动规划路径周围,本质上是“模仿”。而RL模型的轨迹则覆盖了更广阔的工作空间和更多样的姿态,这是其通过探索学到的、更丰富的技能集。
图9的案例生动展示了这种差异:
1、在强视觉噪声下,SFT智能体抓取后因定位困难而反复掉落物体;RL智能体则能克服干扰完成放置。
2、面对未见物体,SFT智能体出现困惑行为(试图抓取已持有的物体);RL智能体则能顺利执行。
3、当物体被意外移动,SFT智能体“无视”变化继续原计划导致失败;RL智能体则能重新定位并成功抓取。

图:SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。
四、 结论与展望:通向更通用机器人智能的强化学习之路
这项来自清华大学的研究通过严谨的实证分析,明确了强化学习在提升VLA模型泛化能力中的独特价值:
- • 算法有效性:PPO是当前微调VLA模型最有效的RL算法,优于DPO和GRPO。
- • 性能增益:相比监督微调,RL能显著提升模型对语义变化和执行干扰的鲁棒性,同时在视觉泛化上保持相当水平。
- • 实用方案:研究提出了一套高效的PPO-VLA微调方案,具备实际应用可行性。
一个值得注意的技术细节是评论家网络的设计。研究发现,使用共享骨干网络,并取第一个动作词元对应的隐藏状态作为评论家输入,在性能和效率上达到了最佳平衡。
这一设计充分利用了VLA模型因果Transformer的特性,其中第一个动作词元的位置可能聚合了为生成整个动作序列所需的综合状态信息。
这项工作的意义在于,它系统性地验证了强化学习作为突破VLA模型“模仿学习”天花板的关键工具。尽管当前实验限于仿真环境中的单一任务,但其揭示的原理——通过试错探索获得更本质、更鲁棒的技能表示——为未来开发能适应复杂、开放世界环境的通用具身智能体指明了方向。
下一步,将RL微调与仿真到真实的迁移技术结合,在物理机器人上验证其泛化能力,将是激动人心的前沿。