一项来自清华大学的实证研究表明,相比传统的监督微调,使用 PPO 算法进行强化学习微调,能使 VLA 模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达 42.6%。
论文:What Can RL Bring to VLA Generalization? An Empirical Study (arXiv:2505.19789) 代码仓库:https://rlvla.github.io
试想这样一个场景:让家用机器人执行'将桌上苹果放入碗中'的任务。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的'碗',或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?
这恰恰是 VLA(Vision-Language-Action)模型在泛化性上遇到的瓶颈。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调(SFT),本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人'不知所措'。
清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为 VLA 的泛化带来什么?他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升 VLA 模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。
问题核心:SFT 的'模仿'瓶颈与 RL 的'试错'潜力
VLA 模型通常基于在互联网海量数据上预训练的大模型(如 LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍'正确'的笔画,希望他能模仿出来。
然而,这种方法的根本局限在于'分布偏移下的复合误差'。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于'记忆'做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。
相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的'正确'答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。
尽管 RL 在语言模型等领域已展现出卓越的泛化能力,但其在 VLA 模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。
方法探路:为何 PPO 成为 VLA 微调的'最优解'?
研究首先面临一个关键选择:在众多适用于大模型的 RL 算法中,哪种最适合 VLA?团队测试了三种代表性算法:
- 近端策略优化(PPO):经典的在线策略梯度算法,通过交互采样数据并优化策略。
- 组相对策略优化(GRPO):一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分 NLP 任务中表现优异。
- 直接偏好优化(DPO):一种流行的离线对齐算法,利用偏好数据直接优化策略。

本研究的基模型——OpenVLA 架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。
实验在一个典型的'拾取 - 放置'任务上进行。结果如图所示,PPO 的表现显著且稳定地优于 GRPO 和 DPO。
研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO 基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而 DPO 依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。
因此,PPO 凭借其稳定在线学习和高效利用奖励信号的能力,被确立为 VLA 微调的首选算法。
高效 PPO-VLA 训练方案的精炼
选定 PPO 后,研究团队进一步优化,提炼出一套高效、实用的微调方案,核心包含三个设计:
-
共享骨干的演员 - 评论家架构:直接在预训练的 VLA 模型(演员)上,附加一个轻量的多层感知机作为评论家头,两者共享 Transformer 骨干网络。具体而言,评论家接收模型第一个动作词元位置对应的隐藏向量,来预测状态价值。这种设计在保持性能的同时,比独立评论家网络节省了约 83% 的显存,训练速度提升 35%。






