一项来自清华大学的实证研究表明,相比传统的监督微调,使用 PPO 算法进行强化学习微调,能使 VLA 模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达 42.6%。
论文:What Can RL Bring to VLA Generalization? An Empirical Study 链接:https://arxiv.org/abs/2505.19789 代码:https://rlvla.github.io
想象一下,你让一个家用机器人'把桌上的苹果放进碗里'。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的'碗'、或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?
这正是当前 VLA 模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调,本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人'不知所措'。
来自清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为 VLA 的泛化带来什么?他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升 VLA 模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。
一、问题核心:SFT 的'模仿'瓶颈与 RL 的'试错'潜力
VLA 模型通常基于在互联网海量数据上预训练的大模型(如 LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍'正确'的笔画,希望他能模仿出来。
然而,这种方法的根本局限在于'分布偏移下的复合误差'。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于'记忆'做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。
相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的'正确'答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。
尽管 RL 在语言模型等领域已展现出卓越的泛化能力,但其在 VLA 模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。
二、方法探路:为何 PPO 成为 VLA 微调的'最优解'?
研究首先面临一个关键选择:在众多适用于大模型的 RL 算法中,哪种最适合 VLA?团队测试了三种代表性算法:
- 近端策略优化:经典的在线策略梯度算法,通过交互采样数据并优化策略。
- 组相对策略优化:一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分 NLP 任务中表现优异。
- 直接偏好优化:一种流行的离线对齐算法,利用偏好数据直接优化策略。

本研究的基模型——OpenVLA 架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。
实验在一个典型的'拾取 - 放置'任务上进行。结果如图 3 所示,PPO 的表现显著且稳定地优于 GRPO 和 DPO。

图:不同 RL 算法在 VLA 微调中的性能对比。PPO 及其变体(PPO-ORZ)展现出明显优势。
研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO 基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而 DPO 依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。
因此,PPO 凭借其稳定在线学习和高效利用奖励信号的能力,被确立为 VLA 微调的首选算法。






