PPO-VLA：强化学习如何提升机器人泛化能力

一项来自清华大学的实证研究表明，相比传统的监督微调，使用 PPO 算法进行强化学习微调，能使 VLA 模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达 42.6%。

论文：What Can RL Bring to VLA Generalization? An Empirical Study 链接：https://arxiv.org/abs/2505.19789 代码：https://rlvla.github.io

想象一下，你让一个家用机器人'把桌上的苹果放进碗里'。在实验室里，它可能完成得很好。但一旦进入你家，面对从未见过的餐桌纹理、一个形状奇特的'碗'、或者在你下达指令时苹果被意外碰歪了位置，它还能顺利完成吗？

这正是当前 VLA 模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制，已成为具身人工智能领域的明星。然而，其主流训练方法——监督微调，本质上是在模仿专家演示数据。当环境稍有变化，微小的误差便会累积，导致机器人'不知所措'。

来自清华大学的研究团队提出并系统性地回答了这个问题：强化学习能为 VLA 的泛化带来什么？他们的研究不仅构建了一个严格的评估基准，更通过大量实验揭示：以近端策略优化为代表的强化学习微调，能显著提升 VLA 模型在语义理解和动作执行上的鲁棒性，为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。

VLA 模型通常基于在互联网海量数据上预训练的大模型（如 LLaMA、CLIP），再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字：给他看很多遍'正确'的笔画，希望他能模仿出来。

然而，这种方法的根本局限在于'分布偏移下的复合误差'。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入（例如出现了新物体、新背景或物体位置偏移），模型基于'记忆'做出的动作就可能出错。在需要连续决策的机器人任务中，一个步骤的小偏差会引发后续步骤的更大错误，最终导致任务失败。

相比之下，强化学习走的是另一条路：让智能体在与环境的直接交互中，通过试错来学习如何最大化任务奖励。它不局限于模仿已有的'正确'答案，而是主动探索，学习从错误中恢复，从而可能获得超越演示数据的、更鲁棒的行为策略。

尽管 RL 在语言模型等领域已展现出卓越的泛化能力，但其在 VLA 模型上的具体收益一直缺乏系统性评估。清华团队的这项研究，正是为了填补这一空白。

研究首先面临一个关键选择：在众多适用于大模型的 RL 算法中，哪种最适合 VLA？团队测试了三种代表性算法：

本研究的基模型——OpenVLA 架构。它将视觉编码器与语言模型结合，直接输出离散化的机器人动作词元。

实验在一个典型的'拾取 - 放置'任务上进行。结果如图 3 所示，PPO 的表现显著且稳定地优于 GRPO 和 DPO。

图：不同 RL 算法在 VLA 微调中的性能对比。PPO 及其变体（PPO-ORZ）展现出明显优势。

研究者分析认为，机器人任务是一个部分可观测的马尔可夫决策过程，每个动作都会顺序地、非平稳地改变环境状态。GRPO 基于固定初始状态采样的组内比较，在这种动态环境中可能变得不稳定。而 DPO 依赖高质量的离线偏好数据，在机器人任务稀疏奖励的设置下，难以有效区分轨迹优劣，且存在严重的分布偏移问题。

泛化维度	具体任务	SFT 成功率	RL 成功率	RL 相对提升
视觉	背景变化 (OOD Table)	0.80	0.83	+3.8%
视觉	动态噪声 (强)	0.47	0.60	+27.7%
语义	未见物体 (Single)	0.57	0.83	+45.6%
语义	多物体选择	0.50	0.77	+54.0%
语义	未见容器	0.70	0.90	+28.6%
执行	物体/容器位置偏移	0.63	0.93	+47.6%
执行	机器人初始位姿变化	0.73	0.97	+32.9%
执行	任务中物体重定位	0.20	0.63	+215%

更多推荐文章