PPO-VLA：强化学习如何提升机器人泛化能力

综述由AI生成强化学习微调能显著提升视觉语言动作模型的泛化能力。清华大学的研究对比了 PPO、GRPO 和 DPO 算法，发现 PPO 在语义理解和执行鲁棒性上表现最优。通过共享骨干网络和优化训练策略，PPO-VLA 方案在分布外测试中成功率比监督微调高出 42.6%，尤其在物体重定位等动态干扰下优势明显。

女王发布于 2026/4/7更新于 2026/6/613 浏览

一项来自清华大学的实证研究表明，相比传统的监督微调，使用 PPO 算法进行强化学习微调，能使 VLA 模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达 42.6%。

论文：What Can RL Bring to VLA Generalization? An Empirical Study (arXiv:2505.19789) 代码仓库：https://rlvla.github.io

试想这样一个场景：让家用机器人执行'将桌上苹果放入碗中'的任务。在实验室里，它可能完成得很好。但一旦进入你家，面对从未见过的餐桌纹理、一个形状奇特的'碗'，或者在你下达指令时苹果被意外碰歪了位置，它还能顺利完成吗？

这恰恰是 VLA（Vision-Language-Action）模型在泛化性上遇到的瓶颈。这类模型通过整合视觉感知、语言理解和机器人控制，已成为具身人工智能领域的明星。然而，其主流训练方法——监督微调（SFT），本质上是在模仿专家演示数据。当环境稍有变化，微小的误差便会累积，导致机器人'不知所措'。

清华大学的研究团队提出并系统性地回答了这个问题：强化学习能为 VLA 的泛化带来什么？他们的研究不仅构建了一个严格的评估基准，更通过大量实验揭示：以近端策略优化为代表的强化学习微调，能显著提升 VLA 模型在语义理解和动作执行上的鲁棒性，为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。

问题核心：SFT 的'模仿'瓶颈与 RL 的'试错'潜力

VLA 模型通常基于在互联网海量数据上预训练的大模型（如 LLaMA、CLIP），再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字：给他看很多遍'正确'的笔画，希望他能模仿出来。

然而，这种方法的根本局限在于'分布偏移下的复合误差'。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入（例如出现了新物体、新背景或物体位置偏移），模型基于'记忆'做出的动作就可能出错。在需要连续决策的机器人任务中，一个步骤的小偏差会引发后续步骤的更大错误，最终导致任务失败。

相比之下，强化学习走的是另一条路：让智能体在与环境的直接交互中，通过试错来学习如何最大化任务奖励。它不局限于模仿已有的'正确'答案，而是主动探索，学习从错误中恢复，从而可能获得超越演示数据的、更鲁棒的行为策略。

尽管 RL 在语言模型等领域已展现出卓越的泛化能力，但其在 VLA 模型上的具体收益一直缺乏系统性评估。清华团队的这项研究，正是为了填补这一空白。

方法探路：为何 PPO 成为 VLA 微调的'最优解'？

研究首先面临一个关键选择：在众多适用于大模型的 RL 算法中，哪种最适合 VLA？团队测试了三种代表性算法：

近端策略优化（PPO）：经典的在线策略梯度算法，通过交互采样数据并优化策略。
组相对策略优化（GRPO）：一种无需显式价值函数、通过组内样本比较来估计优势的方法，在部分 NLP 任务中表现优异。
直接偏好优化（DPO）：一种流行的离线对齐算法，利用偏好数据直接优化策略。

不同 RL 算法在 VLA 微调中的性能对比

本研究的基模型——OpenVLA 架构。它将视觉编码器与语言模型结合，直接输出离散化的机器人动作词元。

实验在一个典型的'拾取 - 放置'任务上进行。结果如图所示，PPO 的表现显著且稳定地优于 GRPO 和 DPO。

研究者分析认为，机器人任务是一个部分可观测的马尔可夫决策过程，每个动作都会顺序地、非平稳地改变环境状态。GRPO 基于固定初始状态采样的组内比较，在这种动态环境中可能变得不稳定。而 DPO 依赖高质量的离线偏好数据，在机器人任务稀疏奖励的设置下，难以有效区分轨迹优劣，且存在严重的分布偏移问题。

因此，PPO 凭借其稳定在线学习和高效利用奖励信号的能力，被确立为 VLA 微调的首选算法。

高效 PPO-VLA 训练方案的精炼

选定 PPO 后，研究团队进一步优化，提炼出一套高效、实用的微调方案，核心包含三个设计：

共享骨干的演员 - 评论家架构：直接在预训练的 VLA 模型（演员）上，附加一个轻量的多层感知机作为评论家头，两者共享 Transformer 骨干网络。具体而言，评论家接收模型第一个动作词元位置对应的隐藏向量，来预测状态价值。这种设计在保持性能的同时，比独立评论家网络节省了约 83% 的显存，训练速度提升 35%。

泛化维度	具体任务	SFT 成功率	RL 成功率	RL 相对提升
视觉	背景变化 (OOD Table)	0.80	0.83	+3.8%
视觉	动态噪声 (强)	0.47	0.60	+27.7%
语义	未见物体 (Single)	0.57	0.83	+45.6%
语义	多物体选择	0.50	0.77	+54.0%
语义	未见容器	0.70	0.90	+28.6%
执行	物体/容器位置偏移	0.63	0.93	+47.6%
执行	机器人初始位姿变化	0.73	0.97	+32.9%
执行	任务中物体重定位	0.20	0.63	+215%