跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

PPO-VLA:强化学习如何提升机器人泛化能力

综述由AI生成清华大学研究对比了监督微调(SFT)与强化学习(PPO)在视觉语言动作(VLA)模型上的表现。研究发现,PPO 能显著提升模型在语义理解和执行鲁棒性方面的分布外泛化能力,最高提升达 42.6%。相比 SFT 的模仿瓶颈,RL 通过试错学习更本质的技能。研究还提出了高效的 PPO-VLA 训练方案,包括共享骨干架构、预热策略及最小更新轮次,在单卡上即可高效微调。实验表明 RL 在执行干扰和未见物体场景下优势明显。

念念不忘发布于 2026/4/6更新于 2026/5/2221 浏览
PPO-VLA:强化学习如何提升机器人泛化能力

一项来自清华大学的实证研究表明,相比传统的监督微调,使用 PPO 算法进行强化学习微调,能使 VLA 模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达 42.6%。

论文:What Can RL Bring to VLA Generalization? An Empirical Study 链接:https://arxiv.org/abs/2505.19789 代码:https://rlvla.github.io

想象一下,你让一个家用机器人'把桌上的苹果放进碗里'。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的'碗'、或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?

这正是当前 VLA 模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调,本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人'不知所措'。

来自清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为 VLA 的泛化带来什么?他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升 VLA 模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。

一、问题核心:SFT 的'模仿'瓶颈与 RL 的'试错'潜力

VLA 模型通常基于在互联网海量数据上预训练的大模型(如 LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍'正确'的笔画,希望他能模仿出来。

然而,这种方法的根本局限在于'分布偏移下的复合误差'。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于'记忆'做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。

相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的'正确'答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。

尽管 RL 在语言模型等领域已展现出卓越的泛化能力,但其在 VLA 模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。

二、方法探路:为何 PPO 成为 VLA 微调的'最优解'?

研究首先面临一个关键选择:在众多适用于大模型的 RL 算法中,哪种最适合 VLA?团队测试了三种代表性算法:

  • 近端策略优化:经典的在线策略梯度算法,通过交互采样数据并优化策略。
  • 组相对策略优化:一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分 NLP 任务中表现优异。
  • 直接偏好优化:一种流行的离线对齐算法,利用偏好数据直接优化策略。

OpenVLA 架构

本研究的基模型——OpenVLA 架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。

实验在一个典型的'拾取 - 放置'任务上进行。结果如图 3 所示,PPO 的表现显著且稳定地优于 GRPO 和 DPO。

不同 RL 算法在 VLA 微调中的性能对比。PPO 及其变体(PPO-ORZ)展现出明显优势。

图:不同 RL 算法在 VLA 微调中的性能对比。PPO 及其变体(PPO-ORZ)展现出明显优势。

研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO 基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而 DPO 依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。

因此,PPO 凭借其稳定在线学习和高效利用奖励信号的能力,被确立为 VLA 微调的首选算法。

高效 PPO-VLA 训练方案的精炼

选定 PPO 后,研究团队进一步优化,提炼出一套高效、实用的微调方案,核心包含三个设计:

  1. 共享骨干的演员 - 评论家架构:直接在预训练的 VLA 模型(演员)上,附加一个轻量的多层感知机作为评论家头,两者共享 Transformer 骨干网络。具体而言,评论家接收模型第一个动作词元位置对应的隐藏向量,来预测状态价值。这种设计在保持性能的同时,比独立评论家网络节省了约 83% 的显存,训练速度提升 35%。

  2. 必要的 VLA 预热:直接使用在通用数据集上预训练的 VLA 模型进行 RL 训练,初期效率低下。研究者先用少量目标任务的演示数据对模型进行监督微调预热,这能使 RL 收敛所需的环境交互步数减少约 50%。

  3. 最少的 PPO 更新轮次:实验发现,在每次收集的数据批次上,仅进行 1 轮 PPO 更新(即 epoch=1)就能达到最佳样本效率。增加更新轮次不会带来性能提升,反而线性增加训练时间。

预热与最小 PPO 轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

图:预热与最小 PPO 轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

这套方案使得在单个 NVIDIA A100 GPU 上微调一个 7B 参数的 VLA 模型仅需约 42 小时,具备了很强的实用性。

三、系统评估:RL 在哪些方面真正超越了 SFT?

为了全面评估泛化能力,研究者构建了一个涵盖三个维度的严格基准:

  • 视觉泛化:测试面对未见过的桌面背景、叠加动态纹理或噪声时的鲁棒性。
  • 语义泛化:测试对未见过的物体、容器以及多样化语言指令的理解能力。
  • 执行泛化:测试在物体/容器初始位置变化、机器人初始姿态变化、甚至任务中途物体被意外移动等情况下的鲁棒性。

在训练中,模型会接触到上述三个维度有限范围内的随机变化。而在测试时,则专门引入分布外的挑战,例如全新的物体、桌子纹理和干扰项。

关键结果:RL 全面领先,尤其在语义与执行层面

首先,研究者探索了监督微调的性能上限。如图 6 所示,随着演示数据量增加,SFT 性能在约 1.6 万条轨迹后达到平台,无法再通过增加数据获得显著提升。

监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约 16k 条轨迹后饱和。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约 16k 条轨迹后饱和。

随后,他们将达到饱和的 SFT 模型(SFT-16k)与 PPO 微调的模型进行全方位对比。核心结论清晰有力:

RL 微调不仅在训练分布上达到与最佳 SFT 相当的水平,更在分布外泛化上实现了大幅超越。具体而言,在未见过的物体和桌子测试中,RL 相比 SFT 性能提升了 42.6%。

更细致的分维度对比如图 7 和下表所示:

泛化维度具体任务SFT 成功率RL 成功率RL 相对提升
视觉背景变化 (OOD Table)0.800.83+3.8%
视觉动态噪声 (强)0.470.60+27.7%
语义未见物体 (Single)0.570.83+45.6%
语义多物体选择0.500.77+54.0%
语义未见容器0.700.90+28.6%
执行物体/容器位置偏移0.630.93+47.6%
执行机器人初始位姿变化0.730.97+32.9%
执行任务中物体重定位0.200.63+215%

表:SFT 与 RL 在各类分布外任务上的性能对比。RL 在语义和执行泛化上优势显著。

(a) SFT 与 RL 在各任务上的详细性能对比(雷达图更直观展示了 RL 在执行和语义维度的优势)。

图:(a) SFT 与 RL 在各任务上的详细性能对比(雷达图更直观展示了 RL 在执行和语义维度的优势)。

分析解读:
  1. 视觉泛化相当:RL 并未在视觉扰动上表现出显著优势。研究者认为,这是因为两种方法的训练都包含了类似的视觉随机化,模型从中学习的视觉鲁棒性水平相近。

  2. 语义泛化显著提升:面对全新物体,RL 表现远优于 SFT。这表明通过试错,RL 学习到的是更本质的'抓取'技能,减少了对特定物体外观的依赖。

  3. 执行泛化巨大优势:这是 RL 最亮眼的地方。尤其是在'任务中物体重定位'这种极端动态干扰下,RL 的成功率是 SFT 的三倍以上。RL 智能体学会了在抓取失败或目标移动后主动调整、重新尝试,而 SFT 智能体则倾向于机械地执行预设动作流程。

定性洞察:RL 学到了更丰富的策略空间

为何 RL 能获得更好的泛化能力?可视化分析提供了线索。

SFT 与 RL 训练轨迹覆盖范围对比。RL 的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

图:SFT 与 RL 训练轨迹覆盖范围对比。RL 的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

如图 8 所示,SFT 模型的轨迹分布紧密聚集在演示数据提供的运动规划路径周围,本质上是'模仿'。而 RL 模型的轨迹则覆盖了更广阔的工作空间和更多样的姿态,这是其通过探索学到的、更丰富的技能集。

图 9 的案例生动展示了这种差异:

  1. 在强视觉噪声下,SFT 智能体抓取后因定位困难而反复掉落物体;RL 智能体则能克服干扰完成放置。
  2. 面对未见物体,SFT 智能体出现困惑行为(试图抓取已持有的物体);RL 智能体则能顺利执行。
  3. 当物体被意外移动,SFT 智能体'无视'变化继续原计划导致失败;RL 智能体则能重新定位并成功抓取。

SFT 与 RL 在具体挑战性场景下的行为对比。RL 展现出更强的适应和恢复能力。

图:SFT 与 RL 在具体挑战性场景下的行为对比。RL 展现出更强的适应和恢复能力。

四、结论与展望:通向更通用机器人智能的强化学习之路

这项来自清华大学的研究通过严谨的实证分析,明确了强化学习在提升 VLA 模型泛化能力中的独特价值:

  • 算法有效性:PPO 是当前微调 VLA 模型最有效的 RL 算法,优于 DPO 和 GRPO。
  • 性能增益:相比监督微调,RL 能显著提升模型对语义变化和执行干扰的鲁棒性,同时在视觉泛化上保持相当水平。
  • 实用方案:研究提出了一套高效的 PPO-VLA 微调方案,具备实际应用可行性。

一个值得注意的技术细节是评论家网络的设计。研究发现,使用共享骨干网络,并取第一个动作词元对应的隐藏状态作为评论家输入,在性能和效率上达到了最佳平衡。

这一设计充分利用了 VLA 模型因果 Transformer 的特性,其中第一个动作词元的位置可能聚合了为生成整个动作序列所需的综合状态信息。

这项工作的意义在于,它系统性地验证了强化学习作为突破 VLA 模型'模仿学习'天花板的关键工具。尽管当前实验限于仿真环境中的单一任务,但其揭示的原理——通过试错探索获得更本质、更鲁棒的技能表示——为未来开发能适应复杂、开放世界环境的通用具身智能体指明了方向。

下一步,将 RL 微调与仿真到真实的迁移技术结合,在物理机器人上验证其泛化能力,将是激动人心的前沿。

目录

  1. 一、问题核心:SFT 的“模仿”瓶颈与 RL 的“试错”潜力
  2. 二、方法探路:为何 PPO 成为 VLA 微调的“最优解”?
  3. 高效 PPO-VLA 训练方案的精炼
  4. 三、系统评估:RL 在哪些方面真正超越了 SFT?
  5. 关键结果:RL 全面领先,尤其在语义与执行层面
  6. 分析解读:
  7. 定性洞察:RL 学到了更丰富的策略空间
  8. 四、结论与展望:通向更通用机器人智能的强化学习之路
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 数据结构:二叉树与堆
  • HarmonyOS NEXT 图形渲染体系
  • 国外主流 AI 大模型在国内的接入与使用指南
  • MAVROS 安装配置与 ROS C++ 仿真实战指南
  • C++ 基于红黑树模拟实现 set 和 map 容器
  • VSCode Copilot 接入智谱 GLM-4 及任意大模型配置方案
  • PyQt5 基础与常用控件入门教程
  • Llama-2-7b 昇腾 NPU 测评:核心性能数据、场景适配与硬件选型
  • 手写 C++ Shell 解释器,解密 Bash 背后的进程创建机制
  • 本地部署 Flux.1 绘画工具实测:中低显存设备的高质量生成方案
  • VSCode 接入智谱 GLM-4 及自定义大模型配置指南
  • 闲置手机变复古掌机:天马 G 前端安装与原理分析
  • 基于 Termux 的 Android 平台 OpenClaw 部署:移动端 AI 助理
  • 为什么选择 Python:核心特性与优势解析
  • 滑动窗口算法进阶:最大连续 1 与最小操作数
  • 基于 VoxCPM-1.5 的红外相机智能语音驱赶系统实战
  • Linux 基于匿名管道实现简易进程池
  • Dify 工作流发布为 MCP Server 实践指南
  • Xinference v1.17.1 基于 GitHub Codespaces 的云端 WebUI 快速部署
  • 大模型与 AIGC 概述及基础知识

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online