VLA 模型真实世界分布式在线后训练系统 SOP 关键突破

综述由AI生成智元机器人提出的可扩展在线后训练系统 SOP。针对 VLA 模型在真实场景部署中缺乏专家级熟练度的问题，SOP 采用 Actor-Learner 闭环架构，通过机器人集群持续采集交互数据并在云端进行在线学习优化。实验表明，SOP 能显著提升预训练模型性能，且效率随集群规模线性增长，有效解决了离线训练分布偏移的问题，为通用机器人策略的规模化落地提供了关键技术路径。

草莓泡芙发布于 2026/4/5更新于 2026/5/2624 浏览

当前，VLA 模型通过大规模预训练具备了出色的泛化能力，但在实际场景部署时，除了需要广泛的通用性，还需达到专家级的任务执行水平。以家庭机器人为例：它必须能够折叠衣物、整理货架、组装家具，同时展现出堪比专用设备所要求的可靠性与精确性。

要让机器人实现能真正干活的目标，剩余的挑战就在于：如何在不牺牲通过大规模预训练所获得的通用性的前提下，赋予这些模型专家级的熟练度。

那么，问题的关键就在于后训练——使预训练模型适应特定的下游部署场景。在大型语言模型（LLMs）等领域，通过在线强化学习（RL）和人类反馈进行的后训练已被证明非常有效，使模型能够通过大规模分布式训练持续改进。然而，对于物理世界中的 VLA 后训练，结合分布式数据收集的在线学习的系统级实现，在很大程度上仍未得到充分探索。

现有针对 VLA 模型的后训练方法多为离线式、单机器人适配或特定任务专用。在这种模式下，数据收集与策略改进在结构上是脱节的。

对预先收集的演示数据进行离线训练，不可避免地会遭受分布偏移的影响，微小的执行误差会在长时程任务中不断累积。这限制了模型在现实交互过程中的高效在线策略适配与可扩展学习。

为此，智元机器人提出一种可扩展在线后训练系统——SOP（Scalable Online Post-training），这是一套闭环智能体 - 学习器架构，能够依托异构机器人集群的持续真实场景交互数据，对预训练的 VLA 模型进行适配优化。

SOP 系统工作流程

机器人集群在各类任务中持续采集经验数据，将交互数据实时传输至中心化云端服务器，并异步接收更新后的控制策略——使 VLA 模型在保持通用性的同时，提升各任务的执行熟练度。

什么是 SOP？

SOP 系统采用闭环架构，将执行与学习环节紧密耦合：机器人集群与中心化云端学习器之间持续交互——前者向后者传输在线策略轨迹数据与人工干预信号，后者则向前者异步下发更新后的控制策略。这种'采集 - 训练 - 部署'的闭环模式，可实现低延迟的模型适配，且适配效率随机器人集群规模的扩大而自然提升。

SOP 框架包含三个核心模块：

由机器人智能体执行的分布式在线策略数据采集；
基于在线 - 离线混合数据的集中式云端优化；
向智能体端回传的低延迟模型同步机制。

SOP 系统架构

SOP 采用 Actor–Learner 异步架构：

1）Actor（机器人侧）并行经验采集

多台部署了同一 policy 模型的机器人（actors）在不同地点同时执行多样任务，持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer 中。

2）Learner（云端）在线学习

所有交互轨迹实时上传至云端 learner，形成由在线数据与离线专家示教数据组成的数据池。

系统通过动态重采样策略，根据不同任务的性能表现，自适应调整在线/离线数据比例，以更高效地利用真实世界经验。

3）即时参数同步

更新后的模型参数在分钟级别内同步回所有机器人，实现集群一致进化，维持在线训练的稳定性。

SOP 是一套可扩展的 Actor–Learner 框架，适用于通用策略的在线多任务后训练。机器人集群会将在线策略轨迹采样数据实时传输至云端学习器。

当系统出现故障或判定结果存疑时，将触发可选的人工干预流程，人工修正后的轨迹或动作会被纳入缓存区。云端学习器通过融合在线缓存区与静态离线缓存区的数据，生成任务均衡的更新参数；随后接入插件式后训练模块（如 HG-DAgger/RECAP），并将更新后的权重异步广播至所有 Actor（智能体），从而形成低延迟的在线训练闭环。