当前,VLA 模型通过大规模预训练具备了出色的泛化能力,但在实际场景部署时,除了需要广泛的通用性,还需达到专家级的任务执行水平。以家庭机器人为例:它必须能够折叠衣物、整理货架、组装家具,同时展现出堪比专用设备所要求的可靠性与精确性。
要让机器人实现能真正干活的目标,剩余的挑战就在于:如何在不牺牲通过大规模预训练所获得的通用性的前提下,赋予这些模型专家级的熟练度。
那么,问题的关键就在于后训练——使预训练模型适应特定的下游部署场景。在大型语言模型(LLMs)等领域,通过在线强化学习(RL)和人类反馈进行的后训练已被证明非常有效,使模型能够通过大规模分布式训练持续改进。然而,对于物理世界中的 VLA 后训练,结合分布式数据收集的在线学习的系统级实现,在很大程度上仍未得到充分探索。
现有针对 VLA 模型的后训练方法多为离线式、单机器人适配或特定任务专用。在这种模式下,数据收集与策略改进在结构上是脱节的。
对预先收集的演示数据进行离线训练,不可避免地会遭受分布偏移的影响,微小的执行误差会在长时程任务中不断累积。这限制了模型在现实交互过程中的高效在线策略适配与可扩展学习。
为此,智元机器人提出一种可扩展在线后训练系统——SOP(Scalable Online Post-training),这是一套闭环智能体 - 学习器架构,能够依托异构机器人集群的持续真实场景交互数据,对预训练的 VLA 模型进行适配优化。

SOP 系统工作流程
机器人集群在各类任务中持续采集经验数据,将交互数据实时传输至中心化云端服务器,并异步接收更新后的控制策略——使 VLA 模型在保持通用性的同时,提升各任务的执行熟练度。
什么是 SOP?
SOP 系统采用闭环架构,将执行与学习环节紧密耦合:机器人集群与中心化云端学习器之间持续交互——前者向后者传输在线策略轨迹数据与人工干预信号,后者则向前者异步下发更新后的控制策略。这种'采集 - 训练 - 部署'的闭环模式,可实现低延迟的模型适配,且适配效率随机器人集群规模的扩大而自然提升。
SOP 框架包含三个核心模块:
- 由机器人智能体执行的分布式在线策略数据采集;
- 基于在线 - 离线混合数据的集中式云端优化;
- 向智能体端回传的低延迟模型同步机制。

SOP 系统架构
SOP 采用 Actor–Learner 异步架构:
1)Actor(机器人侧)并行经验采集
多台部署了同一 policy 模型的机器人(actors)在不同地点同时执行多样任务,持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer 中。
2)Learner(云端)在线学习
所有交互轨迹实时上传至云端 learner,形成由在线数据与离线专家示教数据组成的数据池。
系统通过动态重采样策略,根据不同任务的性能表现,自适应调整在线/离线数据比例,以更高效地利用真实世界经验。
3)即时参数同步
更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定性。
SOP 是一套可扩展的 Actor–Learner 框架,适用于通用策略的在线多任务后训练。机器人集群会将在线策略轨迹采样数据实时传输至云端学习器。
当系统出现故障或判定结果存疑时,将触发可选的人工干预流程,人工修正后的轨迹或动作会被纳入缓存区。云端学习器通过融合在线缓存区与静态离线缓存区的数据,生成任务均衡的更新参数;随后接入插件式后训练模块(如 HG-DAgger/RECAP),并将更新后的权重异步广播至所有 Actor(智能体),从而形成低延迟的在线训练闭环。
SOP 的实现效果
值得注意的是,SOP 具备算法无关性:该框架仅定义系统级的数据流与同步规则,具体的参数更新方法可替换为任意后训练算法。
在本研究中,智元团队基于两种现有后训练方法——HG-DAgger 与 RECAP——搭建 SOP 的实例化模型,并通过持续输入实时交互经验、执行高频异步模型更新,验证 SOP 可将这两种方法升级为可落地的在线策略式在线后训练方案。





