TwinRL-VLA:数字孪生驱动的现实世界机器人强化学习
近期,北京大学联合 Simplexity Robotics、清华大学及港科大发表了一篇关于视觉 - 语言 - 动作(VLA)模型在真实世界机器人操作中应用的论文。尽管 VLA 模型具备强大的泛化能力,但受限于专家演示的高昂成本和现实世界交互的不足。在线强化学习(RL)虽能改进通用基础模型,但在现实世界中应用时仍面临探索效率低下和空间受限的挑战。
背景与基础
视觉 - 语言 - 动作策略
VLA 策略 $\pi_\theta$ 将语言指令 $l$ 和多视图图像 $I_t = {I_{side_t}, I_{wrist_t}}$ 映射到每个时间步 $t$ 的 7 自由度末端执行器动作 $a_t \sim \pi_\theta(a_t | I_t, l)$。动作 $a_t = (\Delta p_t, \Delta r_t, g_t)$ 定义末端执行器的相对运动,包括 3D 平移量 $\Delta p_t$、3D 旋转量 $\Delta r_t$ 和二元夹爪状态 $g_t \in {0, 1}$。展开轨迹表示为 $\tau = {(I_t, l, a_t)}$,该轨迹在任务成功或达到时间限制时终止。
强化学习设定
强化学习作为一种交互式训练后范式,利用环境反馈优化细粒度操作并通过探索扩大状态覆盖范围。机器人强化学习可建模为马尔可夫决策过程 (MDP) $M = {S, A, \rho, P, r, \gamma}$,其中 $s \in S$ 表示状态观测值,$a \in A$ 表示动作,$\rho(s_0)$ 是初始状态分布,$P$ 是未知且可能随机的状态转移动态,$r : S \times A \rightarrow R$ 是奖励函数,$\gamma \in (0, 1]$ 是折扣因子。最优策略 $\pi^*$ 定义为最大化从 $(\rho, P, \pi)$ 分布中采样的轨迹 $\tau$ 的预期收益的策略。$\pi_\theta(a | s)$ 由神经网络参数化,通常建模为高斯分布以实现连续控制。
核心动机
尽管在线强化学习为提升任务鲁棒性提供了探索途径,但其在物理硬件上的采样效率依然是一个挑战。受通用领域研究启发,在真实世界的 VLA 强化学习中,探索实际上受到监督微调(SFT)过程中产生的轨迹分布空间支持限制。这种限制引入了双重瓶颈:
- 状态集受限:它限制了可以可靠探索的状态集。
- 效率降低:即使有人工干预,也显著降低了在线强化学习的效率。
实验设置基于一个需要高位置精度的精确块插入任务。工作空间被划分为分布内区域 A(由演示覆盖)和分布外区域 B(在 SFT 过程中未被观察到)。

瓶颈分析
瓶颈一:SFT 演示的空间覆盖范围 改变 SFT 演示的空间覆盖范围以隔离其对策略泛化和自主在线强化学习的影响。比较两种训练数据分布:仅包含来自区域 A 的 30 个演示,以及包含来自区域 B 的 30 个数字孪生演示的 A+B 分布。评估所得 SFT 策略的空间泛化能力发现,在区域 B 中,A+B 策略的成功率达到 62.5%,而仅包含区域 A 的策略仍然局限于区域 A(在区域 B 中为 0%)。这表明标准 SFT 策略对空间未覆盖区域的外推能力有限。更重要的是,仅使用 A 区域的模型尝试在 B 区域进行自主在线强化学习会导致明显的探索死锁。在 OOD 配置下初始化时,即使经过 4 万步训练,该策略也无法持续获得正奖励。这与回放缓冲区被失败轨迹占据的现象类似,导致自主适应几乎无效。
瓶颈二:人机交互的有效性 为了缓解探索死锁,可以引入人 - 机交互(HiL)来引导机器人成功完成任务。然而,在 OOD 设置下,人机交互能否保证有效的在线适应?比较分布内后训练(In-distribution Post-training)和分布外后训练(OOD Post-training)。尽管人工干预在两种设置下均提供成功的纠正性演示,但样本效率存在显著差异。分布内后训练适应迅速,在大约 45 分钟内即可达到 90% 以上的成功率。相比之下,分布外后训练的收敛速度明显更慢,且在相同的交互预算下表现出更大的不稳定性。这表明即使引入 HiL 方案,由于不利的奖励环境和数据缓冲区中不平衡的数据分布,在之前未见过的区域 B 中进行学习仍然具有挑战性。
结论表明,克服这两个瓶颈需要在真实世界交互之前扩展探索范围,并引导人工干预以系统地提高在线效率。基于此,提出 TwinRL,这是一个数字孪生 - 真实世界协作强化学习框架。
TwinRL 框架详解
本文提出一种从仿真到真实的引导式探索策略,以进一步加速在线强化学习。如图 a) 所示,TwinRL 首先在数字孪生中高效并行地执行强化学习部署,生成存储在回放缓冲区中的在线交互数据。当应用于真实世界的强化学习时,该策略利用强化学习风格的专家轨迹丰富回放缓冲区,并弥合从离线学习到在线学习的过渡,从而减少性能下降和训练不稳定性。此外,回放缓冲区中性能良好配置的部署可以防止高精度行为的灾难性遗忘。另外,数字孪生能够高效地识别易出错但信息丰富的对象配置,这些随后被用于指导真实机器人上有针对性的硬件在环 (HiL) 部署,从而显著加速探索。






