北京大学、Simplexity Robotics、清华和港科大发表的论文'TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation'。
尽管视觉 - 语言 - 动作(VLA)模型具有强大的泛化能力,但仍受限于专家演示的高昂成本和现实世界交互的不足。在线强化学习(RL)在改进通用基础模型方面展现出潜力,但将其应用于现实世界中的 VLA 操作仍受到探索效率低下和探索空间受限的制约。系统的真实世界实验显示,在线 RL 的有效探索空间与监督微调(SFT)的数据分布密切相关。基于此,TwinRL 框架旨在扩展和指导 VLA 模型探索的数字孪生 - 现实世界协同强化学习。首先,利用智能手机拍摄的场景高效地重建高保真数字孪生,从而实现真实环境和模拟环境之间逼真的双向迁移。在 SFT 预热阶段,引入一种利用数字孪生扩展探索空间的策略,以拓宽数据轨迹分布的支持范围。基于这种增强的初始化方法,提出一种从仿真到真实的引导式探索策略,以进一步加速在线强化学习。具体而言,TwinRL 在部署之前,在数字孪生模型中高效并行地执行在线强化学习,有效地弥合离线和在线训练阶段之间的差距。随后,利用高效的数字孪生采样来识别易出错但信息丰富的配置,这些配置用于指导在真实机器人上进行有针对性的人机交互部署。在实验中,TwinRL 在真实世界演示覆盖的分布区域和非分布区域均接近 100% 的成功率,相比以往的真实世界强化学习方法,速度至少提升 30%,并且在四个任务中平均仅需约 20 分钟。
该研究提出一种从仿真到真实的引导式探索策略,以进一步加速在线强化学习。如图 a 所示,TwinRL 首先在数字孪生中高效并行地执行强化学习部署,生成存储在回放缓冲区中的在线交互数据。当应用于真实世界的强化学习时,该策略利用强化学习风格的专家轨迹丰富回放缓冲区,并弥合从离线学习到在线学习的过渡,从而减少性能下降和训练不稳定性。此外,回放缓冲区中性能良好配置的部署可以防止高精度行为的灾难性遗忘。另外,数字孪生能够高效地识别易出错但信息丰富的对象配置,这些配置随后被用于指导真实机器人上有针对性的硬件在环 (HiL) 部署,从而显著加速探索。如图 b 所示,在四个操作任务上评估 TwinRL,所有任务均基于相同的 VLA 骨干网 [41]。在 SFT 阶段,与仅使用真实世界演示进行训练相比,探索空间扩展策略将平均成功率提高 42%。在在线强化学习过程中,TwinRL 在真实世界演示覆盖的分布内区域和 OOD 区域中均取得 100% 的成功率,相比之前的真实世界强化学习方法 [8, 39] 至少提高 30% 的速度,并且在四个任务中平均仅需约 20 分钟。
[图 1]
初步知识
视觉 - 语言 - 动作 (VLA) 策略动作生成。VLA 策略 π_θ 将语言指令 l 和多视图图像 I_t = {I_side_t, I_wrist_t} 映射到每个时间步 t 的 7 自由度末端执行器动作 a_t ∼ π_θ(a_t | I_t, l)。动作 a_t = (Δp_t, Δr_t, g_t) 定义末端执行器的相对运动,包括 3D 平移量 Δp_t、3D 旋转量 Δr_t 和二元夹爪状态 g_t ∈ {0, 1}。将展开轨迹表示为 τ = {(I_t, l, a_t)},该轨迹在任务成功或达到时间限制时终止。
强化策略。继之前的研究 [8, 39] 之后,强化学习(RL)作为一种交互式的训练后范式,利用环境反馈来优化细粒度的操作,并通过探索来扩大状态覆盖范围。机器人强化学习可以建模为马尔可夫决策过程 (MDP) M = {S, A, ρ, P, r, γ},其中 s ∈ S 表示状态观测值,a ∈ A 表示动作,ρ(s_0) 是初始状态分布,P 是未知且可能随机的状态转移动态,r : S × A → R 是奖励函数,γ ∈ (0, 1] 是折扣因子。在此设定下,为了评估策略 π 的性能,定义状态 - 值函数和动作 - 值函数。
将最优策略 π* 定义为最大化从 (ρ, P, π) 分布中采样的轨迹 τ 的预期收益的策略。π_θ(a | s) 由神经网络参数化,并且可以建模为高斯分布以实现连续控制。
动机
尽管在线强化学习为提升任务鲁棒性提供一条探索途径,但其在物理硬件上的采样效率仍然是一个挑战。受通用领域研究 [61] 的启发,在真实世界的 VLA 强化学习中,探索实际上受到 SFT 过程中产生的轨迹分布空间支持限制。这种限制引入双重瓶颈:(1)它限制可以可靠探索的状态集;(2)即使有人工干预,它也显著降低在线强化学习的效率。
实验设置。如图 a 所示,用一个需要高位置精度的精确块插入任务进行所有实验。所有策略均基于 Octo [41] 模型实例化。将工作空间划分为分布内区域 A(由演示覆盖)和分布外区域 B(在 SFT 过程中未被观察到)。
[图 2]
瓶颈一:改变 SFT 演示的空间覆盖范围,以隔离其对策略泛化和自主在线强化学习的影响。具体而言,比较两种训练数据分布:(i)仅包含来自区域 A 的 30 个演示,以及(ii)包含来自区域 B 的 30 个数字孪生演示的 A+B 分布。首先评估所得 SFT 策略的空间泛化能力。为了衡量演示覆盖范围如何影响有效探索空间,用仅包含区域 A 的 SFT 模型初始化策略,并在未见过的区域 B 中运行自主在线强化学习。
结果一:如上图 b 所示,在每个网格单元内执行 10 次展开测试。在区域 B 中,A+B 策略的成功率达到 62.5%,而仅包含区域 A 的策略仍然局限于区域 A(在区域 B 中为 0%)。该结果表明,标准 SFT 策略对空间未覆盖区域的外推能力有限。更重要的是,仅使用 A 区域的模型尝试在 B 区域进行自主在线强化学习会导致明显的探索死锁。在 OOD 配置下初始化时,即使经过 4 万步训练(约两小时),该策略也无法持续获得正奖励。这种现象与文献 [8] 类似,其中回放缓冲区被失败轨迹占据,导致自主适应几乎无效。这些结果表明,与通用领域工作 [61] 的发现一致,在线强化学习的有效探索空间与 SFT 数据的空间覆盖范围密切相关。
瓶颈二:为了缓解探索死锁,可以引入人 - 机交互(HiL)来引导机器人成功完成任务 [39]。然而,一个重要的问题仍然存在:在 OOD 设置下,人机交互能否保证有效的在线适应?为了检验这一点,比较两种设置:分布内后训练(In-distribution Post-training),其中在线强化学习在熟悉的区域 A 进行;以及分布外后训练(OOD Post-training),其中在线强化学习在不熟悉的区域 B 进行。所有模型均从相同的仅针对 A 的 SFT 策略初始化。


