近期,来自北大、Simplexity Robotics、清华和港科大的团队提出了一种名为 TwinRL-VLA 的新框架,旨在解决视觉 - 语言 - 动作(VLA)模型在现实世界机器人操作中面临的挑战。尽管 VLA 模型具备强大的泛化能力,但专家演示的高昂成本和现实交互的不足限制了其发展。在线强化学习(RL)虽能改进基础模型,但在真实环境中常受限于探索效率低下和空间受限。
核心动机与问题
实验表明,在线 RL 的有效探索空间与监督微调(SFT)的数据分布密切相关。这带来了两个主要瓶颈:
- 探索死锁:标准 SFT 策略对未覆盖区域的外推能力有限,导致在分布外(OOD)配置下初始化时,即使经过长时间训练也无法获得正奖励。
- 样本效率低:即使在 OOD 设置下引入人机交互(HiL),由于不利的奖励环境和数据分布不平衡,收敛速度依然缓慢且不稳定。
为克服这些限制,TwinRL 框架利用数字孪生作为高效的探索放大器和指导工具,在 SFT 和在线 RL 阶段协同工作。
技术实现细节
数字孪生构建
首先,利用 3DGS 工具重建场景,SAM3D 重建可操作物体,并结合 URDF 模型重建机器人。所有组件统一为基于网格的资源,以便在 Blender 中进行运动学组装。为了实现双向知识迁移,通过点云配准和可微分渲染将数字孪生与真实环境在视觉和状态层面进行对齐。值得注意的是,该模型采用优先考虑视觉 - 几何一致性的运动学交互模型,而非完整的物理仿真。
探索空间扩展策略
在预热阶段,数字孪生充当探索放大器。通过改变对象的初始配置、目标姿态和运动路径,生成超越真实演示的合成轨迹。例如,给定物体的初始姿态和目标姿态,估计抓取姿态并推导边界末端执行器姿态。中间轨迹可通过运动规划或仿射变换生成。这种并行处理使得在约 1 分钟内即可构建一组数字孪生演示,并通过最小化模仿学习损失内化这些行为。
仿真到真实的引导探索
为了弥合离线 SFT 与在线 RL 之间的分布差距,TwinRL 首先在数字孪生中执行并行在线强化学习。策略由 SFT 模型初始化,通过联合目标函数稳定更新:
$$L_{twin_\pi}(\psi) = \beta L_{IL_\pi} + \eta L_{Q_\pi}$$
此过程收集成功、失败及恢复行为的轨迹,存储在孪生回放缓冲区中。随后,利用这些数据初始化真实世界的回放缓冲区,减少训练不稳定性并防止灾难性遗忘。
在真实世界交互中,数字孪生用于识别易出错的状态区域,构建目标初始配置集 $S_{target}$。优先从这些挑战性状态开始重置,使有限的物理交互预算集中在关键区域。同时引入 HiL 机制,由数字孪生告知何时何地应进行干预,从而显著加速探索。
实验设置与结果
硬件平台采用 7 自由度 Franka Emika Research 3 (FR3) 机械臂,配备双摄像头系统(第三人称视角 Intel RealSense D455 和腕部视角 Intel RealSense D435)。所有演示和 HiL 均通过 3D Space Mouse 远程操作收集。
实验将工作空间离散化为网格,分为分布内(ID)和分布外(OOD)区域。对比基线包括 HiL-SERL 和 ConRFT。TwinRL 使用相同的 30 个真实世界演示,并额外利用数字孪生生成的合成轨迹。
结果显示:
- 在 SFT 阶段,探索空间扩展策略将平均成功率提高了 42%。
- 在在线 RL 过程中,TwinRL 在 ID 和 OOD 区域均取得接近 100% 的成功率。
- 相比以往的真实世界 RL 方法,速度至少提升 30%,四个任务平均仅需约 20 分钟。







