TwinRL-VLA:数字孪生驱动的机器人强化学习与真实世界应用
近期,北大、Simplexity Robotics、清华及港科大联合发表了论文《TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation》。尽管视觉 - 语言 - 动作(VLA)模型具备强大的泛化能力,但在实际应用中仍受限于专家演示的高昂成本和现实交互的不足。在线强化学习(RL)虽能改进基础模型,却面临探索效率低和空间受限的问题。
实验表明,真实世界中 RL 的有效探索空间与监督微调(SFT)的数据分布紧密相关。为此,TwinRL 框架提出了一种数字孪生与现实世界协同的强化学习方案。该框架首先利用智能手机拍摄场景重建高保真数字孪生,实现虚实环境的双向迁移。在 SFT 预热阶段,通过数字孪生扩展探索空间,拓宽数据轨迹分布;随后采用仿真到真实的引导式探索策略,加速在线 RL 进程。
核心机制
探索空间扩展
构建高保真数字孪生是基础。流程包括:
- 场景重建:利用 3DGS 工具(约 10 分钟)重建场景,SAM3D 重建物体(约 5 秒),URDF 重建机器人。
- 对齐与渲染:统一为网格资源,基于 URDF 坐标系进行点云配准与可微分 3DGS 渲染细化,确保视觉与状态一致。
- 运动学交互:采用对象为中心的表示,利用 AnyGrasp 估计抓取姿态,生成多种执行轨迹。
在预热阶段,数字孪生充当'探索放大器'。通过改变初始配置、目标姿态等,生成超越真实演示的合成轨迹。对于 30 步任务,并行处理仅需约 1 分钟即可构建一组演示。这些增强行为被内化到合并缓冲区中,用于 SFT 训练,既缓解分布外区域的探索死锁,也缩小了仿真与真实的差距。
仿真到真实引导探索
直接在物理硬件上启动在线 RL 仍面临两大瓶颈:一是离线演示与在线交互数据的分布不匹配导致性能下降;二是人在环(HiL)引导需要较高样本复杂度。
TwinRL 引入孪生在线 RL 阶段作为并行计算引擎:
- 联合目标函数:结合强化学习与模仿学习正则项,稳定策略更新。 $$ L_{twin_\pi}(\psi) = \beta L_{IL_\pi} + \eta L_{Q_\pi} $$
- 缓冲区初始化:将孪生环境中收集的成功、失败及恢复轨迹存入回放缓冲区,用其初始化真实世界的缓冲区,减少训练不稳定性并防止灾难性遗忘。
在真实世界交互中,优先从数字孪生识别出的易出错区域选择重置,将有限的物理预算集中在挑战性状态。同时引入 HiL 机制,由数字孪生指导干预时机,显著降低探索成本。
实验设置与结果
硬件平台
实验使用 7 自由度 Franka Emika Research 3 (FR3) 机械臂,配备双摄像头系统(Intel RealSense D455 全局视角 + D435 腕部视角)。操作通过 3D Space Mouse 远程收集,确保公平比较。训练工作站配备 NVIDIA RTX 4090 GPU,SFT 阶段在 A100 服务器上进行。
实验流程
工作空间被离散化为网格,分为分布内(ID)区域(红色,覆盖真实演示)和分布外(OOD)区域(蓝色)。目标是证明数字孪生可作为未覆盖区域的在线 RL 有效放大器。
关键发现
- SFT 阶段:相比仅用真实演示,加入数字孪生扩展策略后,平均成功率提升 42%。
- 在线 RL 阶段:在 ID 和 OOD 区域均达到接近 100% 的成功率。相比以往方法,速度提升至少 30%,四个任务平均耗时约 20 分钟。


