TwinRL-VLA：数字孪生驱动的机器人强化学习与真实世界应用

近期，北大、Simplexity Robotics、清华及港科大联合发表了论文《TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation》。尽管视觉 - 语言 - 动作（VLA）模型具备强大的泛化能力，但在实际应用中仍受限于专家演示的高昂成本和现实交互的不足。在线强化学习（RL）虽能改进基础模型，却面临探索效率低和空间受限的问题。

实验表明，真实世界中 RL 的有效探索空间与监督微调（SFT）的数据分布紧密相关。为此，TwinRL 框架提出了一种数字孪生与现实世界协同的强化学习方案。该框架首先利用智能手机拍摄场景重建高保真数字孪生，实现虚实环境的双向迁移。在 SFT 预热阶段，通过数字孪生扩展探索空间，拓宽数据轨迹分布；随后采用仿真到真实的引导式探索策略，加速在线 RL 进程。

核心机制

探索空间扩展

构建高保真数字孪生是基础。流程包括：

场景重建：利用 3DGS 工具（约 10 分钟）重建场景，SAM3D 重建物体（约 5 秒），URDF 重建机器人。
对齐与渲染：统一为网格资源，基于 URDF 坐标系进行点云配准与可微分 3DGS 渲染细化，确保视觉与状态一致。
运动学交互：采用对象为中心的表示，利用 AnyGrasp 估计抓取姿态，生成多种执行轨迹。

在预热阶段，数字孪生充当'探索放大器'。通过改变初始配置、目标姿态等，生成超越真实演示的合成轨迹。对于 30 步任务，并行处理仅需约 1 分钟即可构建一组演示。这些增强行为被内化到合并缓冲区中，用于 SFT 训练，既缓解分布外区域的探索死锁，也缩小了仿真与真实的差距。

图片描述

仿真到真实引导探索

直接在物理硬件上启动在线 RL 仍面临两大瓶颈：一是离线演示与在线交互数据的分布不匹配导致性能下降；二是人在环（HiL）引导需要较高样本复杂度。

TwinRL 引入孪生在线 RL 阶段作为并行计算引擎：

联合目标函数：结合强化学习与模仿学习正则项，稳定策略更新。 $$ L_{twin_\pi}(\psi) = \beta L_{IL_\pi} + \eta L_{Q_\pi} $$
缓冲区初始化：将孪生环境中收集的成功、失败及恢复轨迹存入回放缓冲区，用其初始化真实世界的缓冲区，减少训练不稳定性并防止灾难性遗忘。

在真实世界交互中，优先从数字孪生识别出的易出错区域选择重置，将有限的物理预算集中在挑战性状态。同时引入 HiL 机制，由数字孪生指导干预时机，显著降低探索成本。

图片描述

实验设置与结果

硬件平台

实验使用 7 自由度 Franka Emika Research 3 (FR3) 机械臂，配备双摄像头系统（Intel RealSense D455 全局视角 + D435 腕部视角）。操作通过 3D Space Mouse 远程收集，确保公平比较。训练工作站配备 NVIDIA RTX 4090 GPU，SFT 阶段在 A100 服务器上进行。

实验流程

工作空间被离散化为网格，分为分布内（ID）区域（红色，覆盖真实演示）和分布外（OOD）区域（蓝色）。目标是证明数字孪生可作为未覆盖区域的在线 RL 有效放大器。

图片描述

关键发现

SFT 阶段：相比仅用真实演示，加入数字孪生扩展策略后，平均成功率提升 42%。
在线 RL 阶段：在 ID 和 OOD 区域均达到接近 100% 的成功率。相比以往方法，速度提升至少 30%，四个任务平均耗时约 20 分钟。

TwinRL-VLA：数字孪生驱动的机器人强化学习与真实世界应用