TwinRL-VLA：基于数字孪生的强化学习在现实世界机器人操作中的应用

Ne0inhk

24 Mar 2026 — 20 min read

26年2月来自北大、Simplexity Robotics、清华和港科大的论文“TwinRL-VLA: Digital Twin-Driven Reinforcement Learning for Real-World Robotic Manipulation”。

尽管视觉-语言-动作（VLA）模型具有强大的泛化能力，但仍受限于专家演示的高昂成本和现实世界交互的不足。在线强化学习（RL）在改进通用基础模型方面展现出潜力，但将其应用于现实世界中的VLA操作仍受到探索效率低下和探索空间受限的制约。系统的真实世界实验看到，在线RL的有效探索空间与监督微调（SFT）的数据分布密切相关。基于此，TwinRL框架，旨在扩展和指导VLA模型探索的数字孪生-现实世界协同强化学习。首先，利用智能手机拍摄的场景高效地重建高保真数字孪生，从而实现真实环境和模拟环境之间逼真的双向迁移。在SFT预热阶段，引入一种利用数字孪生扩展探索空间的策略，以拓宽数据轨迹分布的支持范围。基于这种增强的初始化方法，提出一种从仿真-到-真实的引导式探索策略，以进一步加速在线强化学习。具体而言，TwinRL 在部署之前，在数字孪生模型中高效并行地执行在线强化学习，有效地弥合离线和在线训练阶段之间的差距。随后，利用高效的数字孪生采样来识别易出错但信息丰富的配置，这些配置用于指导在真实机器人上进行有针对性的人机交互部署。在实验中，TwinRL 在真实世界演示覆盖的分布区域和非分布区域均接近 100% 的成功率，相比以往的真实世界强化学习方法，速度至少提升 30%，并且在四个任务中平均仅需约 20 分钟。

本文提出一种从仿真-到-真实的引导式探索策略，以进一步加速在线强化学习。如图 a) 所示，TwinRL 首先在数字孪生中高效并行地执行强化学习部署，生成存储在回放缓冲区中的在线交互数据。当应用于真实世界的强化学习时，该策略利用强化学习风格的专家轨迹丰富回放缓冲区，并弥合从离线学习到在线学习的过渡，从而减少性能下降和训练不稳定性。此外，回放缓冲区中性能良好配置的部署可以防止高精度行为的灾难性遗忘。另外，数字孪生能够高效地识别易出错但信息丰富的对象配置，这些配置随后被用于指导真实机器人上有针对性的硬件在环 (HiL) 部署，从而显著加速探索。如图 b) 所示，在四个操作任务上评估 TwinRL，所有任务均基于相同的 VLA 骨干网 [41]。在 SFT 阶段，与仅使用真实世界演示进行训练相比，探索空间扩展策略将平均成功率提高 42%。在在线强化学习过程中，TwinRL 在真实世界演示覆盖的分布内区域和 OOD 区域中均取得 100% 的成功率，相比之前的真实世界强化学习方法 [8, 39] 至少提高 30% 的速度，并且在四个任务中平均仅需约 20 分钟。

初步知识

视觉-语言-动作 (VLA) 策略动作生成。VLA 策略 π_θ 将语言指令 l 和多视图图像 I_t = {I^side_t, I^wrist_t} 映射到每个时间步 t 的 7 自由度末端执行器动作 a_t ∼ π_θ (a_t | I_t , l)。动作 a_t = (∆p_t , ∆r_t , g_t ) 定义末端执行器的相对运动，包括 3D 平移量 ∆p_t、3D 旋转量 ∆r_t 和二元夹爪状态 g_t ∈ {0, 1}。将展开轨迹表示为 τ = {(I_t , l, a_t )}，该轨迹在任务成功或达到时间限制时终止。

强化策略。继之前的研究[8, 39]之后，强化学习（RL）作为一种交互式的训练后范式，利用环境反馈来优化细粒度的操作，并通过探索来扩大状态覆盖范围。机器人强化学习可以建模为马尔可夫决策过程 (MDP) M = {S, A, ρ, P, r, γ}，其中 s ∈ S 表示状态观测值，a ∈ A 表示动作，ρ(s_0) 是初始状态分布，P 是未知且可能随机的状态转移动态，r : S × A → R 是奖励函数，γ ∈ (0, 1] 是折扣因子。在此设定下，为了评估策略 π 的性能，定义状态-值函数和动作-值函数。

将最优策略 π∗ 定义为最大化从 (ρ, P, π) 分布中采样的轨迹 τ 的预期收益的策略。π_θ(a | s) 由神经网络参数化，并且可以建模为高斯分布以实现连续控制。

动机

尽管在线强化学习为提升任务鲁棒性提供一条探索途径，但其在物理硬件上的采样效率仍然是一个挑战。受通用领域研究[61]的启发，在真实世界的VLA强化学习中，探索实际上受到SFT过程中产生的轨迹分布空间支持限制。这种限制引入双重瓶颈：（1）它限制可以可靠探索的状态集；（2）即使有人工干预，它也显著降低在线强化学习的效率。

实验设置。如图(a)所示，用一个需要高位置精度的精确块插入任务进行所有实验。所有策略均基于Octo[41]模型实例化。将工作空间划分为分布内区域A（由演示覆盖）和分布外区域B（在SFT过程中未被观察到）。

瓶颈一：改变SFT演示的空间覆盖范围，以隔离其对策略泛化和自主在线强化学习的影响。具体而言，比较两种训练数据分布：（i）仅包含来自区域A的30个演示，以及（ii）包含来自区域B的30个数字孪生演示的A+B分布。首先评估所得SFT策略的空间泛化能力。为了衡量演示覆盖范围如何影响有效探索空间，用仅包含区域A的SFT模型初始化策略，并在未见过的区域B中运行自主在线强化学习。

结果一：如上图(b)所示，在每个网格单元内执行10次展开测试。在区域B中，A+B策略的成功率达到62.5%，而仅包含区域A的策略仍然局限于区域A（在区域B中为0%）。该结果表明，标准SFT策略对空间未覆盖区域的外推能力有限。更重要的是，仅使用A区域的模型尝试在B区域进行自主在线强化学习会导致明显的探索死锁。在OOD配置下初始化时，即使经过4万步训练（约两小时），该策略也无法持续获得正奖励。这种现象与文献[8]类似，其中回放缓冲区被失败轨迹占据，导致自主适应几乎无效。这些结果表明，与通用领域工作[61]的发现一致，在线强化学习的有效探索空间与SFT数据的空间覆盖范围密切相关。

瓶颈二：为了缓解探索死锁，可以引入人-机交互（HiL）来引导机器人成功完成任务[39]。然而，一个重要的问题仍然存在：在OOD设置下，人机交互能否保证有效的在线适应？为了检验这一点，比较两种设置：分布内后训练（In-distribution Post-training），其中在线强化学习在熟悉的区域 A 进行；以及分布外后训练（OOD Post-training），其中在线强化学习在不熟悉的区域 B 进行。所有模型均从相同的仅针对 A 的 SFT 策略初始化。

结果二：尽管人工干预在两种设置下均提供成功的纠正性演示，但样本效率存在显著差异。如上图 © 所示，分布内后训练适应迅速，在大约 45 分钟（约 14k 次交互）内即可达到 90% 以上的成功率。相比之下，分布外后训练的收敛速度明显更慢，并且在相同的交互预算下表现出更大的不稳定性，无法达到类似的性能。这些结果表明，即使引入人机交互（HiL）方案，由于不利的奖励环境和数据缓冲区中不平衡的数据分布，在之前未见过的区域 B 中进行学习仍然具有挑战性，这两者都会显著降低梯度效率。

结论：这些观察结果表明，克服这两个瓶颈需要在真实世界交互之前扩展探索范围，并引导人工干预以系统地提高在线效率。基于此，提出 TwinRL，这是一个数字孪生-真实世界协作强化学习框架，它在 SFT 和在线强化学习阶段都使用数字孪生作为高效的探索放大器和指导。

探索空间扩展策略

数字孪生构建。构建目标操作环境的高保真数字孪生，作为TwinRL中探索先验扩展的主要基础。该数字孪生模型通过以下方式快速实例化：首先，利用3DGS工具[23]重建场景（约10分钟）；其次，利用SAM3D[7]重建可操作物体（约5秒）；最后，利用URDF模型重建机器人。所有组件均统一为基于网格的资源，以便在Blender中进行运动学组装和高效渲染。为了实现双向知识迁移，在视觉和机器人状态两个层面上将数字孪生与真实环境进行对齐。对齐基于URDF定义的机器人坐标系：首先通过点云配准（例如ICP[2]）获得粗略匹配，然后使用可微分的3DGS渲染[58]对其进行细化，以使渲染结果与真实观测结果对齐，从而获得一致的坐标系。数字孪生模型并非采用完整的物理仿真，而是使用优先考虑视觉-几何一致性的运动学交互模型[60]。采用以对象为中心的表示方法，利用AnyGrasp[11]估计被操作对象的6自由度抓取姿态，从而定义对象与末端执行器之间的关系。从一条成功的对象轨迹出发，通过逆运动学、运动规划或仿射变换生成多种不同的执行轨迹。
探索放大器。在预热阶段，将数字孪生模型视为探索放大器，通过丰富轨迹多样性来扩展后续在线强化学习的有效探索空间。如图第一阶段所示，通过改变对象的初始配置、目标姿态和运动路径，生成超越真实演示的多种以对象为中心的合成轨迹。给定物体的初始姿态 T_0 和期望目标姿态 T_target，估计一个与任务一致的抓取姿态 T_grasp，并推导出边界末端执行器姿态。

中间轨迹通过运动规划生成，或者通过对单个演示轨迹应用仿射变换生成，从而确保轨迹质量。值得注意的是，对于一个 30 步的任务，在并行处理的情况下，只需要大约 1 分钟即可构建一组数字孪生演示。为了将这些增强的行为内化，通过最小化模仿学习损失，在合并缓冲区 D 上执行 SFT 阶段。用数字孪生不仅是为了缓解分布外区域中的探索死锁，也是为了收集额外的分布内数据，从而缩小仿真与真实之间的差距。

仿真-到-真实引导探索

尽管该方法扩展VLA模型在SFT阶段的探索支持，但由于两个关键瓶颈，直接在真实机器人上启动在线强化学习仍然并非易事。首先，监督演示数据D_sft与强化学习风格的专家轨迹D_rl之间的分布不匹配会导致离线到在线过渡期间严重的性能下降和Q值不稳定。其次，人在环（HiL）引导的在线强化学习仍然需要较高的样本复杂度，并且严重依赖于操作人员的专业知识。为了应对这些挑战，用数字孪生作为并行计算引擎，并引入一个孪生在线强化学习阶段以及一种故障感知探索机制，将现实世界的探索转化为一个更具针对性和样本效率的过程。
孪生在线强化学习阶段。如上图第二阶段所示，为了弥合演示数据和强化学习风格交互数据之间的分布差距，首先在数字孪生中执行并行在线强化学习。在此阶段，策略 π_ψ 由 SFT 模型初始化，并通过与 N 个并行孪生环境的交互进行训练。受 ConRFT [8] 的启发，采用一种联合目标函数，该函数将强化学习与基于模仿的正则化项相结合，以稳定基于孪生环境在线交互过程中的策略更新。该目标函数被定义：

L^twin_π(ψ) = β L^IL_π + η L^Q_π,

通过此过程，孪生在线强化学习阶段高效地收集各种轨迹 τ_twin，包括成功执行、失败和恢复行为，并将其存储在孪生回放缓冲区 D_twin 中。值得注意的是，并行处理能够在大约 1 分钟内生成一组展开（例如，每个回合 30 步）。由于演示数据和强化学习风格的交互数据之间存在分布差异，早期在线学习可能会出现不稳定。因此，在数字孪生中高效完成在线学习后，使用从孪生缓冲区传输的数据初始化真实世界的回放缓冲区 D_init ← D。通过提供更均衡的训练信号，真实世界的孪生回放缓冲区可以减少训练的不稳定性，并缓解从离线 SFT 过渡到真实世界在线学习时初始训练阶段的性能下降。此外，该策略有助于防止在后续有针对性 HiL 引导的在线强化学习中，那些已经表现出良好性能的配置出现灾难性遗忘。

真实世界在线强化学习。如上图第三阶段所示，利用数字孪生识别状态空间中易出错的区域，并指导真实世界在线强化学习的初始状态分布。与以往依赖于真实世界部署的基于课程或重置策略[39]不同，数字孪生能够在不消耗物理交互预算的情况下，对各种初始配置下的策略性能进行低成本且系统化的评估。具体而言，在数字孪生中评估当前策略，并构建一个目标初始配置集 S_target = { s_0 | SR(s_0) < τ }，其中 SR(s_0) 表示从状态 s_0 开始的经验成功率，τ 为熟练度阈值。在真实世界的在线交互过程中，优先从 S_target 中选择重置，从而使学习过程能够将有限的物理交互预算集中在具有挑战性的状态上。为了进一步降低探索挑战区域的成本和风险，在真实机器人训练过程中引入人在环 (HiL) 机制[39]。最终得到的干预轨迹存储在回放缓冲区中，并用于后续的策略更新。与现有的基于人在环（HiL）的方法不同，其引入一种指导机制，其中数字孪生能够告知在真实世界的强化学习过程中，何时何地应该应用HiL干预。

实验装置

硬件平台。为了进行真实世界操作，用一台7自由度的Franka Emika Research 3 (FR3)机器人进行系统实验。装置配备双摄像头感知系统，包括一个用于全局上下文的固定第三人称视角摄像头和一个用于获取精细细节的腕部摄像头。

TwinRL 的实际部署基于模块化机器人平台，该平台旨在支持精确操作和高效的在线强化学习 (RL)，并减少人为干预。所有实验均在配备 3D 打印 UMI 夹爪 [10] 的 7 自由度 Franka Emika Research 3 (FR3) 机械臂上进行，该机械臂能够实现精确的笛卡尔坐标末端执行器控制，从而完成接触密集型、高精度操作任务。如图所示，采用双摄像头传感设置，为感知和控制提供丰富的视觉反馈。一个固定的第三人称视角 RGB 摄像头（Intel RealSense D455）用于捕捉工作空间的全局视图，而一个腕部视角 RGB 摄像头（Intel RealSense D435）则安装在末端执行器上，用于提供近距离观察。在每个时间步，观察结果包含两幅 RGB 图像：一幅来自腕部视角摄像头（调整为 128 × 128 像素），另一幅来自第三人称视角摄像头（调整为 256 × 256 像素）。

所有真实世界的演示和人机交互（HiL）均通过使用 3D Space Mouse 进行远程操作来收集，这使得操作人员能够在在线学习过程中提供高质量的专家轨迹以及有针对性的纠正干预。为了确保公平比较，所有方法均使用相同的硬件、传感和控制软件进行评估 [44]。真实世界在线强化学习的执行者和学习者进程运行在配备 NVIDIA GeForce RTX 4090 GPU 的工作站上，支持策略推理和异步训练。监督微调（SFT）阶段在配备 NVIDIA A100 GPU（80GB）的服务器上离线执行。

实验流程。如图所示，将每个任务工作空间离散化为一个网格，并根据任务完成时被操作对象的中心位置，将每个episode分配到一个网格单元中。图中，红色区域表示（1）由收集的真实世界演示数据覆盖的分布内（ID）区域，而蓝色区域表示（2）未被真实世界数据覆盖的分布外（OOD）区域。虽然使用覆盖ID和OOD区域的数字孪生数据来增强SFT，但目标是证明数字孪生可以作为真实世界数据未覆盖区域的在线强化学习有效放大器和指导。

真实世界实验

实现细节和基线。为了确保公平比较，严格控制所有方法对真实世界演示数据的使用。HiL-SERL [39] 将策略直接部署到物理机器人上，以执行人机交互 (HiL) 在线强化学习 (RL) 训练。ConRFT [8] 是一个强大的基线，它利用来自 ID 区域的 30 个真实世界演示；它首先经过第一阶段 Cal-ConRFT [8]，然后在真实世界中进行 HiL 在线 RL 微调。所有损失监督均遵循官方论文。本文方法使用相同的 30 个真实世界演示，并通过在 ID 区域添加 60 条合成轨迹和在 OOD 区域添加 30 条合成轨迹，进一步利用数字孪生作为探索放大器。报告两个变型：无缓冲区 TwinRL 和 TwinRL。它们之间的区别在于是否使用通过数字孪生中的并行在线强化学习收集的孪生回放缓冲区来初始化真实世界人机交互（HiL）在线强化学习之前的训练。对于所有方法，都使用至少 10 次随机抽样的展开试验来评估每个区域。

TwinRL-VLA：基于数字孪生的强化学习在现实世界机器人操作中的应用

Ne0inhk

初步知识

动机

探索空间扩展策略

仿真-到-真实引导探索

实验装置

真实世界实验

Read more

GitHub Copilot 调用第三方模型API

DeerFlow 2.0开源

dify平台集成OCR：低代码+AI模型打造智能表单识别系统

智能家居集成终极指南：快速掌握设备连接与自动化配置