RoVer：机器人奖励模型作为 VLA 模型的测试时验证器

介绍 RoVer，一种基于机器人过程奖励模型（PRM）的测试时验证框架，用于增强视觉 - 语言 - 动作（VLA）模型性能。RoVer 在不修改 VLA 架构或权重的情况下，通过缓存共享感知特征并评分候选动作来实现测试时规模化。实验表明，该方法在 GR-1、Dita 和 MoDE 等骨干网络上均能带来显著的性能提升，且方向引导采样比随机采样更高效。

山野诗人发布于 2026/4/6更新于 2026/7/1546 浏览

视觉 - 语言 - 动作（VLA）模型已成为具身智能领域的重要范式，然而，性能的进一步提升通常依赖于训练数据和模型规模的扩展——这种方法对于机器人技术而言成本过高，并且从根本上受到数据采集成本的限制。利用 RoVer 解决这一限制。RoVer 是一个具身化的测试 - 时规模化框架，它使用机器人过程奖励模型（PRM）作为测试 - 时验证器，在不修改现有 VLA 模型架构或权重的情况下增强其性能。具体而言，RoVer (i) 分配基于标量的进程奖励来评估候选动作的可靠性，以及 (ii) 预测候选动作扩展/细化的动作空间方向。在推理过程中，RoVer 从基础策略同时生成多个候选动作，沿着 PRM 预测的方向扩展这些动作，然后使用 PRM 对所有候选动作进行评分，以选择最优动作执行。值得注意的是，通过缓存共享感知特征，该方法可以分摊感知成本，并在相同的测试时间计算预算下评估更多候选对象。本质上，该方法有效地将可用计算资源转化为更优的动作决策，在不增加额外训练开销的情况下实现了测试 - 时间规模化的优势。

视觉 - 语言 - 动作模型中的测试 - 时规模化

内部测试 - 时规模化

近期研究增强视觉 - 语言 - 动作模型（VLA）在推理阶段的内部思考：具身思维链（CoT）方法在动作生成之前强制执行多步骤推理，以改进任务分解和规划，通常通过扩展训练数据集并添加推理标注来实现。CoT-VLA 和 UniVLA 在推理过程中加入未来帧预测；OneTwo-VLA 使用 token 自适应地决定何时进行推理，何时进行动作。然而，上述大部分工作都需要对训练数据集进行额外的标注。

外部测试 - 时规模化

与在策略内部进行推理的内部 TTS 不同，外部 TTS 通过引入一个独立的奖励/价值验证器，将搜索和评分与策略解耦。该验证器在推理阶段评估候选动作，从而在不修改骨干权重的情况下指导候选生成。目前已有研究探索这一方向：Hume 使用价值头增强双系统 VLA，以驱动重复采样和级联去噪；而 RoboMonkey 则研究大规模骨干网络和合成数据的奖励建模。

本文用外部过程奖励模型（PRM）增强冻结的 VLA。给定观测数据、语言信息和候选动作，PRM 会输出一个标量分数和一个改进方向。在推理阶段，策略建议通过在一定角度范围内沿预测方向进行采样来扩展，并执行 PRM 下得分最高的动作。观测数据、语言信息和状态特征在每个步骤中计算一次并缓存，以便在候选动作之间重复使用。

![图片]

测试 - 时规模化。给定一个基础策略 $\pi_\theta$ 和一个验证器 $R_\phi$，从 $\pi_\theta$ 中获取策略动作 $a_p$，并通过高斯噪声采样将其扩展为候选集 $A = {a_0 = a_p, a_1, a_2, \dots}$。PRM 验证器 $R_\phi$ 使用 $r_i = R_\phi(h, a_i)$ 对每个候选动作进行评分，然后执行 $a^* = \arg\max r(h, a)$。

RoVer

RoVer 使用紧凑型过程奖励模型 (PRM) 实现外部测试 - 时规模化，该模型对候选动作进行评分，并预测动作子空间中的细化方向。对于在局部坐标系中定义的策略，动作在扩展和评分之前会映射到世界坐标系。

模型架构

$R_\phi$ 接收同步的多模态输入 $o_t$（例如，第三人称视角和手眼 RGB 图像、机器人状态和语言 token）以及候选动作 $a_i$，并输出标量过程奖励 $r_i$ 和动作空间方向 $d_i$。该模型架构遵循 GPT-2 风格，并使用 GR-1 的预训练权重进行初始化。具体来说，图像编码器由预训练的 MAE 模型初始化，文本编码器由 CLIP 文本编码器初始化。该架构原则上支持最多 10 个时间步的历史数据作为输入。然而，为了更好地实现即插即用和加快推理速度，将输入限制为当前时间步的观测值。在初始化的主干网络之上，添加用于奖励和方向预测的额外节点。由于所有候选动作在控制步骤中共享相同的观测值、语言和状态，计算这些感知特征一次，并将其作为共享感知缓存在所有候选动作之间重复使用，同时对每个候选动作进行编码以分摊计算量。与 RoboMonkey 中微调 70 亿参数的主干网络相比，RoVer 总共需要 2 亿个参数，训练仅需 4000 万个参数。

![图片]

动作放大器

为了使候选动作之间的细微差异更加清晰可辨，在将动作嵌入与观察/语言 token 融合之前，对其应用了一个轻量级的动作放大器。该放大器是一个紧凑的多层感知器（MLP），采用 GELU 和 LayerNorm 映射，重新调整动作通道，使得动作子空间中的细粒度差异在强大的冻结感知/语言骨干网络下仍然显著。这种对比度增强器提高 PRM 区分和排序相邻动作的能力，同时将推理开销降至最低。

模型训练

奖励模型 $R_\phi$ 的训练目标是使其能够区分两个候选动作中哪一个更优。在 RoVer 中，如果一个动作与专家动作的均方根误差 (RMSE) 距离小于另一个动作，则认为该动作更优。为了准备训练数据，首先分析策略动作 $A_p$ 和专家动作样本 $A_e$ 之间的分布差距。基于此分析，设定一个基准噪声尺度 $\sigma_{base} = 0.1$，并用它来构建锚动作 $a_{anc}$。给定专家演示 $h$，围绕 $a_e$ 构建局部动作元组，以获得信息丰富的偏好标签和方向监督。

方向引导和锚点中心采样

在早期实验中，简单地围绕 $a_e$ 对噪声专家动作进行采样会导致性能不佳。为了更好地模拟测试时的采样行为，引入锚动作的概念。通过扰动 6D 姿态子空间中的专家动作来构建锚点噪声。然后，定义从锚点动作到专家动作的真实方向向量 $u_{gt}$，利用 $u_{gt}$，定义正交超平面，该超平面将空间划分为两个半空间。

RoVer：机器人奖励模型作为 VLA 模型的测试时验证器

视觉 - 语言 - 动作模型中的测试 - 时规模化

内部测试 - 时规模化

外部测试 - 时规模化

RoVer

模型架构

动作放大器

模型训练

方向引导和锚点中心采样

更多推荐文章

相关免费在线工具

监督与目标

方向引导的测试 - 时规模化

实验设置

基线方法

Q1：与骨干无关的性能提升

Q2：方向引导的测试 - 时规模化

Q3：共享感知缓存的影响

更多推荐文章

相关免费在线工具

RoVer：机器人奖励模型作为 VLA 模型的测试时验证器

视觉 - 语言 - 动作模型中的测试 - 时规模化

内部测试 - 时规模化

外部测试 - 时规模化

RoVer

模型架构

动作放大器

模型训练

方向引导和锚点中心采样

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

监督与目标

方向引导的测试 - 时规模化

实验设置

基线方法

Q1：与骨干无关的性能提升

Q2：方向引导的测试 - 时规模化

Q3：共享感知缓存的影响

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具