研究背景与核心问题
预训练视觉 - 语言模型(VLM)如何影响下游视觉 - 语言 - 动作(VLA)模型的性能?这是一个基础但常被忽视的问题。当前 VLA 研究多聚焦于网络架构、训练范式或动作解码方案的改进,却鲜少系统评估 VLM 骨干本身的影响。本文旨在填补这一空白,通过公平对比不同 VLM 在机器人控制任务上的表现,揭示其内在规律。
方法创新:VLM4VLA 框架
团队提出了一种最小化适配管道——VLM4VLA。它仅需引入不到 1% 的新参数,即可将通用 VLM 转换为 VLA 策略。核心设计包括简洁的 Action Query Token 提取机制、统一的确定性损失函数(Huber + CE),以及严格的输入标准化(224×224)。该框架排除了本体感知等额外模态,确保直接评估 VLM 的内在视觉 - 语言能力。尽管结构简单,其在基准测试中的表现已能与 pi0 等复杂设计相媲美。
实验设置与评估基准
我们在三个模拟环境中进行了广泛评估:Calvin ABC-D(跨域泛化)、SimplerEnv Bridge(真实数据到模拟)、Libero-Long(长时程任务)。共测试了 9 种开源 VLM(1B-10B 参数范围),涵盖 QwenVL、Paligemma 和 Kosmos-2 系列。
关键发现
VLM 通用能力与 VLA 性能的关系
预训练 VLM 显著优于从零训练的策略,但通用 VQA 能力并非可靠的性能预测指标。在 Calvin 环境中两者相关性较高,但在 Simpler/Libero 中几乎不存在。值得注意的是,模型规模不决定性能,最小的 Kosmos-2(1.7B) 在某些任务上甚至超越了更大的 QwenVL 模型。
辅助具身任务微调的影响
在 7 种辅助具身任务(如视觉指向、深度估计)上微调 VLM,结果普遍不如原始基线。提高特定具身技能表现并不能保证改善下游控制。混合训练(通用 VQA+ 具身任务)效果最佳,表明 VLA 需要广泛的能力而非单一技能的强化。
模态级消融分析
视觉编码器至关重要,冻结它会导致性能大幅下降(Paligemma-1 下降 42%)。相比之下,冻结词嵌入影响微弱。参数数量也不等于性能,冻结大模型的视觉编码器后,性能可能低于完全微调的小模型。
视觉表征差距
深入分析显示,VLM 到 VLA 的差距源于真实图像与模拟渲染的差异,以及任务目标的不匹配(语言优化 vs 动作控制)。即使使用真实世界图像训练,冻结视觉编码器仍导致性能下降,证明这是视觉 - 语言理解与动作控制之间的根本性鸿沟。
理论解释与洞察
VLM 和 VLA 的表征学习在初期轨迹相似,随后分叉至不同区域。这解释了为何预训练必不可少(初始方向一致),而简单微调难以弥合差距(后期学习目标差异)。
贡献与启示
本研究提出了公平评估框架,揭示了 VLM 通用能力与 VLA 性能的脱节,并确认视觉编码器是核心瓶颈。这对领域有重要启示:当前 VLM 预训练目标需重新思考,视觉表征需专业化设计,未来的研究方向应更关注视觉编码器的适配及控制相关监督的注入。
局限性与未来方向
目前仅在模拟环境中验证,缺乏物理机器人实测。未探索多视角输入和时序建模的影响。未来需开发专为具身控制设计的预训练方法,平衡通用能力与特定控制需求。
总结
VLM4VLA 研究揭示了 VLM 与 VLA 之间的关键差距,特别是视觉表征方面的不匹配。当前 VLM 预训练虽为 VLA 提供了必要基础,但其表征与控制任务需求存在本质差异。这一发现挑战了'更强的通用 VLM 必然带来更好的 VLA'的假设,为未来研究指明了新方向——需要专门设计适应具身控制任务的视觉表征学习方法。

