VLM4VLA：重新审视视觉 - 语言模型在具身智能中的表现

研究背景与核心问题

预训练视觉 - 语言模型（VLM）如何影响下游视觉 - 语言 - 动作（VLA）模型的性能？这是一个基础但常被忽视的问题。当前 VLA 研究多聚焦于网络架构、训练范式或动作解码方案的改进，却鲜少系统评估 VLM 骨干本身的影响。本文旨在填补这一空白，通过公平对比不同 VLM 在机器人控制任务上的表现，揭示其内在规律。

方法创新：VLM4VLA 框架

团队提出了一种最小化适配管道——VLM4VLA。它仅需引入不到 1% 的新参数，即可将通用 VLM 转换为 VLA 策略。核心设计包括简洁的 Action Query Token 提取机制、统一的确定性损失函数（Huber + CE），以及严格的输入标准化（224×224）。该框架排除了本体感知等额外模态，确保直接评估 VLM 的内在视觉 - 语言能力。尽管结构简单，其在基准测试中的表现已能与 pi0 等复杂设计相媲美。

实验设置与评估基准

我们在三个模拟环境中进行了广泛评估：Calvin ABC-D（跨域泛化）、SimplerEnv Bridge（真实数据到模拟）、Libero-Long（长时程任务）。共测试了 9 种开源 VLM（1B-10B 参数范围），涵盖 QwenVL、Paligemma 和 Kosmos-2 系列。

关键发现

VLM 通用能力与 VLA 性能的关系

预训练 VLM 显著优于从零训练的策略，但通用 VQA 能力并非可靠的性能预测指标。在 Calvin 环境中两者相关性较高，但在 Simpler/Libero 中几乎不存在。值得注意的是，模型规模不决定性能，最小的 Kosmos-2(1.7B) 在某些任务上甚至超越了更大的 QwenVL 模型。

辅助具身任务微调的影响

在 7 种辅助具身任务（如视觉指向、深度估计）上微调 VLM，结果普遍不如原始基线。提高特定具身技能表现并不能保证改善下游控制。混合训练（通用 VQA+ 具身任务）效果最佳，表明 VLA 需要广泛的能力而非单一技能的强化。

模态级消融分析

视觉编码器至关重要，冻结它会导致性能大幅下降（Paligemma-1 下降 42%）。相比之下，冻结词嵌入影响微弱。参数数量也不等于性能，冻结大模型的视觉编码器后，性能可能低于完全微调的小模型。

视觉表征差距

深入分析显示，VLM 到 VLA 的差距源于真实图像与模拟渲染的差异，以及任务目标的不匹配（语言优化 vs 动作控制）。即使使用真实世界图像训练，冻结视觉编码器仍导致性能下降，证明这是视觉 - 语言理解与动作控制之间的根本性鸿沟。

理论解释与洞察

VLM 和 VLA 的表征学习在初期轨迹相似，随后分叉至不同区域。这解释了为何预训练必不可少（初始方向一致），而简单微调难以弥合差距（后期学习目标差异）。

贡献与启示

本研究提出了公平评估框架，揭示了 VLM 通用能力与 VLA 性能的脱节，并确认视觉编码器是核心瓶颈。这对领域有重要启示：当前 VLM 预训练目标需重新思考，视觉表征需专业化设计，未来的研究方向应更关注视觉编码器的适配及控制相关监督的注入。

局限性与未来方向

目前仅在模拟环境中验证，缺乏物理机器人实测。未探索多视角输入和时序建模的影响。未来需开发专为具身控制设计的预训练方法，平衡通用能力与特定控制需求。

总结

VLM4VLA 研究揭示了 VLM 与 VLA 之间的关键差距，特别是视觉表征方面的不匹配。当前 VLM 预训练虽为 VLA 提供了必要基础，但其表征与控制任务需求存在本质差异。这一发现挑战了'更强的通用 VLM 必然带来更好的 VLA'的假设，为未来研究指明了新方向——需要专门设计适应具身控制任务的视觉表征学习方法。

VLM4VLA：重新审视视觉 - 语言模型在具身智能中的表现

研究背景与核心问题

方法创新：VLM4VLA 框架

实验设置与评估基准

关键发现

VLM 通用能力与 VLA 性能的关系

辅助具身任务微调的影响

模态级消融分析

视觉表征差距

理论解释与洞察

贡献与启示

局限性与未来方向

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

VLM4VLA：重新审视视觉 - 语言模型在具身智能中的表现

研究背景与核心问题

方法创新：VLM4VLA 框架

实验设置与评估基准

关键发现

VLM 通用能力与 VLA 性能的关系

辅助具身任务微调的影响

模态级消融分析

视觉表征差距

理论解释与洞察

贡献与启示

局限性与未来方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具