跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

VLM4VLA:重新审视视觉 - 语言模型在具身智能中的表现

综述由AI生成VLM4VLA 研究揭示了预训练视觉 - 语言模型(VLM)与具身行动模型(VLA)之间的关键差距。通过对比九种开源模型及多任务微调实验,发现通用 VQA 能力无法有效预测 VLA 控制性能,且视觉编码器是主要瓶颈。尽管 VLM 预训练提供了必要基础,但其表征与控制任务需求存在本质差异,单纯扩大模型规模或辅助任务微调并不总能提升效果。研究建议未来应关注视觉编码器的适配及控制相关监督的注入,而非仅依赖通用预训练。

Kubernet发布于 2026/4/11更新于 2026/5/2312 浏览

研究背景与核心问题

预训练视觉 - 语言模型(VLM)如何影响下游视觉 - 语言 - 动作(VLA)模型的性能?这是一个基础但常被忽视的问题。当前 VLA 研究多聚焦于网络架构、训练范式或动作解码方案的改进,却鲜少系统评估 VLM 骨干本身的影响。本文旨在填补这一空白,通过公平对比不同 VLM 在机器人控制任务上的表现,揭示其内在规律。

方法创新:VLM4VLA 框架

团队提出了一种最小化适配管道——VLM4VLA。它仅需引入不到 1% 的新参数,即可将通用 VLM 转换为 VLA 策略。核心设计包括简洁的 Action Query Token 提取机制、统一的确定性损失函数(Huber + CE),以及严格的输入标准化(224×224)。该框架排除了本体感知等额外模态,确保直接评估 VLM 的内在视觉 - 语言能力。尽管结构简单,其在基准测试中的表现已能与 pi0 等复杂设计相媲美。

实验设置与评估基准

我们在三个模拟环境中进行了广泛评估:Calvin ABC-D(跨域泛化)、SimplerEnv Bridge(真实数据到模拟)、Libero-Long(长时程任务)。共测试了 9 种开源 VLM(1B-10B 参数范围),涵盖 QwenVL、Paligemma 和 Kosmos-2 系列。

关键发现

VLM 通用能力与 VLA 性能的关系

预训练 VLM 显著优于从零训练的策略,但通用 VQA 能力并非可靠的性能预测指标。在 Calvin 环境中两者相关性较高,但在 Simpler/Libero 中几乎不存在。值得注意的是,模型规模不决定性能,最小的 Kosmos-2(1.7B) 在某些任务上甚至超越了更大的 QwenVL 模型。

辅助具身任务微调的影响

在 7 种辅助具身任务(如视觉指向、深度估计)上微调 VLM,结果普遍不如原始基线。提高特定具身技能表现并不能保证改善下游控制。混合训练(通用 VQA+ 具身任务)效果最佳,表明 VLA 需要广泛的能力而非单一技能的强化。

模态级消融分析

视觉编码器至关重要,冻结它会导致性能大幅下降(Paligemma-1 下降 42%)。相比之下,冻结词嵌入影响微弱。参数数量也不等于性能,冻结大模型的视觉编码器后,性能可能低于完全微调的小模型。

视觉表征差距

深入分析显示,VLM 到 VLA 的差距源于真实图像与模拟渲染的差异,以及任务目标的不匹配(语言优化 vs 动作控制)。即使使用真实世界图像训练,冻结视觉编码器仍导致性能下降,证明这是视觉 - 语言理解与动作控制之间的根本性鸿沟。

理论解释与洞察

VLM 和 VLA 的表征学习在初期轨迹相似,随后分叉至不同区域。这解释了为何预训练必不可少(初始方向一致),而简单微调难以弥合差距(后期学习目标差异)。

贡献与启示

本研究提出了公平评估框架,揭示了 VLM 通用能力与 VLA 性能的脱节,并确认视觉编码器是核心瓶颈。这对领域有重要启示:当前 VLM 预训练目标需重新思考,视觉表征需专业化设计,未来的研究方向应更关注视觉编码器的适配及控制相关监督的注入。

局限性与未来方向

目前仅在模拟环境中验证,缺乏物理机器人实测。未探索多视角输入和时序建模的影响。未来需开发专为具身控制设计的预训练方法,平衡通用能力与特定控制需求。

总结

VLM4VLA 研究揭示了 VLM 与 VLA 之间的关键差距,特别是视觉表征方面的不匹配。当前 VLM 预训练虽为 VLA 提供了必要基础,但其表征与控制任务需求存在本质差异。这一发现挑战了'更强的通用 VLM 必然带来更好的 VLA'的假设,为未来研究指明了新方向——需要专门设计适应具身控制任务的视觉表征学习方法。

  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 Java Web 的餐厅点餐系统的设计与实现
  • 结合腾讯云 HAI 与 DeepSeek 快速搭建个人网页
  • 大模型推理框架选型入门:Ollama、llama.cpp 与 vLLM 对比
  • Windows 系统下 Python 环境搭建与安装指南
  • MiGPT GUI 配置小爱音箱接入 AI 大模型及内网穿透方案
  • Vivado 2023.2 安装教程:从零搭建 FPGA 开发环境
  • Python 爬虫技术原理与实战应用指南
  • Stable Diffusion WebUI 背景移除工具 rembg 使用指南
  • JavaScript 表格处理指南:数据流转到动态可视化
  • 文心 ERNIE 4.5 开源模型技术分析、部署与评测
  • Python 爬虫入门:批量下载网页图片实战
  • ToDesk 顺网云海马云运行 DeepSeek 模型对比评测
  • 基于 GLM-5 与 OpenClaw 构建具备多模态能力的 AI 伴侣
  • 量化、算子融合与内存映射:C 语言实现边缘 AI 推理
  • Llama-Factory 微调模型上线前的 A/B 测试实践
  • Gradle 8.0+ 新特性解析:为何 JDK 17 成为必选项
  • Spring Boot 整合 WebService 客户端:基于 WSDL 自动生成代码
  • Phi-4-mini-reasoning Chainlit 性能优化:前端懒加载与缓存策略
  • Spring AI快速上手:Java集成ChatGPT/文心一言,30分钟实现智能问答接口
  • 无人机航测内业处理教程:iTwin Capture Modeler 建模流程

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

目录

  1. 研究背景与核心问题
  2. 方法创新:VLM4VLA 框架
  3. 实验设置与评估基准
  4. 关键发现
  5. VLM 通用能力与 VLA 性能的关系
  6. 辅助具身任务微调的影响
  7. 模态级消融分析
  8. 视觉表征差距
  9. 理论解释与洞察
  10. 贡献与启示
  11. 局限性与未来方向
  12. 总结
  • 💰 8折买阿里云服务器限时8折了解详情