VLA 模型架构全解与核心公式详解
一、前置认知:VLA 模型核心基础信息
先通过核心表格明确 VLA 的基础属性、核心差异与发展脉络,建立全局认知,为后续深度解析铺垫。
1.1 VLA 模型核心基础属性表
| 对比维度 | 具体内容 | 核心说明 |
|---|---|---|
| 核心定义 | 融合视觉感知、自然语言理解与动作决策能力,能够根据视觉输入(图像/视频)和语言指令(文本),端到端输出适配场景的动作序列(离散/连续)的跨模态深度学习模型 | 突破 VLM'感知 - 理解'的局限,延伸至'动作执行'环节,实现从'认知'到'行动'的跨越,是智能体落地的核心技术 |
| 核心创新 | 1. 视觉 - 语言 - 动作三模态统一表征学习;2. 跨模态注意力机制(关联视觉特征、语言特征与动作历史);3. 端到端动作决策(无需手动设计动作规则);4. 小样本/零样本泛化能力(适配未知场景) | 三模态统一表征解决了传统模型模态割裂的问题,端到端决策降低了工程落地成本,泛化能力提升了模型的适用范围 |
| 与 VLM 的核心区别 | 1. 新增动作模态(输入/输出包含动作信息);2. 核心目标是'动作生成/决策',而非'文本生成/图文匹配';3. 训练数据包含视觉 - 语言 - 动作三元组(V-L-A) | VLM 聚焦'认知任务'(如图文检索、图像描述),VLA 聚焦'执行任务'(如机器人取物、自主导航),前者是后者的基础 |
| 动作输出类型 | 1. 离散动作:有限离散集合(如机器人关节控制指令:左移、抓取、释放);2. 连续动作:连续数值序列(如机械臂坐标:(x=0.5, y=0.3, z=0.8)、速度指令) | 离散动作适配简单场景,连续动作适配高精度操控场景,部分模型支持混合动作输出 |
| 核心适用场景 | 1. 机器人操控(工业机械臂、服务机器人);2. 智能交互设备(AR/VR 手势控制、智能家居操控);3. 自主移动体(无人车、无人机导航);4. 工业自动化(视觉引导装配、缺陷检测 + 修复) | 覆盖'感知 - 理解 - 执行'全链路的实际工程场景,是 AI 技术从实验室走向产业化的关键载体 |
| 代表模型 | 1. Google RT-2(视觉 - 语言 - 动作大模型,机器人操控标杆);2. PaLM-E(多模态大模型,支持机器人端到端控制);3. FLAVA-Action(VLA 轻量级模型,适配边缘设备);4. LLaVA-Action(基于 LLaVA 扩展,开源易用) | 主流模型分为闭源大模型(RT-2、PaLM-E)与开源轻量化模型(FLAVA-Action、LLaVA-Action),适配不同算力场景 |
1.2 VLA 模型发展历程关键节点表
| 时间 | 关键成果 | 核心贡献 | 影响范围 |
|---|---|---|---|
| 2020 | VLM 模型爆发(CLIP、ALBEF) | 1. 实现视觉 - 语言双模态统一表征;2. 验证'预训练 + 微调'范式在跨模态任务的有效性;3. 为 VLA 模型奠定技术基础 | 跨模态学习领域革新,开启视觉 - 语言融合时代 |
| 2022 | PaLM-E(Google)发布 | 1. 首次将大语言模型与视觉模型、机器人动作模型融合;2. 支持视觉 - 语言 - 动作三元组训练;3. 验证 VLA 模型的端到端控制能力 | 开启 VLA 模型研究热潮,奠定机器人跨模态控制基础 |
| 2023 | Google RT-2 发布 | 1. 基于视觉 - 语言预训练模型扩展动作模态,实现'无需重新训练'的零样本泛化;2. 大幅提升机器人在未知场景的操控能力;3. 成为 VLA 模型产业化标杆 | 推动 VLA 模型从实验室走向实际落地,刷新机器人操控任务基准 |
| 2024 |


