OpenVLA 架构解析：基于 Prismatic VLM 与 Next Token Prediction 的动作生成

前言

随着机器人动作策略预测的成熟，提升泛化能力的典型途径之一是基于预训练大语言模型的广泛知识，并添加 Policy Head。早期模型如 RoboFlamingo 使用 LSTM 或 MLP，随后出现了更成熟的 VLA 模型，如 OpenVLA 和 π0。

π0 的意义在于首次用同一套策略操作不同机器人，代表了通用机器人的核心发展方向。虽然 π0 曾延期开源，但 OpenVLA 作为其重要参考，提供了开源的视觉 - 语言 - 动作模型方案。

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

2024 年 6 月，来自斯坦福大学、UC Berkeley、Toyota Research Institute、Google DeepMind、Physical Intelligence 及 MIT 的研究者推出了 OpenVLA。

论文：《OpenVLA: An Open-Source Vision-Language-Action Model》
项目地址：https://openvla.github.io/
GitHub 地址：https://github.com/openvla/openvla

这是一种具有 70 亿参数的开源视觉 - 语言 - 动作模型（VLA），由一个预训练的视觉条件语言模型骨干组成，在 Open-X Embodiment 数据集中的 970k 机器人操作轨迹的大型多样数据集上进行了微调。

它支持开箱即用地控制多个机器人，并且可以通过参数高效微调快速适应新的机器人领域。

1.1.2 背景

当前机器人操作中学习得到的策略存在关键弱点，即无法超越其训练数据进行泛化。现有针对单一技能或语言指令训练的策略在面对场景干扰物或新颖物体时缺乏鲁棒性。

然而，CLIP、SigLIP 和 Llama 2 等现有的视觉和语言基础模型能够实现这些类型的泛化，这得益于其基于互联网规模的预训练数据集所捕获的先验知识。尽管在机器人领域复现如此大规模的预训练仍是一个尚未解决的难题，但这种不平衡带来了机遇：可以利用现有的视觉和语言基础模型，作为训练能泛化到超出训练数据之外的物体、场景和任务的机器人策略的核心构建模块。

为实现这一目标，现有研究已探索将预训练的语言模型和视觉 - 语言模型整合用于机器人表征学习。最近，这些模型被直接用于学习视觉 - 语言 - 动作模型（VLAs）以进行控制。

依托于在互联网规模数据上训练的强大基础模型，诸如 RT-2 等 VLA 展现出令人印象深刻的鲁棒性，并具备对新颖物体和任务的泛化能力。然而，现有 VLA 尚未广泛应用，主要有两个关键原因：

当前模型为闭源模型，透明度有限；
现有研究未提供将 VLA 部署和适配至新型机器人、环境和任务的最佳实践。

为此，作者推出了 OpenVLA，能够在多个粒度层面提取视觉特征，并在 Open-X Embodiment 数据集上进行了微调。

由于数据多样性的提升和新模型组件的引入，OpenVLA 在 WidowX 和 Google Robot 两种机器人形态的 29 项评测任务中，绝对成功率比之前的业界领先 VLA——拥有 550 亿参数的 RT-2-X 模型高出 16.5%。
作者还研究了 VLA 的高效微调策略，覆盖了从物体抓取与放置到清洁桌面等 7 项多样化操作任务。结果表明，经过微调的 OpenVLA 策略明显优于如 Octo 等微调后的预训练策略。

与基于扩散策略的从零模仿学习相比，微调后的 OpenVLA 在需要将语言与行为对齐的任务上表现出显著提升。

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

大多数最新的 VLM 架构一般由三部分组成：

一个视觉编码器，用于将图像输入映射为若干'图像 patch 嵌入'；
一个投影器，将视觉编码器输出的嵌入映射到语言模型的输入空间；
一个大型语言模型 LLM 骨干。

对于 OpenVLA 而言，其基于 Prismatic-7B VLM 进行构建，包含：

OpenVLA 架构解析：基于 Prismatic VLM 与 Next Token Prediction 的动作生成

前言

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

1.1.2 背景

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

更多推荐文章

相关免费在线工具

1.2.2 微调 Prismatic-7B VLM，使其输出机器人动作

1.2.3 训练数据

1.2.4 训练和推理的基础设施

1.3 实验：与 RT-2、Octo、Diffusion Policy 的对比，以及 LoRA 微调

1.3.1 与 RT-2 的横向对比：除了语义泛化外，均强于 RT-2

1.3.2 与 Diffusion Policy 的对比实验

1.3.3 参数高效微调：LoRA 微调效果逼近全量微调

第二部分 (选读) Prismatic VLM

2.1 Prismatic VLM

2.1.1 Prismatic VLM

2.1.2 模型架构

2.1.3 预训练数据集及训练实施

2.2 实验：4 个关键设计的考量点

2.2.1 多阶段训练

2.2.2 图像处理与视觉表示

2.2.3 整合语言模型：是整合微调过的，还是不微调过的呢

2.2.4 扩展属性：训练时间与数据

第三部分 OpenVLA 的源码剖析

3.1 prismatic/models

3.1.1 models/vlms/prismatic.py

3.1.2 models/vlas/openvla.py

3.3 prismatic/vla：动作预测

3.3.1 prismatic/vla/action_tokenizer.py

更多推荐文章

相关免费在线工具

OpenVLA 架构解析：基于 Prismatic VLM 与 Next Token Prediction 的动作生成

前言

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

1.1.2 背景

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 微调 Prismatic-7B VLM，使其输出机器人动作

1.2.3 训练数据

1.2.4 训练和推理的基础设施

1.3 实验：与 RT-2、Octo、Diffusion Policy 的对比，以及 LoRA 微调

1.3.1 与 RT-2 的横向对比：除了语义泛化外，均强于 RT-2

1.3.2 与 Diffusion Policy 的对比实验

1.3.3 参数高效微调：LoRA 微调效果逼近全量微调

第二部分 (选读) Prismatic VLM

2.1 Prismatic VLM

2.1.1 Prismatic VLM

2.1.2 模型架构

2.1.3 预训练数据集及训练实施

2.2 实验：4 个关键设计的考量点

2.2.1 多阶段训练

2.2.2 图像处理与视觉表示

2.2.3 整合语言模型：是整合微调过的，还是不微调过的呢

2.2.4 扩展属性：训练时间与数据

第三部分 OpenVLA 的源码剖析

3.1 prismatic/models

3.1.1 models/vlms/prismatic.py

3.1.2 models/vlas/openvla.py

3.3 prismatic/vla：动作预测

3.3.1 prismatic/vla/action_tokenizer.py

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具