OpenVLA 架构解析：基于 Prismatic VLM 与下一个 Token 预测的动作生成

前言

当对机器人动作策略的预测越来越成熟稳定之后，为了让机器人可以拥有更好的泛化能力，比较典型的途径之一便是基于预训练过的大语言模型中的广泛知识，然后加一个 policy head。再之后，便出来了越来越多成熟稳定的专门的 VLA 模型，比如 OpenVLA。

通用机器人的核心发展方向在于「预训练 - 微调」模式，这代表了通用机器人的核心发展方向。目前各种 vlm + 各种动作预测头/方法，会出来很多 vla。

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型，类似 RT-2

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

2024 年 6 月，来自斯坦福大学、加州大学伯克利分校、丰田研究所、Google DeepMind、Physical Intelligence 及 MIT 的研究者推出了 OpenVLA。

其对应的论文为《OpenVLA: An Open-Source Vision-Language-Action Model》
其项目地址为：openvla.github.io
其 GitHub 地址为：github.com/openvla/openvla

这是一种具有 70 亿参数的开源视觉 - 语言 - 动作模型 VLA，由一个预训练的视觉条件语言模型骨干组成，该模型在 Open-X Embodiment 数据集中的 970k 机器人操作轨迹的大型多样数据集上进行了微调。

它支持开箱即用地控制多个机器人，并且可以通过参数高效微调快速适应新的机器人领域。

1.1.2 背景

当前机器人操作中学习得到的策略存在一个关键弱点，即无法超越其训练数据进行泛化。然而，在机器人领域之外，诸如 CLIP、SigLIP 和 Llama 2 等现有的视觉和语言基础模型能够实现这些类型的泛化，甚至更多，这得益于其基于互联网规模的预训练数据集所捕获的先验知识。

为实现这一目标，现有研究已探索将预训练的语言模型和视觉 - 语言模型整合用于机器人表征学习。最近，这些模型被直接用于学习视觉 - 语言 - 动作模型（VLAs）以进行控制。

依托于在互联网规模数据上训练的强大基础模型，诸如 RT-2 等 VLA 展现出令人印象深刻的鲁棒性，并具备对新颖物体和任务的泛化能力，为通用型机器人策略树立了新标准。

然而，现有 VLA 尚未广泛应用，主要有两个关键原因：

当前模型为闭源模型，模型架构、训练流程及数据混合等细节透明度有限；
现有研究未提供将 VLA 部署和适配至新型机器人、环境和任务的最佳实践——尤其是在消费级硬件上。

为此，作者推出了 OpenVLA，其由一个预训练的视觉条件语言模型主干组成，能够在多个粒度层面提取视觉特征，并在 Open-X Embodiment 数据集上进行了微调。

由于数据多样性的提升和新模型组件的引入，OpenVLA 在 WidowX 和 Google Robot 两种机器人形态的 29 项评测任务中，绝对成功率比之前的业界领先 VLA——拥有 550 亿参数的 RT-2-X 模型——高出 16.5%。

与基于扩散策略的从零模仿学习相比，微调后的 OpenVLA 在需要将语言与行为对齐的任务上表现出显著提升。

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

大多数最新的 VLM 的架构一般由三部分组成：

一个视觉编码器，用于将图像输入映射为若干'图像 patch 嵌入'
一个投影器，将视觉编码器输出的嵌入映射到语言模型的输入空间
一个大型语言模型 LLM 骨干

对于 OpenVLA 而言，其基于 Prismatic-7B VLM 进行构建，Prismatic 也采用的上述标准架构，包含：

一个 600M 参数的视觉编码器：SigLIP 和 DinoV2 值得注意的是，Prismatic 使用了一个两部分的视觉编码器，由预训练的 SigLIP 和 DinoV2 模型组成。输入图像块会分别通过这两个编码器，随后将得到的特征向量按通道拼接。与更常用的视觉编码器如 CLIP 或 SigLIP-only 编码器相比，添加 DinoV2 特征已被证明有助于改善空间推理，这对于机器人控制尤其有帮助。

值得注意的是，对于视觉编码器而言，是否必须添加 DinoV2 不是绝对的。比如之后的更具效果和影响力的 π0，其所用的视觉编码器便只是 SigLIP。作者还实验了一个 OpenVLA 模型的版本——即 openvla-v01-7b：开发期间使用的早期模型，由 Prismatic siglip-224pxVLM（单一 SigLIP 视觉主干和 Vicuña v1.5 LLM）训练而成，该版本使用较小的机器人数据混合进行预训练。有意思的是，这种「仅使用 SigLIP 视觉骨干而不是融合的 Dino + SigLIP 编码器的架构」在微调任务和'开箱即用'任务中仍能取得强劲的性能。

OpenVLA 架构解析：基于 Prismatic VLM 与下一个 Token 预测的动作生成

前言

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型，类似 RT-2

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

1.1.2 背景

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

更多推荐文章

相关免费在线工具

1.2.2 微调 Prismatic-7B VLM，使其输出机器人动作

1.2.3 训练数据

1.2.4 训练和推理的基础设施

1.3 实验：与 RT-2、Octo、Diffusion Policy 的对比，以及 LoRA 微调

1.3.1 与 RT-2 的横向对比：除了语义泛化外，均强于 RT-2

1.3.2 与 Diffusion Policy 的对比实验

1.3.3 参数高效微调：LoRA 微调效果逼近全量微调

第二部分 (选读) Prismatic VLM

2.1 Prismatic VLM

2.1.1 Prismatic VLM

2.1.2 模型架构

2.1.3 预训练数据集及训练实施

2.2 实验：4 个关键设计的考量点

2.2.1 多阶段训练

2.2.2 图像处理与视觉表示

2.2.3 整合语言模型：是整合微调过的，还是不微调过的呢

2.2.4 扩展属性：训练时间与数据

第三部分 OpenVLA 的源码剖析

3.1 prismatic/models

3.1.1 models/vlms/prismatic.py

3.1.2 models/vlas/openvla.py

3.3 prismatic/vla：动作预测

3.3.1 prismatic/vla/action_tokenizer.py

更多推荐文章

相关免费在线工具

OpenVLA 架构解析：基于 Prismatic VLM 与下一个 Token 预测的动作生成

前言

第一部分 OpenVLA：相当于 RT-2 的开源版

1.1 OpenVLA：第一个开源的通用 VLA 模型，类似 RT-2

1.1.1 通过 Open X-Embodiment 中 97 万机器人数据微调的 7B VLA 模型

1.1.2 背景

1.2 OpenVLA 的模型架构、训练过程、训练数据

1.2.1 模型架构 (基于 Prismatic-7B VLM)：SigLIP、DinoV2、Llama 2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 微调 Prismatic-7B VLM，使其输出机器人动作

1.2.3 训练数据

1.2.4 训练和推理的基础设施

1.3 实验：与 RT-2、Octo、Diffusion Policy 的对比，以及 LoRA 微调

1.3.1 与 RT-2 的横向对比：除了语义泛化外，均强于 RT-2

1.3.2 与 Diffusion Policy 的对比实验

1.3.3 参数高效微调：LoRA 微调效果逼近全量微调

第二部分 (选读) Prismatic VLM

2.1 Prismatic VLM

2.1.1 Prismatic VLM

2.1.2 模型架构

2.1.3 预训练数据集及训练实施

2.2 实验：4 个关键设计的考量点

2.2.1 多阶段训练

2.2.2 图像处理与视觉表示

2.2.3 整合语言模型：是整合微调过的，还是不微调过的呢

2.2.4 扩展属性：训练时间与数据

第三部分 OpenVLA 的源码剖析

3.1 prismatic/models

3.1.1 models/vlms/prismatic.py

3.1.2 models/vlas/openvla.py

3.3 prismatic/vla：动作预测

3.3.1 prismatic/vla/action_tokenizer.py

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具