一、研究背景与动机
1.1 背景
- 传统 AI 系统将视觉、语言、动作视为独立模块,分别发展出 CNN、LLM、RL 等模型。
- 尽管 Vision-Language Models(VLM)在图文理解上取得了进展,但缺乏对物理世界行动的生成能力。
- 这导致机器人系统难以在真实环境中实现灵活、泛化、端到端的任务执行。
1.2 动机
- 提出 VLA 模型作为统一框架,整合视觉感知、语言理解和动作执行。
- 旨在推动具身智能(Embodied AI)的发展,实现真正意义上的通用机器人。
二、VLA 模型的核心概念
2.1 定义
VLA 模型是一种多模态智能系统,能够:
- 感知:通过视觉编码器(如 ViT、CNN)理解图像或视频;
- 理解:通过语言模型(如 BERT、LLaMA)解析指令;
- 行动:通过策略模块生成机器人可执行的动作序列。
2.2 三大发展阶段
- 2022–2023(基础融合期):如 CLIPort、RT-1、Gato,初步实现视觉 - 语言 - 动作的融合。
- 2024(专用推理期):如 VoxPoser、RT-2、Octo,引入视觉推理和扩散策略。
- 2025(安全与泛化期):如 SafeVLA、Humanoid-VLA,强调鲁棒性、安全性和跨平台泛化。
三、核心技术分析
3.1 多模态融合
- 通过 Transformer 架构实现视觉、语言和状态信息的联合建模。
- 使用交叉注意力机制、联合嵌入、前缀 token 等技术实现语义对齐。
3.2 统一 Token 化
- Prefix Tokens:编码视觉场景和语言指令;
- State Tokens:编码机器人当前状态(如关节角度、力反馈);
- Action Tokens:通过自回归生成器生成动作序列,类似于语言生成。
3.3 学习策略
- 互联网级预训练:如 LAION-5B、HowTo100M;
- 机器人轨迹数据:如 RT-X、BridgeData;
- 多阶段训练:先对齐语义,再学习动作,最后进行任务微调。
四、代表性模型总结
论文中列出了超过 45 个 VLA 模型,按时间线分为三类:
| 模型类别 | 示例 | 特点 |
|---|---|---|
| 早期融合模型 | CLIPort、RT-1、Gato | 基础融合,端到端控制 |
| 扩散策略模型 | Diffusion Policy、Pi-0 | 多模态动作生成,适应性强 |
| 双系统架构 | GR00T N1、HybridVLA | 高维规划 + 低维控制分离,提升效率与安全 |

