Vision-Language-Action (VLA) 模型综述：概念、进展与应用挑战 | 极客日志

编程语言AI算法

Vision-Language-Action (VLA) 模型综述：概念、进展与应用挑战

Vision-Language-Action (VLA) 模型综述系统梳理了视觉 - 语言 - 动作统一框架的研究进展。文章涵盖核心概念定义、多模态融合与 Token 化技术、代表性模型分类及应用场景如人形机器人与自动驾驶。重点分析了实时推理、安全性及泛化能力等挑战，并提出统一基础模型、持续学习及神经符号规划等未来方向。该综述为具身智能与通用机器人发展提供了理论参考与技术路线图。

古灵精怪发布于 2026/4/9更新于 2026/4/232 浏览

一、研究背景与动机

1.1 背景

传统 AI 系统将视觉、语言、动作视为独立模块，分别发展出 CNN、LLM、RL 等模型。
尽管 Vision-Language Models（VLM）在图文理解上取得了进展，但缺乏对物理世界行动的生成能力。
这导致机器人系统难以在真实环境中实现灵活、泛化、端到端的任务执行。

1.2 动机

提出 VLA 模型作为统一框架，整合视觉感知、语言理解和动作执行。
旨在推动具身智能（Embodied AI）的发展，实现真正意义上的通用机器人。

二、VLA 模型的核心概念

2.1 定义

VLA 模型是一种多模态智能系统，能够：

感知：通过视觉编码器（如 ViT、CNN）理解图像或视频；
理解：通过语言模型（如 BERT、LLaMA）解析指令；
行动：通过策略模块生成机器人可执行的动作序列。

2.2 三大发展阶段

2022–2023（基础融合期）：如 CLIPort、RT-1、Gato，初步实现视觉 - 语言 - 动作的融合。
2024（专用推理期）：如 VoxPoser、RT-2、Octo，引入视觉推理和扩散策略。
2025（安全与泛化期）：如 SafeVLA、Humanoid-VLA，强调鲁棒性、安全性和跨平台泛化。

三、核心技术分析

3.1 多模态融合

通过 Transformer 架构实现视觉、语言和状态信息的联合建模。
使用交叉注意力机制、联合嵌入、前缀 token 等技术实现语义对齐。

3.2 统一 Token 化

Prefix Tokens：编码视觉场景和语言指令；
State Tokens：编码机器人当前状态（如关节角度、力反馈）；
Action Tokens：通过自回归生成器生成动作序列，类似于语言生成。

3.3 学习策略

互联网级预训练：如 LAION-5B、HowTo100M；
机器人轨迹数据：如 RT-X、BridgeData；
多阶段训练：先对齐语义，再学习动作，最后进行任务微调。

四、代表性模型总结

论文中列出了超过 45 个 VLA 模型，按时间线分为三类：

模型类别	示例	特点
早期融合模型	CLIPort、RT-1、Gato	基础融合，端到端控制
扩散策略模型	Diffusion Policy、Pi-0	多模态动作生成，适应性强
双系统架构	GR00T N1、HybridVLA	高维规划 + 低维控制分离，提升效率与安全

五、应用场景分析

5.1 人形机器人

挑战类别	具体问题
实时推理	自回归生成慢，难以满足高频控制需求
动作表示	离散化动作精度不足，扩散模型计算开销大
安全性	模型在未知环境中缺乏鲁棒性，难以保障物理安全
数据集偏差	网络数据存在偏见，影响模型泛化
系统集成	高维视觉与低维控制难以对齐
伦理与隐私	模型可能泄露隐私、加剧社会不平等