论文阅读：Vision-Language-Action (VLA) 模型概念、进展与应用挑战 | 极客日志

编程语言AI算法

论文阅读：Vision-Language-Action (VLA) 模型概念、进展与应用挑战

系统综述了视觉 - 语言 - 动作（VLA）模型的研究进展。文章梳理了 VLA 的定义与发展阶段，分析了多模态融合、统一 Token 化及学习策略等核心技术。总结了代表性模型架构，探讨了在人形机器人、自动驾驶等领域的应用。同时指出了实时推理、安全性及伦理对齐等挑战，并提出了统一基础模型、持续学习等未来发展方向。该综述为具身智能与通用人工智能的发展提供了参考。

AiEngineer发布于 2026/4/6更新于 2026/7/746 浏览

一、研究背景与动机

1.1 背景

传统 AI 系统将视觉、语言、动作视为独立模块，分别发展出 CNN、LLM、RL 等模型。
尽管 Vision-Language Models（VLM）在图文理解上取得了进展，但缺乏对物理世界行动的生成能力。
这导致机器人系统难以在真实环境中实现灵活、泛化、端到端的任务执行。

1.2 动机

提出 VLA 模型作为统一框架，整合视觉感知、语言理解和动作执行。
旨在推动具身智能（Embodied AI）的发展，实现真正意义上的通用机器人。

二、VLA 模型的核心概念

2.1 定义

VLA 模型是一种多模态智能系统，能够：

感知：通过视觉编码器（如 ViT、CNN）理解图像或视频；
理解：通过语言模型（如 BERT、LLaMA）解析指令；
行动：通过策略模块生成机器人可执行的动作序列。

2.2 三大发展阶段

2022–2023（基础融合期）：如 CLIPort、RT-1、Gato，初步实现视觉 - 语言 - 动作的融合。
2024（专用推理期）：如 VoxPoser、RT-2、Octo，引入视觉推理和扩散策略。
2025（安全与泛化期）：如 SafeVLA、Humanoid-VLA，强调鲁棒性、安全性和跨平台泛化。

三、核心技术分析

3.1 多模态融合

通过 Transformer 架构实现视觉、语言和状态信息的联合建模。
使用交叉注意力机制、联合嵌入、前缀 token 等技术实现语义对齐。

3.2 统一 Token 化

Prefix Tokens：编码视觉场景和语言指令；
State Tokens：编码机器人当前状态（如关节角度、力反馈）；
Action Tokens：通过自回归生成器生成动作序列，类似于语言生成。

3.3 学习策略

互联网级预训练：如 LAION-5B、HowTo100M；
机器人轨迹数据：如 RT-X、BridgeData；
多阶段训练：先对齐语义，再学习动作，最后进行任务微调。

四、代表性模型总结

论文中列出了超过 45 个 VLA 模型，按时间线分为三类：

模型类别	示例	特点
早期融合模型	CLIPort、RT-1、Gato	基础融合，端到端控制
扩散策略模型	Diffusion Policy、Pi-0	多模态动作生成，适应性强
双系统架构	GR00T N1、HybridVLA	高维规划 + 低维控制分离，提升效率与安全

五、应用场景分析

5.1 人形机器人

挑战类别	具体问题
实时推理	自回归生成慢，难以满足高频控制需求
动作表示	离散化动作精度不足，扩散模型计算开销大
安全性	模型在未知环境中缺乏鲁棒性，难以保障物理安全
数据集偏差	网络数据存在偏见，影响模型泛化
系统集成	高维视觉与低维控制难以对齐
伦理与隐私	模型可能泄露隐私、加剧社会不平等