VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文

概览

2024 至 2026 年间，机器人领域正经历一场深刻的范式转换：从传统的任务特定编程转向视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型。这类模型将视觉感知、自然语言理解和动作执行统一在单一框架中，让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选了 5 篇奠基性论文与 5 篇前沿力作，深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些工作代表了 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构的最新突破，涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。

一、奠基之作：五篇核心理论论文

这部分论文奠定了 VLA 领域的理论基础和技术范式，是理解整个领域发展脉络的关键。

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023 年 7 月
论文链接：Google DeepMind Blog

RT-2 Robotics Transformer

背景与挑战 传统机器人策略模型通常只能从有限的机器人演示数据中学习，导致泛化能力弱，难以处理新物体和场景。如何让机器人利用互联网海量的视觉 - 语言知识来理解世界并执行操作？

核心方案 RT-2 的核心创新在于将大规模视觉 - 语言模型（VLM）转化为视觉 - 语言 - 动作（VLA）模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM，通过联合训练的方式，在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。

与之前的 RT-1 相比，RT-1 仅从机器人演示数据学习，泛化能力受限于数据集覆盖范围；而 RT-2 继承了 VLM 的语义理解能力，能够执行训练数据中从未出现的指令（例如'把能当即兴锤子的东西递给我'→抓取石头）。

设计直觉 人类学习新技能时，不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出'哪些物体适合某个任务'。RT-2 把这种能力赋予了机器人。

应用价值

学术价值：首次证明互联网数据能有效迁移到机器人控制，开创 VLA 范式。
工业价值：降低机器人部署门槛，单一模型支持 700+ 任务，适用于仓储、家庭服务等场景。
社会价值：推动通用机器人助手的实现，缓解劳动力短缺。

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构：21 所机构联合（Google DeepMind 领导）
时间：2023 年 10 月
论文链接：arXiv:2310.08864

Open X-Embodiment Dataset

VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文