VLA 机器人技术演进:10 篇视觉 - 语言 - 动作模型核心论文解析
概览
2024 至 2026 年,机器人领域正经历一场范式转换:从传统的任务特定编程转向视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。
本文精选了 5 篇奠定理论基础的基础性论文和 5 篇代表最新突破的前沿论文,深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些成果来自 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。
基础理论篇:五篇奠基之作
这部分论文确立了 VLA 领域的技术范式,是理解整个领域发展脉络的关键。
1. RT-2: New Model Translates Vision and Language into Action
发表机构:Google DeepMind
时间:2023 年 7 月
论文链接:Google DeepMind Blog

传统机器人策略模型往往受限于有限的演示数据,泛化能力较弱。RT-2 的核心创新在于将大规模视觉 - 语言模型(VLM)转化为 VLA 模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM,通过联合训练的方式,在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。
与仅从机器人演示数据学习的 RT-1 不同,RT-2 继承了 VLM 的语义理解能力,能够执行训练数据中从未出现的指令,例如'把能当即兴锤子的东西递给我'时抓取石头。技术实现上,它将机器人动作表示为文本 tokens,使 VLM 的 decoder 可以同时输出语言和动作序列。这种统一表示让模型能在 vision-language 任务和 robot control 任务间共享知识,赋予了机器人利用互联网常识进行零样本泛化的能力。
2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
发表机构:21 所机构联合(Google DeepMind 领导)
时间:2023 年 10 月
论文链接:arXiv:2310.08864

不同机器人平台的数据格式各异,导致每个新机器人都需要从零开始训练。Open X-Embodiment 构建了包含来自 22 种机器人形态的 100 万 + 真实轨迹的数据集,并提出 RT-X 系列模型实现跨 embodiment 的正迁移。
其技术创新包括采用 RLDS 格式统一数据格式,支持不同动作空间和多模态输入;将不同机器人的动作统一映射到 7 维 end-effector 控制加 256 bins 离散化;并在机器人数据和原始 VLM 数据上以 1:1 比例联合训练。这就像人类驾驶不同品牌的汽车时,核心的'转向 - 加速 - 刹车'逻辑是通用的,只是操作界面略有差异。RT-X 通过标准化动作空间,让模型学习任务的本质而非特定硬件的特性。







