10 篇 VLA 论文，看机器人视觉语言动作模型怎么演进

概览

2024 到 2026 年，机器人学习最明显的变化，就是大家不再满足于'给任务、写脚本、跑控制器'这套老路了。视觉、语言、动作被塞进同一个框架里，VLA（Vision-Language-Action）模型开始接管更多决策。它不一定已经足够稳定，但方向很清楚：机器人要学的，不只是动作本身，而是如何把场景、指令和执行连起来。

我把这 10 篇论文分成两组：5 篇打基础，5 篇看前沿。前半部分更像地基，后半部分能看到各家在往哪里补短板。

Part I：五篇基础性论文

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023 年 7 月
论文链接：Google DeepMind Blog

RT-2 Robotics Transformer

要解决什么问题

传统机器人策略主要吃机器人演示数据，范围窄，换个物体、换个说法就容易失手。RT-2 想做的事很直接：把互联网里已经学到的视觉和语言常识迁过来，让机器人别只会背训练集。

思路和已有方法的差别

RT-2 的关键是把大规模视觉-语言模型直接改造成 VLA。它基于 PaLM-E 和 PaLI-X 这类预训练模型，再把真实机器人数据和互联网视觉-语言数据放到一起微调。

和 RT-1 的区别也很明显：RT-1 基本还是在机器人演示里打转，RT-2 则开始利用 VLM 已经学到的语义理解能力，去处理训练时没见过的指令，比如'把能当即兴锤子的东西递给我'这类句子。

动作表示也被统一成文本 token，这样语言和动作可以走同一个 decoder。这个处理方式不花哨，但很实用，模型不需要为'说话'和'动手'维护两套完全不同的输出逻辑。

为什么有用

这套思路背后其实很朴素：人类也不是靠给每个物体都做一遍操作练出来的。我们先在图像和文本里积累'常识'，再把它用到动作里。RT-2 的价值，就是把这个过程第一次比较完整地落到机器人上。

价值

学术上，它证明了互联网数据可以迁移到机器人控制
工程上，它把通用指令和机器人动作放进了一套表示里
产业上，它降低了新任务的训练门槛

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构：21 所机构联合（Google DeepMind 领导）
时间：2023 年 10 月
论文链接：arXiv:2310.08864

Open X-Embodiment Dataset

10 篇 VLA 论文，看机器人视觉语言动作模型怎么演进

10 篇 VLA 论文，看机器人视觉语言动作模型怎么演进

概览