跳到主要内容10 篇 VLA 论文,看机器人视觉语言动作模型怎么演进 | 极客日志编程语言AI大前端
10 篇 VLA 论文,看机器人视觉语言动作模型怎么演进
这篇文章梳理了 10 篇 VLA 机器人论文,从 RT-2、Open X-Embodiment、OpenVLA、DP3、Octo,到 GR00T N1、VITRA、π0.5、CoA-VLA 和 WorldVLA,按基础到前沿分成两组。核心脉络是:把视觉、语言和动作统一起来,借助互联网数据、人类视频、3D 几何、模块化架构、双系统控制、可供性推理和世界模型,逐步提升机器人在跨任务、跨硬件和开放世界中的泛化能力。
10 篇 VLA 论文,看机器人视觉语言动作模型怎么演进
概览
2024 到 2026 年,机器人学习最明显的变化,就是大家不再满足于'给任务、写脚本、跑控制器'这套老路了。视觉、语言、动作被塞进同一个框架里,VLA(Vision-Language-Action)模型开始接管更多决策。它不一定已经足够稳定,但方向很清楚:机器人要学的,不只是动作本身,而是如何把场景、指令和执行连起来。
我把这 10 篇论文分成两组:5 篇打基础,5 篇看前沿。前半部分更像地基,后半部分能看到各家在往哪里补短板。
Part I:五篇基础性论文
1. RT-2: New Model Translates Vision and Language into Action
发表机构:Google DeepMind
时间:2023 年 7 月
论文链接:Google DeepMind Blog

要解决什么问题
传统机器人策略主要吃机器人演示数据,范围窄,换个物体、换个说法就容易失手。RT-2 想做的事很直接:把互联网里已经学到的视觉和语言常识迁过来,让机器人别只会背训练集。
思路和已有方法的差别
RT-2 的关键是把大规模视觉-语言模型直接改造成 VLA。它基于 PaLM-E 和 PaLI-X 这类预训练模型,再把真实机器人数据和互联网视觉-语言数据放到一起微调。
和 RT-1 的区别也很明显:RT-1 基本还是在机器人演示里打转,RT-2 则开始利用 VLM 已经学到的语义理解能力,去处理训练时没见过的指令,比如'把能当即兴锤子的东西递给我'这类句子。
动作表示也被统一成文本 token,这样语言和动作可以走同一个 decoder。这个处理方式不花哨,但很实用,模型不需要为'说话'和'动手'维护两套完全不同的输出逻辑。
为什么有用
这套思路背后其实很朴素:人类也不是靠给每个物体都做一遍操作练出来的。我们先在图像和文本里积累'常识',再把它用到动作里。RT-2 的价值,就是把这个过程第一次比较完整地落到机器人上。
价值
- 学术上,它证明了互联网数据可以迁移到机器人控制
- 工程上,它把通用指令和机器人动作放进了一套表示里
- 产业上,它降低了新任务的训练门槛
2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
发表机构:21 所机构联合(Google DeepMind 领导)
时间:2023 年 10 月
论文链接:arXiv:2310.08864

要解决什么问题
机器人领域最烦人的一个现实是:每种硬件都像一个孤岛。单臂、双臂、四足、不同相机配置,数据格式和动作空间都不一样,模型很难直接复用。Open X-Embodiment 想做的是把这些孤岛先连起来。
思路和已有方法的差别
它的核心不是单个模型,而是一套大规模数据集和配套的 RT-X 系列模型。数据集里包含 22 种机器人形态、100 万+ 真实轨迹、527 种技能、160,266 个任务。模型这边则把不同平台的动作统一到 7 维 end-effector 控制,再做离散化。
这个统一动作空间的做法很务实。先别急着追求'每台机器都完全原生',先让不同机器人能在同一套表示里学到共性。
为什么有用
跨平台学习真正带来的不是'一个模型统治所有硬件'这种口号,而是迁移成本明显下降。某些动作经验可以在不同机器人之间流动,这比每次从头采样、从头训要省事得多。
价值
- 为机器人基础模型提供了一个更像样的数据底座
- 让后续开源工作有了直接可用的训练资源
- 证明 Transformer 架构确实能吃下多形态机器人数据
3. OpenVLA: An Open-Source Vision-Language-Action Model
发表机构:斯坦福大学、UC Berkeley、Physical Intelligence
时间:2024 年 6 月
论文链接:arXiv:2406.09246
要解决什么问题
RT-2 这类模型能力强,但闭源、参数大,普通研究团队很难直接拿来改。OpenVLA 的定位就比较明确:做一个开源、轻量、还不能太差的 VLA。
思路和已有方法的差别
它把 DINOv2 和 SigLIP 组合成视觉编码器,再用 Llama 2 7B 做语言 backbone,最后把动作离散成 256 bins,当成 token 来预测。
这套搭法看上去没什么'惊天创新',但落地效果不错。OpenVLA 的重点不是堆参数,而是把视觉细节、语义对齐和动作预测拆得更合理。它只用 7B 参数,却能在不少任务上压过更大的闭源模型,至少说明这条路不是纯靠规模硬推。
为什么有用
DINOv2 和 SigLIP 的组合,实际上是在补彼此的短板:一个偏细节,一个偏语义。动作离散化则让模型可以继续沿用大模型擅长的序列建模方式。对机器人来说,这种'借用语言模型的习惯'比重新发明一套控制头更省心。
价值
- 开源后,研究和原型验证都更容易做
- 7B 规模比 55B 这种重模型更接近实际部署
- 适合团队在此基础上继续做微调和压缩
4. 3D Diffusion Policy (DP3)
发表机构:MIT、清华大学、上海交通大学
时间:2023 年 12 月
论文链接:CoRL 2025
要解决什么问题
只看 2D 图像做机器人控制,深度和空间关系总是差一口气。视角一变,遮挡一多,模型就容易出问题。DP3 的目标是把 3D 几何显式引进来,别全靠模型自己猜。
思路和已有方法的差别
它把稀疏采样的点云作为输入,再用轻量级 Point Transformer 提特征,最后接扩散策略生成动作序列。
和常见的 2D CNN 或 ViT 相比,这种做法的好处很直接:空间关系被摆在明面上了。模型不用从一张平面图里费劲脑补深度,也更不怕视角变化。
为什么有用
机器人操作里,空间信息不是加分项,是底层刚需。一个杯子是不是能抓、该从哪侧接近、前面有没有障碍,基本都离不开 3D 感知。DP3 的优势就在这里,它把'看懂空间'这件事提前做了。
实验也比较实在:72 个仿真任务只给 10 个演示,成功率还能比 baseline 高一截;到真实任务上,也能保持不错的泛化。
价值
- 证明 3D 表示对操作任务确实有帮助
- 点云编码 + 扩散策略的组合比较耐用
- 适合装配、拣选这类对空间定位要求高的场景
5. Octo: An Open-Source Generalist Robot Policy
发表机构:UC Berkeley、CMU、Google DeepMind
时间:2024 年 1 月
论文链接:Octo Models
要解决什么问题
很多 VLA 模型一旦换传感器、换动作空间,改起来就很麻烦。Octo 想解决的是'模块能不能拆开,别每次都重来一遍'。
思路和已有方法的差别
它用 Transformer-based 扩散策略作为主体,再配模块化注意力机制,支持语言指令、目标图像、多相机和历史观察。新机器人来了,不需要把整个系统推倒重训,只要微调相关模块就行。
Octo 也分了两个版本:Octo-Small 27M 参数,Octo-Base 93M 参数。数据来自 Open X-Embodiment 的 800k episodes。
为什么有用
这类设计最大的问题不是'好不好看',而是后面能不能接着改。模块化结构的好处就在于,研究者和工程团队都更容易沿着同一个骨架迭代。它不是最炫的方案,但确实省心。
价值
- 适合作为研究平台
- 微调成本相对低
- 开源属性让后续复现和改造更顺手
Part II:五篇前沿论文
6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots
要解决什么问题
人形机器人的动作空间太大了。躯干、双臂、手腕、手指都要动,还得实时。传统 VLA 在这种场景里很容易卡住,尤其是推理速度和控制频率都不够用。
思路和已有方法的差别
GR00T N1 采用双系统结构:System 2 负责慢思考、做高层规划;System 1 负责快反应、直接输出连续控制指令。
这个分工其实很像人类。我们先决定'要做什么',再让身体去执行'怎么做'。模型训练时还混了第一视角人类视频、真实机器人轨迹、仿真数据和 latent action training,目的就是把抽象任务理解和细粒度动作控制拉到一起。
为什么有用
人形机器人最怕两件事:一个是动作维度太高,一个是控制不稳定。双系统设计把这两个问题拆开了,慢模型负责理解,快模型负责执行。这样做不算优雅,但很符合工程现实。
价值
- 适合全身协调控制
- 在实时性上更接近可用系统
- 对人形机器人这条线的影响会比较直接
7. VITRA: Scalable VLA Pretraining with Human Videos
要解决什么问题
机器人数据太贵了,遥操作、标注、采集都不轻松,但人类视频在网上一抓一大把。VITRA 想做的是把这些非结构化视频变成能训练 VLA 的数据。
思路和已有方法的差别
它先从人类视频里做 3D 手部运动重建,再把人手动作映射成结构化的 VLA 格式,最后用大规模人类视频做预训练,再用少量机器人遥操数据做迁移。
这里的重点不是'视频很多',而是'把视频整理成模型能吃的东西'这一步做顺了。只要这道工序可靠,训练数据的上限就被拉高了。
为什么有用
人类视频里的动作知识很多时候比机器人演示更丰富,尤其是涉及抓取、倒水、整理这类日常操作时。它不一定能直接拿来控制机械臂,但能先把动作逻辑学进去,再做少样本适配。
价值
- 为 VLA 预训练提供了更便宜的数据来源
- 缓解了机器人演示稀缺的问题
- 对需要快速扩展任务覆盖面的团队很实用
8. Physical Intelligence π0.5: VLA with Open-World Generalization
要解决什么问题
很多模型在训练环境里表现不错,一换到陌生家庭就掉得很快。π0.5 想解决的是更难也更现实的问题:机器人能不能在没见过的环境里继续干活。
思路和已有方法的差别
它不是只喂机器人轨迹,而是把多家庭、多办公室环境数据,多模态网络数据,多形态机器人数据,以及语言指导演示一起联合训练。
模型本身也分成高层语义推理和低层动作控制两层。高层先决定任务结构,低层再输出连续动作。这个结构不稀奇,但在开放世界场景里很管用,因为它允许模型先理解'该做什么',再管'怎么伸手'。
为什么有用
开放世界的难点不是某个单点动作,而是环境变化太大。多样化数据带来的不是简单的'见得多',而是模型开始学任务规律,不那么依赖具体房间布局。
价值
- 对家庭服务机器人很关键
- 能把'泛化'这件事往真实场景推进一步
- 比起只会刷 benchmark 的模型,它更像是在补实际可用性
9. CoA-VLA: Chain-of-Affordance for Better Reasoning
要解决什么问题
很多 VLA 能听懂指令,但不太会做空间层面的判断,比如哪里能放、哪里会撞、哪块区域其实不适合执行动作。CoA-VLA 针对的就是这类可供性推理。
思路和已有方法的差别
它把流程拆成几步:先识别物体,再做空间定位,再推断可供性,最后把这些信息通过视觉和文本两条路径注入策略网络。
这比'直接看图出动作'多了一层显式推理。代价是流程更复杂,但换来的是动作前能先判断环境约束,少做一些低级错误。
为什么有用
机器人最怕的不是不知道要做什么,而是知道目标却在执行时碰撞、偏移、选错位置。CoA-VLA 的贡献在于,它把'可不可以做'这一步提到前面了。
价值
- 对安全和碰撞规避有帮助
- 适合人机协作场景
- 让 VLA 的推理部分更像样一点
10. WorldVLA: Autoregressive Action-World Model
要解决什么问题
很多 VLA 只学'看见什么就出什么动作',但对物理世界本身理解不够。WorldVLA 想补的是这个缺口:模型不只是出动作,还要能建模环境变化。
思路和已有方法的差别
它把 world model 和 action model 统一到一个自回归框架里。一边预测未来图像,一边生成动作 token,两个部分交错训练。
这个方向的意义在于,动作不再是孤立输出,而是和环境演化绑定在一起。模型在做决定之前,能借助世界模型对后续状态做一点'预演'。
为什么有用
机器人动作之所以难,很多时候不是因为不会动,而是因为不知道动完会怎样。WorldVLA 把这种物理直觉往模型里塞了一点,虽然离人类的脑内模拟还差得远,但已经比纯动作预测更完整了。
价值
- 把 world model 带进 VLA 是个自然的下一步
- 适合做长期规划和仿真中的策略训练
- 对多步任务推理会有帮助
总结
这 10 篇论文放在一起看,路线其实越来越清楚了。
RT-2 和 Open X-Embodiment 先把'互联网知识能不能进机器人'这件事打通;OpenVLA 和 Octo 把开源、模块化、可复用这件事往前推了一步;DP3 说明 3D 几何还是绕不过去;GR00T N1 和 π0.5 则在往更难的开放世界和人形机器人方向走;VITRA、CoA-VLA、WorldVLA 则是在补数据、推理和物理建模这些更底层的短板。
我觉得 VLA 现在最像的,不是一个已经成型的标准答案,而是一组正在收敛的工程路线。谁先把数据、表示、推理、控制这几层真正打通,谁就更接近能用的通用机器人系统。
关键词:Vision-Language-Action,VLA 模型,机器人操作,具身智能,多模态学习,迁移学习,人形机器人
推荐阅读顺序:RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA
相关免费在线工具
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online