跳到主要内容VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文 | 极客日志编程语言AI算法
VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文
VLA 模型将视觉感知、自然语言理解与动作执行统一于单一框架,推动机器人从任务特定编程向通用智能体转变。梳理了 10 篇关键论文,涵盖 RT-2、OpenVLA、GR00T N1 等代表性工作,分析其从基础理论到开放世界泛化的技术演进。重点探讨跨实体迁移、3D 空间推理及物理世界建模等核心挑战,为具身智能研究提供清晰的技术脉络与未来方向参考。
FlinkHero1 浏览 VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文
概览
2024 至 2026 年间,机器人领域正经历一场深刻的范式转换:从传统的任务特定编程转向视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型。这类模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。
本文精选了 5 篇奠基性论文与 5 篇前沿力作,深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些工作代表了 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构的最新突破,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。
一、奠基之作:五篇核心理论论文
这部分论文奠定了 VLA 领域的理论基础和技术范式,是理解整个领域发展脉络的关键。
1. RT-2: New Model Translates Vision and Language into Action
发表机构:Google DeepMind
时间:2023 年 7 月
论文链接:Google DeepMind Blog

背景与挑战
传统机器人策略模型通常只能从有限的机器人演示数据中学习,导致泛化能力弱,难以处理新物体和场景。如何让机器人利用互联网海量的视觉 - 语言知识来理解世界并执行操作?
核心方案
RT-2 的核心创新在于将大规模视觉 - 语言模型(VLM)转化为视觉 - 语言 - 动作(VLA)模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM,通过联合训练的方式,在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。
与之前的 RT-1 相比,RT-1 仅从机器人演示数据学习,泛化能力受限于数据集覆盖范围;而 RT-2 继承了 VLM 的语义理解能力,能够执行训练数据中从未出现的指令(例如'把能当即兴锤子的东西递给我'→抓取石头)。
设计直觉
人类学习新技能时,不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出'哪些物体适合某个任务'。RT-2 把这种能力赋予了机器人。
应用价值
- 学术价值:首次证明互联网数据能有效迁移到机器人控制,开创 VLA 范式。
- 工业价值:降低机器人部署门槛,单一模型支持 700+ 任务,适用于仓储、家庭服务等场景。
- 社会价值:推动通用机器人助手的实现,缓解劳动力短缺。
2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
发表机构:21 所机构联合(Google DeepMind 领导)
时间:2023 年 10 月
论文链接:arXiv:2310.08864

背景与挑战
不同机器人平台(单臂、双臂、四足等)的数据格式各异、无法共享,导致每个新机器人都需要从零开始训练。如何打破'数据孤岛',让一个模型能控制多种机器人形态?
核心方案
构建了Open X-Embodiment 数据集,包含来自 22 种机器人形态的 100 万 + 真实轨迹、527 种技能、160,266 个任务,并提出RT-X 系列模型(RT-1-X 和 RT-2-X)实现跨 embodiment 的正迁移。
技术创新包括采用 RLDS 格式统一数据格式,支持不同动作空间和多模态输入;将不同机器人的动作统一映射到 7 维 end-effector 控制 + 256 bins 离散化;RT-2-X 在机器人数据和原始 VLM 数据上 1:1 比例联合训练。
设计直觉
就像人类驾驶不同品牌的汽车时,核心的'转向 - 加速 - 刹车'逻辑是通用的,只是操作界面略有差异。RT-X 通过标准化动作空间,让模型学习任务的本质而非特定硬件的差异。
- 学术价值:确立了机器人基础模型的数据集标准,催生 OpenVLA 等后续工作。
- 工业价值:降低新机器人平台的训练成本,支持快速定制化部署。
- 开放生态:22 机构合作模式推动社区数据共享,加速领域整体进步。
3. OpenVLA: An Open-Source Vision-Language-Action Model
发表机构:斯坦福大学、UC Berkeley、Physical Intelligence
时间:2024 年 6 月
论文链接:arXiv:2406.09246
背景与挑战
RT-2 等模型虽强大但闭源且参数量巨大(55B),限制了学术界和初创公司的使用。如何构建一个开源、高效、性能 SOTA的 VLA 模型,让更多人能在此基础上创新?
- Vision Encoder:融合 DINOv2(自监督学习的丰富特征)+ SigLIP(语言对齐的语义特征)
- Language Model:Llama 2 7B 作为 backbone
- Action Decoder:将动作离散化为 256 bins,视为 text token 预测问题
训练策略上,基于 Prismatic-7B VLM 进行微调,使用 Open X-Embodiment 数据集的 970k 轨迹,在 64 张 A100 GPU 上训练 15 天。
与闭源模型的差异在于参数效率更高(7B vs 55B),推理速度快 7 倍;且在 29 个任务上成功率比 RT-2-X 高 16.5%(绝对值)。此外支持 LoRA 微调,仅需调整 1.4% 参数即可适配新任务,支持消费级 GPU。
设计直觉
不是'越大越好',而是'精准融合'。DINOv2 捕捉物体的视觉细节,SigLIP 理解语义意图,Llama 2 整合推理能力——三者协同优于单纯堆参数。
- 学术价值:开源权重(permissive license)加速研究,成为 VLA 领域的'BERT 时刻'。
- 教育价值:7B 规模让学生和小团队也能实验 VLA,降低入门门槛。
- 商业价值:初创公司可基于 OpenVLA 快速构建垂直领域机器人(如餐饮、物流)。
4. 3D Diffusion Policy (DP3)
发表机构:MIT、清华大学、上海交通大学
时间:2023 年 12 月
论文链接:CoRL 2025
背景与挑战
2D 图像缺乏深度信息,导致机器人难以理解空间关系(物体遮挡、相对位置等),且对相机视角变化敏感。如何让策略模型具备3D 空间推理能力,同时保持高样本效率?
核心方案
将3D 点云表示与**扩散策略(Diffusion Policy)**结合。
技术实现上,输入为稀疏采样的单视角点云(非密集点云,计算高效);编码器采用轻量级 Point Transformer 提取 3D 特征;动作生成由扩散模型以 3D 表示为条件,迭代去噪生成动作序列。
与 2D CNN/ViT 相比,后者只能隐式推断深度,易受视角、光照影响;DP3 显式建模 3D 几何,泛化到新视角、新物体摆放。
设计直觉
人类看到桌上的杯子时,大脑自动构建 3D 心理模型——即使换个角度看,仍知道杯子在哪、如何抓取。DP3 让机器人也拥有这种 3D'心智地图'。
实验结果
在 72 个仿真任务中,仅用 10 个演示,成功率比 baseline 高 24.2%;在 4 个真实任务中,40 个演示,成功率 85%,泛化到新视角、新物体实例。
- 学术价值:证明 3D 表示对机器人策略的关键性,影响后续 SpatialVLA 等工作。
- 工业价值:适用于仓储拣选、装配等需要精准空间定位的场景。
- 技术价值:点云编码 + 扩散模型的组合成为新范式。
5. Octo: An Open-Source Generalist Robot Policy
发表机构:UC Berkeley、CMU、Google DeepMind
时间:2024 年 1 月
论文链接:Octo Models
背景与挑战
现有 VLA 模型往往针对特定机器人硬件设计,迁移到新传感器配置(如增加一个相机、换灵巧手)时需要重新训练。如何设计一个模块化、易于微调的泛化机器人策略?
核心方案
Transformer-based 扩散策略 + 模块化注意力机制。
架构特点包括灵活输入(支持语言指令或目标图像、观察历史、多相机)、扩散解码(生成连续动作分布而非离散化)、模块化微调(针对新传感器/动作空间,只需调整对应模块)。
提供两个版本:Octo-Small(27M 参数,快速推理)和 Octo-Base(93M 参数,更强性能)。训练数据来自 Open X-Embodiment 数据集的 800k episodes。
设计直觉
像搭积木一样构建机器人策略——视觉模块、语言模块、动作模块可以独立替换或升级,而不影响整体框架。
- 研究者快速测试新硬件配置。
- 工业界从 Octo-Small 原型快速迭代到 Octo-Base 生产版本。
- 学术价值:提供灵活的研究平台,降低实验成本。
- 工程价值:模块化设计成为后续 VLA 架构的设计参考。
- 开源贡献:GitHub 代码和预训练权重推动社区快速复现和改进。
二、前沿探索:五篇最新突破论文
这些论文代表了 2024-2026 年 VLA 领域的最新突破,引领未来发展方向。
6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots
背景与挑战
人形机器人需要全身协调控制(躯干、双臂、手腕、手指),传统 VLA 难以处理如此高维的动作空间,且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型?
核心方案
双系统设计(System 1 + System 2)。
- System 2(慢思考):基于 NVIDIA-Eagle + SmolLM-1.7B 的 VLM,处理视觉和语言,生成高层规划(latent cognitive representations),理解'整理房间'这类抽象任务,分解为子目标。
- System 1(快反应):Diffusion Transformer 动作模型,接收 System 2 的 latent vector,生成高频连续控制指令,控制上半身所有关节(肩膀、手肘、手腕、手指)。
训练数据混合包括第一视角人类视频(学习人机交互逻辑)、真实机器人轨迹(弥合 sim-to-real gap)、GPU 加速仿真数据(提供无限数据)、Latent Action Training(从无标注视频学习)。
设计直觉
人类行为也是'双系统'——System 2 负责思考'我要做什么',System 1 负责执行'手怎么动'。GR00T N1 模仿这种认知架构。
真实案例
1X 人形机器人在陌生家庭自主整理房间(GTC 2025 演示)。
- 工业价值:应对全球 5000 万 + 劳动力短缺,适用于物料搬运、包装、检查。
- 开源影响:开放权重(permissive license)加速全球人形机器人研发。
- 社会价值:推动人形机器人从科幻走向现实,1X CEO 称其为'伴侣而非工具'。
7. VITRA: Scalable VLA Pretraining with Human Videos
背景与挑战
机器人训练数据稀缺且昂贵(需要遥操作设备、标注动作参数),而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据?
步骤包括:1. 3D 手部运动重建,从人类视频中提取第一视角手部轨迹;2. VLA 格式转换,将人手动作映射到与机器人数据一致的结构化格式;3. 预训练 VLA,在大规模人类视频上预训练(100 万 +episodes);4. 少样本微调,仅用 1000+ 机器人遥操数据即可迁移到真实任务。
与传统方法相比,传统方法仅用机器人演示数据,规模受限于硬件和人力;VITRA 利用无限的人类视频资源,实现可扩展的预训练。
设计直觉
人类视频就像'教科书'——虽然手和机械手构造不同,但'抓杯子把手'、'倒水'这些操作逻辑是通用的。VITRA 让机器人通过观看人类视频学习这些逻辑。
- 随机位置抓取放置:成功率>80%
- 功能抓取(抓杯子把手):70%+
- 倒水、扫地:70%+
- 学术价值:开创 VLA 预训练新范式,证明人类视频的巨大潜力。
- 数据价值:互联网视频成为'取之不尽'的训练资源。
- 商业价值:大幅降低机器人训练成本,加速产品化进程。
8. Physical Intelligence π0.5: VLA with Open-World Generalization
背景与挑战
现有 VLA 模型在训练环境内表现优异,但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的'开放世界泛化能力'——在从未见过的环境中也能执行复杂任务?
核心方案
异构数据联合训练(Co-training on Heterogeneous Data)。
数据来源包括:1. 多样环境(100+ 不同家庭/办公室环境的移动操作数据);2. 多模态网络数据(问答、图像描述、物体检测);3. 多 embodiment 数据(单臂机器人、无移动底座机器人的数据);4. 语言指导演示(人类通过自然语言逐步指导机器人完成任务)。
架构设计上,基于π0 VLA(5B 参数 VLM + action expert),支持高层语义推理(下一步做什么)和低层运动控制(关节指令),采用Chain-of-Thought 式推理:模型先输出高层文本动作('pick up the pillow'),再生成低层连续动作。
解码方式采用离散解码 + 连续 Flow Matching:离散 pathway 推断高层动作,连续 pathway 生成 50-step (1 秒) 动作 chunk。
设计直觉
就像人类进入陌生房间时,会调用已有的'整理经验'(知道枕头放床上、杯子放厨房),而不需要在每个房间都学一遍。π0.5 通过在多样环境训练,学到任务的本质而非特定环境的记忆。
缩放研究
在 100 个训练环境后,模型在新环境的性能接近'在测试环境直接训练'的 baseline——证明泛化能力已接近上限。
- 学术价值:首次系统性证明 VLA 的开放世界泛化能力。
- 产品价值:支持'即买即用'的家庭服务机器人,无需针对每个家庭定制训练。
- 未来方向:模型可从自主经验改进、在陌生情况主动寻求帮助。
9. CoA-VLA: Chain-of-Affordance for Better Reasoning
背景与挑战
VLA 模型虽能执行语言指令,但缺乏可供性推理(affordance reasoning)——不理解'哪里可以放物体'、'如何避开障碍'。如何让 VLA 具备类似人类的空间推理能力?
核心方案
Chain-of-Affordance(CoA)框架。
设计思想包括:1. 语义识别,从自由文本指令中解析物体名称;2. 空间定位,预测物体的 2D 位置(grounding);3. 可供性推理,推断无碰撞路径、可放置区域;4. 双模态注入,将可供性知识转化为视觉可供性(图像标注)和文本可供性(语言描述),通过 vision-language co-injection 模块注入策略网络。
与 Vanilla VLA 相比,Vanilla VLA 直接从图像 + 指令生成动作,易碰撞、定位不准;CoA-VLA 显式建模空间约束,生成动作前先推理'哪里安全'。
设计直觉
人类执行'把杯子放桌上'时,会自动排除'边缘易掉落'、'已有物体占据'的位置,选择'平坦、空闲'的区域。CoA-VLA 让机器人也进行这种推理。
实验结果
超越 OpenVLA 成功率 30.65%(绝对值);模型参数更小、预训练数据更少,但性能更优。
- 学术价值:将推理(reasoning)引入 VLA,启发后续工作。
- 安全价值:降低机器人碰撞风险,适用于人机协作场景。
- 工业价值:提高抓取成功率,减少生产线故障。
10. WorldVLA: Autoregressive Action-World Model
背景与挑战
传统 VLA 只预测动作,不理解'物理规律'——不知道'推物体会移动'、'倒水杯子会满'。如何让 VLA 具备物理世界建模能力,生成更符合物理直觉的动作?
- World Model(世界模型):预测未来图像(conditioned on 当前观察 + 动作),学习环境物理规律。
- Action Model(动作模型):生成动作(conditioned on 视觉观察 + 语言指令),利用世界模型的物理理解辅助视觉理解。
训练策略上,联合优化(同时训练视频预测和动作预测),自回归框架(动作和图像 token 交错生成),Autoregressive Action Chunking(通过特殊 attention mask,每个动作仅基于视觉输入,减少歧义)。
设计直觉
人类学习新技能时,会在脑海中'预演'——想象'如果我这么做,会发生什么'。WorldVLA 让机器人也拥有这种'心理模拟'能力。
实验发现
有动作条件的世界模型优于纯视频预测模型(减少歧义);使用 2 帧历史输入比单帧好。
- 学术价值:将 world model 引入 VLA,开辟新研究方向。
- 仿真价值:世界模型可用于策略训练的'梦境演练'(类似 DreamerV3)。
- 长期规划:理解物理规律支持多步任务推理。
总结与未来展望
技术演进脉络
- 第一代(RT-1):从机器人数据学习,任务特定
- 第二代(RT-2, RT-X):融合互联网数据,跨 embodiment 泛化
- 第三代(OpenVLA, Octo):开源基础模型,模块化设计
- 第四代(GR00T, π0.5):双系统架构,开放世界泛化
- 未来方向(WorldVLA, CoA-VLA):物理推理、可供性理解
核心挑战
- 数据问题:真实机器人数据昂贵(VITRA 用人类视频缓解)
- Sim-to-Real Gap:仿真数据难以完全迁移(GR00T 混合真实 + 仿真数据)
- 实时性:高维动作空间推理速度慢(GR00T 双系统、WorldVLA action chunking)
- 安全性:开放环境中的碰撞风险(CoA-VLA 可供性推理)
- 长期规划:复杂任务需要多步推理(π0.5 的 chain-of-thought)
未来方向
- 更大规模预训练:利用全网视频(人类、动物、仿真)
- 自主学习:从失败经验中改进,减少人类监督
- 多模态感知:融合触觉(VTLA)、听觉(VLAS)
- 可解释性:理解 VLA 的推理过程,提高可信度
- 边缘部署:压缩模型至消费级硬件(4-bit 量化)
结语
VLA 模型正将机器人从'工具'转变为'智能体'。从 Google DeepMind 的 RT-2 奠基,到 NVIDIA GR00T N1 的人形机器人突破,再到微软 VITRA 的预训练新范式——这场革命才刚刚开始。
当机器人能像人类一样理解世界、推理任务、执行操作时,真正的通用机器人助手将不再是科幻。这 10 篇论文,正是通向未来的路标。
关键词:Vision-Language-Action, VLA 模型,机器人操作,具身智能,基础模型,多模态学习,迁移学习,人形机器人
建议阅读路径:RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online