跳到主要内容VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文 | 极客日志编程语言AI算法
VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文
视觉 - 语言 - 动作(VLA)模型正在重塑机器人领域,从任务特定编程转向统一框架下的感知与执行。梳理了 10 篇关键论文,涵盖 Google DeepMind 的 RT-2 奠基之作、OpenVLA 开源生态建设、NVIDIA GR00T 人形机器人突破以及物理推理与开放世界泛化的前沿探索。通过分析基础理论如 RT-X 跨实体迁移、3D 扩散策略,到前沿应用如双系统架构与人类视频预训练,揭示了 VLA 技术从数据孤岛打破到通用智能体进化的完整脉络。核心挑战集中在数据稀缺、仿真到现实迁移、实时性与安全性,未来将向更大规模预训练、自主学习及边缘部署方向发展。
月亮邮递员1 浏览 VLA 机器人革命:解析 10 篇关键视觉 - 语言 - 动作模型论文
概览
2024 至 2026 年,机器人领域正经历一场范式转换:从传统的任务特定编程转向视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。
本文精选了 5 篇最基础的理论论文和 5 篇热度最高的前沿论文,深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些成果来自 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。
基础奠基:五篇核心理论论文
这部分内容奠定了 VLA 领域的理论基础和技术范式,是理解整个领域发展脉络的关键。
1. RT-2: New Model Translates Vision and Language into Action
发表机构:Google DeepMind
时间:2023 年 7 月
链接:Google DeepMind Blog

核心挑战:传统机器人策略模型只能从有限的机器人演示数据中学习,导致泛化能力弱、无法处理新物体和场景。如何让机器人利用互联网海量的视觉 - 语言知识来理解世界?
创新路径:RT-2 将大规模视觉 - 语言模型(VLM)转化为 VLA 模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM,通过联合训练的方式,在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。
与早期的 RT-1 仅从机器人演示数据学习不同,RT-2 继承了 VLM 的语义理解能力,能够执行训练数据中从未出现的指令(例如'把能当即兴锤子的东西递给我'→抓取石头)。技术实现上,它将机器人动作表示为文本 tokens,使 VLM 的 decoder 可以同时输出语言和动作序列。这种统一表示让模型能在 vision-language 任务和 robot control 任务间共享知识。
直觉与价值:人类学习新技能时不需要亲自尝试每一个物体,而是通过观察图片和阅读文字积累常识。RT-2 赋予了机器人这种能力。其支持零样本泛化、抽象指令和多步推理,大幅降低了训练成本。学术上首次证明互联网数据能有效迁移到机器人控制,工业上则降低了部署门槛,适用于仓储和家庭服务场景。
2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models
发表机构:21 所机构联合(Google DeepMind 领导)
时间:2023 年 10 月
链接:arXiv:2310.08864

核心挑战:不同机器人平台的数据格式各异、无法共享,导致每个新机器人都需要从零开始训练。如何打破'数据孤岛',让一个模型能控制多种机器人形态?
创新路径:构建了 Open X-Embodiment 数据集,包含来自 22 种机器人形态的 100 万 + 真实轨迹、527 种技能、160,266 个任务,并提出 RT-X 系列模型实现跨 embodiment 的正迁移。
技术创新点在于统一数据格式(采用 RLDS 格式)、动作空间标准化(映射到 7 维 end-effector 控制 + 256 bins 离散化),以及混合训练(RT-2-X 在机器人数据和原始 VLM 数据上 1:1 比例联合训练)。
直觉与价值:就像人类驾驶不同品牌的汽车时,核心的'转向 - 加速 - 刹车'逻辑是通用的。RT-X 通过标准化动作空间,让模型学习任务的本质而非特定硬件的差异。100 万轨迹的规模让模型看到足够的任务组合,在 A 机器人上学到的'抓取'知识能迁移到 B 机器人。这确立了机器人基础模型的数据集标准,推动社区数据共享。
3. OpenVLA: An Open-Source Vision-Language-Action Model
核心挑战:RT-2 等模型虽强大但闭源且参数量巨大(55B),限制了学术界和初创公司的使用。如何构建一个开源、高效、性能 SOTA 的 VLA 模型?
创新路径:架构上融合 DINOv2(自监督特征)+ SigLIP(语言对齐特征)作为 Vision Encoder,Llama 2 7B 作为 backbone,并将动作离散化为 256 bins 视为 text token 预测问题。训练基于 Prismatic-7B VLM 微调,使用 Open X-Embodiment 数据集的 970k 轨迹,在 64 张 A100 GPU 上训练 15 天。
相比闭源模型,OpenVLA 参数效率更高(7B vs 55B),推理速度快 7 倍,且在 29 个任务上成功率比 RT-2-X 高 16.5%。支持 LoRA 微调,仅需调整 1.4% 参数即可适配新任务。
直觉与价值:不是'越大越好',而是'精准融合'。DINOv2 捕捉细节,SigLIP 理解意图,Llama 2 整合推理。开源权重成为 VLA 领域的'BERT 时刻',让学生和小团队也能实验 VLA,降低入门门槛。
4. 3D Diffusion Policy (DP3)
发表机构:MIT、清华大学、上海交通大学
时间:2023 年 12 月
链接:CoRL 2025
核心挑战:2D 图像缺乏深度信息,导致机器人难以理解空间关系,且对相机视角变化敏感。如何让策略模型具备 3D 空间推理能力?
创新路径:将 3D 点云表示与扩散策略结合。输入稀疏采样的单视角点云,使用轻量级 Point Transformer 提取 3D 特征,扩散模型以 3D 表示为条件迭代去噪生成动作序列。
相比 2D CNN/ViT 只能隐式推断深度,DP3 显式建模 3D 几何,泛化到新视角和新物体摆放。实验显示在 72 个仿真任务中,仅用 10 个演示,成功率比 baseline 高 24.2%;4 个真实任务成功率达 85%。
直觉与价值:人类大脑会自动构建 3D 心理模型。DP3 让机器人拥有这种 3D'心智地图'。几何不变性和遮挡鲁棒性使其适用于仓储拣选等需要精准空间定位的场景。
5. Octo: An Open-Source Generalist Robot Policy
发表机构:UC Berkeley、CMU、Google DeepMind
时间:2024 年 1 月
链接:Octo Models
核心挑战:现有 VLA 模型往往针对特定机器人硬件设计,迁移到新传感器配置时需要重新训练。如何设计模块化、易于微调的泛化机器人策略?
创新路径:Transformer-based 扩散策略 + 模块化注意力机制。支持语言指令或目标图像、观察历史、多相机输入。扩散解码生成连续动作分布。针对新传感器/动作空间,只需调整对应模块。
提供两个版本:Octo-Small(27M 参数,快速推理)和 Octo-Base(93M 参数,更强性能)。训练数据来自 Open X-Embodiment 数据集的 800k episodes。
直觉与价值:像搭积木一样构建机器人策略。模块化注意力允许不同模态独立处理再融合。新机器人只需微调 action decoder 和部分 transformer 层,无需从头训练。为研究者提供了灵活的平台,降低实验成本。
前沿突破:五篇热度最高的论文
这部分代表了 2024-2026 年 VLA 领域的最新突破,引领未来发展方向。
6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots
核心挑战:人形机器人需要全身协调控制,传统 VLA 难以处理如此高维的动作空间,且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型?
创新路径:双系统设计(System 1 + System 2)。System 2 基于 NVIDIA-Eagle + SmolLM-1.7B 的 VLM,处理视觉和语言,生成高层规划。System 1 为 Diffusion Transformer 动作模型,接收 System 2 的 latent vector,生成高频连续控制指令,控制上半身所有关节。
训练数据混合了第一视角人类视频、真实机器人轨迹、GPU 加速仿真数据及 Latent Action Training。System 1 以 7Hz 生成动作块,配合底层控制器实现平滑执行。这是首个支持整个上半身连续控制的 VLA。
直觉与价值:模仿人类的双系统认知架构。解耦思考与执行,各司其职。真实案例包括 1X 人形机器人在陌生家庭自主整理房间。开放权重加速全球人形机器人研发,推动从科幻走向现实。
7. VITRA: Scalable VLA Pretraining with Human Videos
核心挑战:机器人训练数据稀缺且昂贵,而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据?
创新路径:自动化重建管道。步骤包括 3D 手部运动重建、VLA 格式转换、在大规模人类视频上预训练(100 万 +episodes),最后仅用 1000+ 机器人遥操数据进行少样本微调。
相比传统方法仅用机器人演示数据,VITRA 利用无限的人类视频资源。预训练模型在未见人手动作上展现更强预测能力,微调后成功率从 30-40% 提升至 70%+。面对训练中未见物体仍保持~70% 成功率。
直觉与价值:人类视频就像'教科书'。虽然手和机械手构造不同,但操作逻辑通用。开创 VLA 预训练新范式,互联网视频成为取之不尽的训练资源,大幅降低机器人训练成本。
8. Physical Intelligence π0.5: VLA with Open-World Generalization
核心挑战:现有 VLA 模型在训练环境内表现优异,但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的开放世界泛化能力?
创新路径:异构数据联合训练。数据来源包括多样环境(100+ 家庭/办公室)、多模态网络数据、多 embodiment 数据及语言指导演示。架构基于π0 VLA,支持高层语义推理和低层运动控制,采用 Chain-of-Thought 式推理。
离散 pathway 推断高层动作,连续 pathway 生成 50-step 动作 chunk。在 100 个训练环境后,模型在新环境的性能接近直接训练的 baseline,证明泛化能力已接近上限。
直觉与价值:人类进入陌生房间会调用已有的整理经验。π0.5 学到的是任务本质而非特定环境的记忆。支持'即买即用'的家庭服务机器人,无需针对每个家庭定制训练。
9. CoA-VLA: Chain-of-Affordance for Better Reasoning
核心挑战:VLA 模型缺乏可供性推理(affordance reasoning)——不理解'哪里可以放物体'、'如何避开障碍'。如何让 VLA 具备类似人类的空间推理能力?
创新路径:Chain-of-Affordance(CoA)框架。流程包括语义识别、空间定位、可供性推理(推断无碰撞路径、可放置区域),并通过 vision-language co-injection 模块注入策略网络。
相比 Vanilla VLA 直接从图像 + 指令生成动作,CoA-VLA 显式建模空间约束,生成动作前先推理'哪里安全'。超越 OpenVLA 成功率 30.65%,模型参数更小但性能更优。
直觉与价值:人类执行指令时会自动排除易掉落或占据的位置。CoA-VLA 让机器人也进行这种推理。精确性、鲁棒性和泛化性显著提升,降低碰撞风险,提高抓取成功率。
10. WorldVLA: Autoregressive Action-World Model
核心挑战:传统 VLA 只预测动作,不理解物理规律。如何让 VLA 具备物理世界建模能力,生成更符合物理直觉的动作?
创新路径:统一动作模型和世界模型。World Model 预测未来图像,学习环境物理规律;Action Model 生成动作,利用世界模型的物理理解辅助视觉理解。训练策略为联合优化,自回归框架下动作和图像 token 交错生成。
相比纯视频预测模型,有动作条件的世界模型优于前者。使用 2 帧历史输入比单帧好。双向促进机制下,物理知识提升抓取成功率 4%,行为理解降低 FVD 指标 10%。
直觉与价值:人类学习新技能时会在脑海中预演。WorldVLA 让机器人拥有这种'心理模拟'能力。开辟新研究方向,世界模型可用于策略训练的梦境演练,理解物理规律支持多步任务推理。
总结与未来展望
技术演进脉络
第一代(RT-1)从机器人数据学习,任务特定;第二代(RT-2, RT-X)融合互联网数据,跨 embodiment 泛化;第三代(OpenVLA, Octo)开源基础模型,模块化设计;第四代(GR00T, π0.5)双系统架构,开放世界泛化;未来方向(WorldVLA, CoA-VLA)聚焦物理推理、可供性理解。
核心挑战
- 数据问题:真实机器人数据昂贵(VITRA 用人类视频缓解)
- Sim-to-Real Gap:仿真数据难以完全迁移(GR00T 混合真实 + 仿真数据)
- 实时性:高维动作空间推理速度慢(GR00T 双系统、WorldVLA action chunking)
- 安全性:开放环境中的碰撞风险(CoA-VLA 可供性推理)
- 长期规划:复杂任务需要多步推理(π0.5 的 chain-of-thought)
未来方向
- 更大规模预训练:利用全网视频(人类、动物、仿真)
- 自主学习:从失败经验中改进,减少人类监督
- 多模态感知:融合触觉(VTLA)、听觉(VLAS)
- 可解释性:理解 VLA 的推理过程,提高可信度
- 边缘部署:压缩模型至消费级硬件(4-bit 量化)
结语
VLA 模型正将机器人从'工具'转变为'智能体'。从 Google DeepMind 的 RT-2 奠基,到 NVIDIA GR00T N1 的人形机器人突破,再到微软 VITRA 的预训练新范式——这场革命才刚刚开始。当机器人能像人类一样理解世界、推理任务、执行操作时,真正的通用机器人助手将不再是科幻。这 10 篇论文,正是通向未来的路标。
推荐阅读顺序:RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- 随机西班牙地址生成器
随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
- Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online