VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文

VLA 机器人革命：解析当下 10 篇最关键的视觉 - 语言 - 动作模型论文

概览

2024-2026 年，机器人领域正经历一场范式转换：从传统的任务特定编程转向视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中，让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选5 篇最 fundamental 的基础性论文和5 篇热度最高的前沿论文，深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些论文代表了从 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构的最新突破，涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。

Part I: 五篇 Fundamental 基础性论文

这些论文奠定了 VLA 领域的理论基础和技术范式，是理解整个领域发展脉络的关键。

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023 年 7 月
论文链接：Google DeepMind Blog

RT-2 Robotics Transformer

1) 要解决什么问题

传统机器人策略模型只能从有限的机器人演示数据中学习，导致泛化能力弱、无法处理新物体和场景。如何让机器人像人类一样，利用互联网海量的视觉 - 语言知识来理解世界并执行操作？

2) 解决思路与已有方法的不同

核心创新：RT-2 将大规模视觉 - 语言模型（VLM）转化为视觉 - 语言 - 动作（VLA）模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM，通过联合训练的方式，在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。

与已有方法的差异：

RT-1：仅从机器人演示数据学习，泛化能力受限于数据集覆盖范围
RT-2：继承了 VLM 的语义理解能力，能够执行训练数据中从未出现的指令（如"把能当即兴锤子的东西递给我"→抓取石头）

技术实现：将机器人动作表示为文本 tokens，使 VLM 的 decoder 可以同时输出语言和动作序列。这种统一表示让模型能在 vision-language 任务和 robot control 任务间共享知识。

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出"哪些物体适合某个任务"。RT-2 把这种能力赋予了机器人。

为什么有效：

常识推理：VLM 预训练让模型理解物体属性（坚硬、柔软、可食用等），支持零样本泛化
语义理解：支持抽象指令（'把垃圾扔掉'）和多步推理（chain-of-thought）

VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文

VLA 机器人革命：解析当下 10 篇最关键的视觉 - 语言 - 动作模型论文

概览

Part I: 五篇 Fundamental 基础性论文

1. RT-2: New Model Translates Vision and Language into Action

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4) 可能的价值

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

3. OpenVLA: An Open-Source Vision-Language-Action Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

4. 3D Diffusion Policy (DP3)

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

5. Octo: An Open-Source Generalist Robot Policy

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

Part II: 五篇热度最高的前沿论文

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

7. VITRA: Scalable VLA Pretraining with Human Videos

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

8. Physical Intelligence π0.5: VLA with Open-World Generalization

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

10. WorldVLA: Autoregressive Action-World Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

总结与未来展望

技术演进脉络

核心挑战

未来方向

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具