本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作(VLA)模型:π₀ 和 π₀.5,从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。
1. 引言
机器人领域正在经历一场由基础模型驱动的革命。正如大语言模型(LLM)改变了自然语言处理领域,视觉-语言-动作模型(Vision-Language-Action, VLA) 正在改变机器人学习的范式。
Physical Intelligence 公司先后发布了两代 VLA 模型:
- π₀(2024年10月):首个通用机器人策略
- π₀.5(2025年4月):具备开放世界泛化能力的 VLA
本文将深入分析这两个模型的核心差异,帮助读者理解 VLA 技术的演进方向。
2. π₀:首个通用机器人策略
2.1 设计目标
π₀ 的核心目标是实现 灵巧操作(Dexterity) 和 跨具身控制(Cross-Embodiment)。
'…perform tasks that no prior robot learning system has done successfully, such as folding laundry or assembling a cardboard box'
—— π₀ 官方博客
π₀ 追求的是让机器人完成前所未有的复杂技能:
- 折叠衣物(从烘干机取出、整理、折叠成堆)
- 组装纸板箱
- 清理餐桌
- 装袋杂货
2.2 模型架构
π₀ 采用 双专家并行 + 共享注意力 的架构设计:
┌─────────────────────────────────────────────────────────────────────┐ │ π₀ 架构 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 输入 │ │ ├── 图像 ──► SigLIP 视觉编码器 │ │ ├── 语言 ──► Tokenizer │ │ └── 状态 ──► MLP 编码 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM Expert (PaliGemma 3B) │ │ │ │ ↕ │ │ │ │ 逐层共享注意力机制 │ │ │ │ ↕ │ │ │ │ Action Expert (Gemma 300M) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ 输出: 连续动作(通过 Flow Matching 生成) │ │ │ └─────────────────────────────────────────────────────────────────────┘
关键设计特点:
- 双专家架构:VLM Expert 负责视觉-语言理解,Action Expert 负责动作生成
- 逐层共享注意力:两个专家在每一层通过共享自注意力机制交互
- Flow Matching:使用流匹配(一种扩散模型变体)生成连续动作
- 非对称信息流:Action tokens 可以注意到 VLM tokens,但 VLM tokens 被遮蔽,保护预训练知识
2.3 训练数据
π₀ 的训练数据包括:
- Open X-Embodiment:开源跨具身机器人数据集

