深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进 | 极客日志

Python

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进

> 详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作（VLA）模型：π₀ 和 π₀.5，从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。 1\. 引言机器人领域正在经历一场由基础模型驱动的革命。正如大语言模型（LLM）改变了自然语言处理领域，**视觉-语言-动作模型（Vision-Language-Action, VLA）** 正在改变…

灵魂摆渡发布于 2026/4/6更新于 2026/7/2142K 浏览

本文详细对比分析 Physical Intelligence 公司发布的两代视觉-语言-动作（VLA）模型：π₀ 和 π₀.5，从设计目标、模型架构、训练方法、数据策略等多个维度进行深入解读。

1. 引言

机器人领域正在经历一场由基础模型驱动的革命。正如大语言模型（LLM）改变了自然语言处理领域，视觉-语言-动作模型（Vision-Language-Action, VLA） 正在改变机器人学习的范式。

Physical Intelligence 公司先后发布了两代 VLA 模型：

π₀（2024年10月）：首个通用机器人策略
π₀.5（2025年4月）：具备开放世界泛化能力的 VLA

本文将深入分析这两个模型的核心差异，帮助读者理解 VLA 技术的演进方向。

2. π₀：首个通用机器人策略

2.1 设计目标

π₀ 的核心目标是实现 灵巧操作（Dexterity） 和 跨具身控制（Cross-Embodiment）。

'…perform tasks that no prior robot learning system has done successfully, such as folding laundry or assembling a cardboard box'
—— π₀ 官方博客

π₀ 追求的是让机器人完成前所未有的复杂技能：

折叠衣物（从烘干机取出、整理、折叠成堆）
组装纸板箱
清理餐桌
装袋杂货

2.2 模型架构

π₀ 采用 双专家并行 + 共享注意力 的架构设计：

┌─────────────────────────────────────────────────────────────────────┐ │ π₀ 架构 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 输入 │ │ ├── 图像 ──► SigLIP 视觉编码器 │ │ ├── 语言 ──► Tokenizer │ │ └── 状态 ──► MLP 编码 │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM Expert (PaliGemma 3B) │ │ │ │ ↕ │ │ │ │ 逐层共享注意力机制 │ │ │ │ ↕ │ │ │ │ Action Expert (Gemma 300M) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ 输出: 连续动作（通过 Flow Matching 生成） │ │ │ └─────────────────────────────────────────────────────────────────────┘

关键设计特点：

双专家架构：VLM Expert 负责视觉-语言理解，Action Expert 负责动作生成
逐层共享注意力：两个专家在每一层通过共享自注意力机制交互
Flow Matching：使用流匹配（一种扩散模型变体）生成连续动作
非对称信息流：Action tokens 可以注意到 VLM tokens，但 VLM tokens 被遮蔽，保护预训练知识

2.3 训练数据

π₀ 的训练数据包括：

Open X-Embodiment：开源跨具身机器人数据集

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

输入: 图像 + 语言指令 + 机器人状态 + 噪声 │ ▼ ┌──────────────────┐ │ VLM 前向传播 │ ← 只运行 1 次，生成 KV Cache └────────┬─────────┘ │ ┌────────▼─────────┐ │ Flow Matching │ ← 迭代 10 次（欧拉积分） │ Action Expert │ └────────┬─────────┘ │ ▼ 输出: 50 步动作序列（Action Chunk）

┌─────────────────────────────────────────────────────────────────────┐ │ Knowledge Insulation 训练 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM Backbone 损失 │ │ │ │ │ │ │ │ FAST Token Loss Web Data Loss 高层次语义 Loss │ │ │ │ (离散动作预测) (VQA, Caption) (子任务预测) │ │ │ │ │ │ │ │ │ │ │ └─────────────────┼─────────────────┘ │ │ │ │ ▼ │ │ │ │ VLM Backbone │ │ │ └───────────────────────────┬─────────────────────────────┘ │ │ │ │ │ Stop Gradient ✕ ← 关键：梯度截断 │ │ │ │ │ ┌───────────────────────────┼─────────────────────────────┐ │ │ │ │ │ │ │ │ Flow Matching Loss │ │ │ │ │ │ │ │ │ ▼ │ │ │ │ Action Expert │ │ │ │ （梯度不传回 VLM） │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────┐ │ π₀.5 Co-Training 数据 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 多模态 Web 数据（WD） │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌───────────┐ │ │ │ │ │ 图像描述 │ │ VQA │ │ 物体检测 │ │ 通用多模态 │ │ │ │ │ └──────────┘ └──────────┘ └──────────┘ └───────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 机器人数据 │ │ │ │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐ │ │ │ │ │ ME 数据 │ │ CE 数据 │ │ 移动操作数据 │ │ │ │ │ │ (多环境静态 │ │ (跨具身 │ │ (~400小时) │ │ │ │ │ │ 机器人) │ │ 来自 π₀) │ │ │ │ │ │ │ └──────────────┘ └─────────────────┘ └──────────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────────────────────────────┐ │ │ │ 高层次语义数据 │ │ │ │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐ │ │ │ │ │ 语言指令 │ │ 子任务标注 │ │ 高层次规划 │ │ │ │ │ │ "关闭微波炉" │ │ "捡起枕头" │ │ │ │ │ │ │ └──────────────┘ └─────────────────┘ └──────────────┘ │ │ │ └────────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────┐ │ π₀.5 层次化推理流程 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ① 高层任务 │ │ "打扫卧室" │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ VLM 推理（高层） │ │ │ │ 输入: 图像 + "打扫卧室" │ │ │ │ 输出: "捡起枕头" ← 自动生成子任务 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ② 子任务 │ │ "捡起枕头" │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ Action Expert 推理（低层） │ │ │ │ 输入: 图像 + "捡起枕头" │ │ │ │ 输出: [-1.7, 1.25, 3.14, ...] (50步动作) │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ③ 执行动作 │ │ 机器人执行生成的动作序列 │ │ │ └─────────────────────────────────────────────────────────────────────┘

维度	π₀	π₀.5
核心目标	灵巧操作（Dexterity）	开放世界泛化（Generalization）
评估场景	训练环境或类似环境	从未见过的全新环境
代表任务	折叠衣物、组装盒子	在新家庭中打扫厨房/卧室

┌─────────────────────────────────────────────────────────────────────┐ │ 训练方法对比 │ ├───────────────────────────────┬─────────────────────────────────────┤ │ π₀ │ π₀.5 │ ├───────────────────────────────┼─────────────────────────────────────┤ │ │ │ │ Flow Matching Loss │ FAST Token + VLM Data + Flow │ │ │ │ │ │ │ ▼ │ ▼ │ │ Action Expert │ VLM Backbone │ │ │ │ │ │ │ │ 梯度流动 │ × Stop Gradient │ │ ▼ │ │ │ │ VLM Backbone │ Action Expert │ │ │ │ │ │ │ ▼ │ ▼ │ │ 预训练知识被破坏 ❌ │ 预训练知识被保护 ✅ │ │ │ │ └───────────────────────────────┴─────────────────────────────────────┘

数据类型	π₀	π₀.5
VLM 预训练	✅	✅
机器人动作数据	✅	✅
Web 多模态数据	❌	✅
高层次语义标注	❌	✅
多环境数据（ME）	有限	✅
跨具身数据（CE）	✅	✅

特性	π₀	π₀.5
推理层次	单层（任务→动作）	层次化（任务→子任务→动作）
Chain-of-Thought	❌	✅
自主任务分解	❌	✅

指标	π₀	π₀.5
训练步数	160K	20K（快 7.5 倍）
推理速度	快（Flow Matching）	快（相同）
分布内成功率	高	高
OOD 成功率	有限	94%
语言跟随率	较差	94%

配置	分布内成功率	OOD成功率	OOD语言跟随率
π₀.5（完整）	83%	94%	94%
no WD (去Web数据)	82%	74%	80%
no CE (去跨具身)	67%	49%	67%
no ME (去多环境)	57%	31%	33%

# π₀: 状态作为连续向量输入 state_embedding = self.state_proj(state)# MLP 编码# π₀.5: 状态离散化为语言 token，作为 prefix 的一部分 state_tokens = tokenize_state(state)# 离散化

# π₀: 时间步与动作嵌入拼接 action_with_time = torch.cat([action_emb, time_emb], dim=-1) output = self.mlp(action_with_time)# π₀.5: 使用 AdaRMS（Adaptive RMSNorm）# 时间步条件动态调整归一化的 scale 和 shiftclassAdaptiveRMSNorm:defforward(self, x, cond): normed = rms_norm(x)# cond 生成 scale, shift, gate scale, shift, gate = self.modulation(cond).chunk(3)return normed *(1+ scale)+ shift

┌─────────────────────────────────────────────────────────────────────┐ │ VLA 模型演进路线 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 第一代 VLA（RT-2, OpenVLA） │ │ └── 离散动作 token，精度低，速度慢 │ │ │ │ │ ▼ │ │ π₀（2024.10） │ │ ├── Flow Matching 连续动作 │ │ ├── 双专家架构 │ │ └── 灵巧操作能力强，但泛化有限 │ │ │ │ │ ▼ │ │ π₀.5（2025.4） │ │ ├── Knowledge Insulation │ │ ├── Co-Training 多源数据 │ │ ├── 层次化推理 │ │ └── 开放世界泛化能力 │ │ │ │ │ ▼ │ │ 未来：更强的推理、规划、自主改进能力 │ │ │ └─────────────────────────────────────────────────────────────────────┘

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进

1. 引言

2. π₀：首个通用机器人策略

2.1 设计目标

2.2 模型架构

2.3 训练数据

更多推荐文章

相关免费在线工具

2.4 推理流程

3. π₀.5：开放世界泛化的 VLA

3.1 设计目标

3.2 核心创新：Knowledge Insulation（知识隔离）

3.3 Co-Training 数据策略

3.4 层次化推理（类似 Chain-of-Thought）

4. π₀ 与 π₀.5 核心差异对比

4.1 设计目标对比

4.2 训练方法对比

4.3 数据策略对比

4.4 推理方式对比

4.5 性能对比

4.6 消融实验结果

5. 模型结构差异（代码层面）

5.1 状态输入方式

5.2 时间步注入方式

6. 总结

6.1 演进路线

6.2 核心结论

6.3 启示

参考资料

更多推荐文章

相关免费在线工具

深入解析 π₀ 与 π₀.5：Physical Intelligence 的机器人基础模型演进

1. 引言

2. π₀：首个通用机器人策略

2.1 设计目标

2.2 模型架构

2.3 训练数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.4 推理流程

3. π₀.5：开放世界泛化的 VLA

3.1 设计目标

3.2 核心创新：Knowledge Insulation（知识隔离）

3.3 Co-Training 数据策略

3.4 层次化推理（类似 Chain-of-Thought）

4. π₀ 与 π₀.5 核心差异对比

4.1 设计目标对比

4.2 训练方法对比

4.3 数据策略对比

4.4 推理方式对比

4.5 性能对比

4.6 消融实验结果

5. 模型结构差异（代码层面）

5.1 状态输入方式

5.2 时间步注入方式

6. 总结

6.1 演进路线

6.2 核心结论

6.3 启示

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具