跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

物理智能 π₀ 与 π₀.5 模型深度解析:架构、训练与泛化演进

综述由AI生成物理智能发布的 π₀ 系列 VLA 模型展示了机器人基础模型的快速迭代。π₀ 聚焦灵巧操作,采用双专家架构;π₀.5 通过知识隔离和协同训练实现开放世界泛化。核心差异在于训练策略而非结构,知识隔离保护了预训练能力,层次化推理提升了任务分解效率。实验表明 π₀.5 在未见环境下的成功率显著提升,为具身智能提供了新范式。

氛围发布于 2026/4/9更新于 2026/5/2317 浏览

引言

机器人领域正经历由基础模型驱动的革命。如同大语言模型重塑了自然语言处理,视觉 - 语言 - 动作模型(VLA)正在改变机器人学习的范式。

Physical Intelligence 公司先后发布了两代 VLA 模型:

  • π₀(2024 年 10 月):首个通用机器人策略
  • π₀.5(2025 年 4 月):具备开放世界泛化能力的 VLA

本文将深入分析这两个模型的核心差异,帮助理解 VLA 技术的演进方向。

π₀:首个通用机器人策略

设计目标

π₀ 的核心目标是实现灵巧操作和跨具身控制。它追求让机器人完成前所未有的复杂技能,例如折叠衣物、组装纸板箱、清理餐桌或装袋杂货。

模型架构

π₀ 采用双专家并行加共享注意力的架构设计。这种设计允许 VLM Expert 负责视觉 - 语言理解,而 Action Expert 专注于动作生成。

┌─────────────────────────────────────────────────────────────────────┐
│ π₀ 架构                                                            │
├─────────────────────────────────────────────────────────────────────┤
│ 输入                                                               │
│ ├── 图像 ──► SigLIP 视觉编码器                                      │
│ ├── 语言 ──► Tokenizer                                             │
│ └── 状态 ──► MLP 编码                                                │
│                                                                    │
│ ▼                                                                  │
│ ┌─────────────────────────────────────────────────────────┐        │
│ │ VLM Expert (PaliGemma 3B)                               │        │
│ │ ↕                                                        │        │
│ │ 逐层共享注意力机制                                       │        │
│ │ ↕                                                        │        │
│ │ Action Expert (Gemma 300M)                              │        │
│ └─────────────────────────────────────────────────────────┘        │
│                                                                    │
│ ▼                                                                  │
│ 输出:连续动作(通过 Flow Matching 生成)                           │
└─────────────────────────────────────────────────────────────────────┘

关键设计特点包括:

  1. 双专家架构:职责分离,VLM 理解,Action 生成。
  2. 逐层共享注意力:两层专家通过共享自注意力机制交互。
  3. Flow Matching:使用流匹配生成连续动作。
  4. 非对称信息流:Action tokens 可关注 VLM tokens,但 VLM tokens 被遮蔽以保护预训练知识。

训练数据

训练数据主要包含 Open X-Embodiment 开源数据集、基于 PaliGemma 的互联网规模预训练以及来自 8 种不同机器人的灵巧任务数据。

推理流程

推理时先进行 VLM 前向传播生成 KV Cache,随后通过 Flow Matching 迭代生成动作序列。

输入:图像 + 语言指令 + 机器人状态 + 噪声
▼
┌──────────────────┐
│ VLM 前向传播     │ ← 只运行 1 次,生成 KV Cache
└────────┬─────────┘
         │
┌────────▼─────────┐
│ Flow Matching    │ ← 迭代 10 次(欧拉积分)
│ Action Expert    │
└────────┬─────────┘
         │
▼
输出:50 步动作序列(Action Chunk)

π₀.5:开放世界泛化的 VLA

设计目标

π₀.5 的核心目标是实现开放世界泛化。它要求机器人在从未见过的新家庭中执行任务,理解任务的语义结构并自主分解,处理新物体和新场景。

核心创新:Knowledge Insulation

π₀ 存在一个严重问题:训练时 Action Expert 的梯度会破坏 VLM 的预训练知识,导致训练速度慢、语言指令跟随能力下降及泛化受限。

π₀.5 通过 Knowledge Insulation 解决这个问题,关键在于梯度截断,防止低层动作训练的梯度回传到高层语义模型。

┌─────────────────────────────────────────────────────────────────────┐
│ Knowledge Insulation 训练                                            │
├─────────────────────────────────────────────────────────────────────┤
│  ┌─────────────────────────────────────────────────────────┐       │
│  │ VLM Backbone 损失                                         │       │
│  │ FAST Token Loss Web Data Loss 高层次语义 Loss             │       │
│  │ (离散动作预测) (VQA, Caption) (子任务预测)                │       │
│  └─────────────────┼─────────────────┘                       │
│                    ▼                                          │
│  ┌───────────────────────────┬─────────────────────────────┐ │
│  │ VLM Backbone              │                             │ │
│  └───────────────────────────┼─────────────────────────────┘ │
│                    │ Stop Gradient ✕ ← 关键:梯度截断          │
│                    │                                         │
│  ┌───────────────────────────┼─────────────────────────────┐ │
│  │ Flow Matching Loss        │                             │ │
│  │ Action Expert             │                             │ │
│  │ (梯度不传回 VLM)        │                             │ │
│  └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────┘

三个关键点:

  1. Stop Gradient:Action Expert 的梯度不传给 VLM Backbone。
  2. FAST Token Loss:用离散动作 token 训练 VLM,快速学习运动表示。
  3. VLM Data Co-training:同时训练 Web 数据,保持语言理解能力。

Co-Training 数据策略

π₀.5 采用协同训练策略,融合多种数据源:

┌─────────────────────────────────────────────────────────────────────┐
│ π₀.5 Co-Training 数据                                                 │
├─────────────────────────────────────────────────────────────────────┤
│  ┌────────────────────────────────────────────────────────────┐     │
│  │ 多模态 Web 数据(WD)                                        │     │
│  │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌───────────┐       │     │
│  │ │ 图像描述 │ │ VQA      │ │ 物体检测 │ │ 通用多模态│       │     │
│  │ └──────────┘ └──────────┘ └──────────┘ └───────────┘       │     │
│  └────────────────────────────────────────────────────────────┘     │
│                                                                    │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │ 机器人数据                                                   │     │
│  │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐     │     │
│  │ │ ME 数据      │ │ CE 数据         │ │ 移动操作数据 │     │     │
│  │ │ (多环境静态) │ │ (跨具身)        │ │ (~400 小时)   │     │     │
│  │ └──────────────┘ └─────────────────┘ └──────────────┘     │     │
│  └────────────────────────────────────────────────────────────┘     │
│                                                                    │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │ 高层次语义数据                                               │     │
│  │ ┌──────────────┐ ┌─────────────────┐ ┌──────────────┐     │     │
│  │ │ 语言指令     │ │ 子任务标注      │ │ 高层次规划   │     │     │
│  │ │ "关闭微波炉" │ │ "捡起枕头"      │ │               │     │     │
│  │ └──────────────┘ └─────────────────┘ └──────────────┘     │     │
│  └────────────────────────────────────────────────────────────┘     │
└─────────────────────────────────────────────────────────────────────┘

层次化推理

π₀.5 采用层次化推理流程,类似于 LLM 中的 Chain-of-Thought:

┌─────────────────────────────────────────────────────────────────────┐
│ π₀.5 层次化推理流程                                                  │
├─────────────────────────────────────────────────────────────────────┤
│ ① 高层任务                                                         │
│ "打扫卧室"                                                         │
│ ▼                                                                  │
│ ┌─────────────────────────────────────────────────────────┐        │
│ │ VLM 推理(高层)                                           │        │
│ │ 输入:图像 + "打扫卧室"                                    │        │
│ │ 输出:"捡起枕头" ← 自动生成子任务                          │        │
│ └─────────────────────────────────────────────────────────┘        │
│ │                                                                  │
│ ▼                                                                  │
│ ② 子任务                                                           │
│ "捡起枕头"                                                         │
│ ▼                                                                  │
│ ┌─────────────────────────────────────────────────────────┐        │
│ │ Action Expert 推理(低层)                                 │        │
│ │ 输入:图像 + "捡起枕头"                                    │        │
│ │ 输出:[-1.7, 1.25, 3.14, ...] (50 步动作)                  │        │
│ └─────────────────────────────────────────────────────────┘        │
│ │                                                                  │
│ ▼                                                                  │
│ ③ 执行动作                                                         │
│ 机器人执行生成的动作序列                                             │
└─────────────────────────────────────────────────────────────────────┘

π₀ 与 π₀.5 核心差异对比

设计目标对比

维度π₀π₀.5
核心目标灵巧操作(Dexterity)开放世界泛化(Generalization)
评估场景训练环境或类似环境从未见过的全新环境
代表任务折叠衣物、组装盒子在新家庭中打扫厨房/卧室

训练方法对比

π₀ 依赖 Flow Matching Loss,Action Expert 直接更新 VLM Backbone,导致预训练知识被破坏。π₀.5 引入 Knowledge Insulation,梯度截断保护了 VLM Backbone,使得训练快 7.5 倍且语言理解更好。

数据策略对比

数据类型π₀π₀.5
VLM 预训练✅✅
机器人动作数据✅✅
Web 多模态数据❌✅
高层次语义标注❌✅
多环境数据(ME)有限✅
跨具身数据(CE)✅✅

性能对比

指标π₀π₀.5
训练步数160K20K(快 7.5 倍)
推理速度快(Flow Matching)快(相同)
分布内成功率高高
OOD 成功率有限94%
语言跟随率较差94%

消融实验显示,Web 数据对 OOD 泛化最重要,多环境数据对所有条件都重要,跨具身数据提供通用物理技能。

模型结构差异(代码层面)

从 openpi 代码库来看,两者结构差异很小,主要体现在两点:

状态输入方式

# π₀:状态作为连续向量输入
state_embedding = self.state_proj(state)
# MLP 编码

# π₀.5:状态离散化为语言 token,作为 prefix 的一部分
state_tokens = tokenize_state(state)
# 离散化

时间步注入方式

# π₀:时间步与动作嵌入拼接
action_with_time = torch.cat([action_emb, time_emb], dim=-1)
output = self.mlp(action_with_time)

# π₀.5:使用 AdaRMS(Adaptive RMSNorm)
# 时间步条件动态调整归一化的 scale 和 shift
class AdaptiveRMSNorm:
    def forward(self, x, cond):
        normed = rms_norm(x)
        # cond 生成 scale, shift, gate
        scale, shift, gate = self.modulation(cond).chunk(3)
        return normed * (1 + scale) + shift

总结

演进路线

第一代 VLA(RT-2, OpenVLA)使用离散动作 token,精度低速度慢。π₀ 引入 Flow Matching 连续动作和双专家架构,灵巧操作强但泛化有限。π₀.5 通过 Knowledge Insulation、Co-Training 和层次化推理实现了开放世界泛化。未来将朝向更强的推理、规划和自主改进能力发展。

核心结论

  1. π₀ vs π₀.5 的核心差异不在模型结构,而在训练方法和数据策略。
  2. Knowledge Insulation 是关键创新:Stop Gradient 保护 VLM 预训练知识,FAST Token 快速学习运动表示,训练快 7.5 倍,语言理解更好。
  3. Co-Training 实现泛化:Web 数据提供语义理解,多环境数据提供场景泛化,跨具身数据提供通用技能。
  4. 层次化推理:类似 Chain-of-Thought,先生成高层语言指令,再生成低层动作。

启示

π₀ 到 π₀.5 的演进表明,VLA 模型的发展方向是保护预训练知识,而非简单地端到端训练;需要多模态协同训练,融合 Web 数据、机器人数据和语义标注;应让模型学会'思考'而不只是'反应'。

参考资料

  1. π₀ 官方博客
  2. π₀.5 官方博客
  3. Knowledge Insulation 论文
  4. openpi 开源代码库

目录

  1. 引言
  2. π₀:首个通用机器人策略
  3. 设计目标
  4. 模型架构
  5. 训练数据
  6. 推理流程
  7. π₀.5:开放世界泛化的 VLA
  8. 设计目标
  9. 核心创新:Knowledge Insulation
  10. Co-Training 数据策略
  11. 层次化推理
  12. π₀ 与 π₀.5 核心差异对比
  13. 设计目标对比
  14. 训练方法对比
  15. 数据策略对比
  16. 性能对比
  17. 模型结构差异(代码层面)
  18. 状态输入方式
  19. π₀:状态作为连续向量输入
  20. MLP 编码
  21. π₀.5:状态离散化为语言 token,作为 prefix 的一部分
  22. 离散化
  23. 时间步注入方式
  24. π₀:时间步与动作嵌入拼接
  25. π₀.5:使用 AdaRMS(Adaptive RMSNorm)
  26. 时间步条件动态调整归一化的 scale 和 shift
  27. 总结
  28. 演进路线
  29. 核心结论
  30. 启示
  31. 参考资料
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Spring AI MCP Server 集成与示例
  • C++ 类与对象进阶特性与编译器优化实战
  • Java 实现决策树算法:从原理到代码实战
  • LeetCode 962. 最大宽度坡 C 语言解法
  • MCP Server 实现 Excel 表格一键生成可视化图表 HTML 报告
  • VSCode + Copilot
  • RAGFlow 深度解析:架构、部署与应用实战
  • Linux ar 命令备份压缩实操指南
  • 基于 OpenClaw 搭建 QQ AI 办公机器人:关键词触发与邮件集成
  • 5 个 nano banana 提示词资源网站及用法指南
  • Vue3 开发:JavaScript 与 TypeScript 选型对比
  • stable-diffusion-videos 音乐视频制作教程:实现 AI 视频与音乐节奏同步
  • 文心一言 4.5 开源版本本地化部署指南与性能测试
  • 如何降低豆包生成论文的 AIGC 检测率?工具实测对比
  • Ubuntu 部署 OpenClaw 完整教程
  • 大模型落地路线图研究报告(2024 年)
  • 顶级大模型普遍经过知识蒸馏:研究揭示量化方法与影响
  • AI 时代内存需求激增:能源、隐私与绿色技术深度解析
  • Stable Diffusion v1.5 电商视觉实战:主图/Banner/邮件头图生成方案
  • VSCode Copilot 接入 Figma MCP 自动生成代码实战

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online