π₀:具身智能领域的里程碑式工作
Physical Intelligence 团队发布的 π₀ 是具身智能(Embodied AI)领域的一个标志性成果。它提出了首个基于流匹配(Flow Matching)的大型视觉 - 语言 - 动作(VLA)基础模型,在折叠衣服、清理桌面、组装纸箱等高难度灵巧操作任务上,实现了前所未有的自主水平。
核心架构与设计思路
VLM + 独立动作专家 + Flow Matching
π₀ 的架构设计非常克制且高效。它没有试图用一个庞大的网络解决所有问题,而是采用了组合策略:
- 基础模型:采用预训练的视觉语言模型 PaliGemma(3B 参数),继承互联网级的丰富语义和常识推理能力。
- 动作专家:为了避免破坏 VLM 的语义表征,引入了一个独立的 Transformer 结构(约 300M 参数)专门处理本体感觉(State)和动作(Action)。这类似于 MoE(混合专家)架构的思路。
- 动作生成机制:摒弃了传统 VLA(如 RT-2, OpenVLA)的自回归离散化 token 预测,改用流匹配来预测连续动作分布。这使得模型能够生成高频(50Hz)、高精度的动作块(Action Chunks,包含 50 步动作),完美适配复杂的灵巧操作。
数据规模与跨本体训练
数据是这类模型的血液。π₀ 使用了超 10,000 小时的机器人真实操作数据,结合开源的 OXE 数据集,涵盖 7 种不同的机器人形态(单臂、双臂、移动操作平台)和 68 种任务。
为了统一对齐不同机器人的状态空间和动作空间,团队采用了维度补零(Zero-padding)的方式,将最大自由度设为 18 DoF。对于低自由度的机器人,直接填充固定位置,其余补零。这种简单粗暴的策略证明了 Transformer 架构对高度稀疏和统一表征具有极强的自适应能力。
训练范式:Pre-training + Post-training
借鉴了 LLM 的训练范式,π₀ 分为两个阶段:
- 预训练(Pre-training):先在海量、多形态、含有次优操作的混合数据上进行训练。目的是让模型学习通用物理规律、广泛的动作能力和纠错/恢复能力。如果只用高质量数据,模型会非常脆弱,一旦现实部署出现微小扰动就不知道如何恢复。
- 后训练(Post-training):然后在高质量的任务专精数据上进行微调,让模型学会在特定任务(如叠衣服)上表现出流畅、高效的最佳策略。
关键技术解析
为什么放弃自回归?
此前的通用 VLA 模型多采用自回归方法将动作离散化为 Token。但在高精度、高频的灵巧操作上,这种方法面临瓶颈:
- 精度损失:离散化(通常分 256 个 bin)不可避免地损失了连续控制所需的精度。
- 多峰分布问题:自回归模型在预测连续轨迹时,容易因为误差累积导致动作抖动;而 Flow Matching / Diffusion 天生适合建模复杂的多峰连续分布。
- 高频控制效率:灵巧操作需要高达 50Hz 的控制频率。自回归如果逐帧预测延迟极高,而 Flow Matching 可以结合 Action Chunking 技术,一次性并行生成未来 H 步的动作序列,极大提升了执行流畅度和推理效率。
架构如何隔离知识?
π₀ 的设计巧妙之处在于防止动作训练破坏 VLM 原有的世界知识。系统设计了 3 个 Block,前置的'图像 + 文本'Block 不允许 attend 到未来的'状态'和'动作'Block。这种单向注意力机制防止了新加入的连续动作 token 引起 VLM 预训练特征分布的偏移(Distribution Shift)。
采样时间步的特殊设计
在 Flow Matching 的训练中,采样时间步 τ 的分布与一般的图像生成扩散模型有所不同。一般的模型偏好在中间时间步采样或均匀采样,但 π₀ 团队设计了一个偏向低时间步(即高噪声阶段)的 shifted Beta 分布 Beta(..., 1.5, 1)。
原因在于:文本生成图像时,初始约束很弱,模型需要花大量时间步去构建大体结构。而机器人动作预测是高度条件化的,当前的图像观测已经极大地限制了动作的可能空间。因此,模型不需要学习复杂的均值分布,而是更需要学习如何从严重的噪声中修正并提炼出精准的动作。
实时推理如何实现?
π₀ 包含 33 亿参数,还要进行 10 步 Flow Matching 积分,如何在真机上做到 50Hz 实时控制?主要依赖以下三个工程优化:

