由 Physical Intelligence (Pi) 团队发表的论文 'π₀:A Vision-Language-Action Flow Model for General Robot Control' 是具身智能(Embodied AI)领域的里程碑式工作。它提出了第一个基于流匹配(Flow Matching)的大型视觉 - 语言 - 动作(VLA)基础模型,在多项极其困难的灵巧操作任务(如折叠衣服、清理桌面、组装纸箱)上达到了前所未有的自主水平。
一、核心要点总结
1. 核心架构:VLM + 独立动作专家 (Action Expert) + Flow Matching
- 基础模型:采用预训练的视觉语言模型(PaliGemma,3B 参数),继承互联网级的丰富语义和常识推理能力。
- 动作专家:为避免破坏 VLM 的语义表征,引入了一个独立的 Transformer 结构(约 300M 参数)专门处理本体感觉(State)和动作(Action),类似于 MoE(混合专家)架构。
- 动作生成机制:摒弃了传统 VLA(如 RT-2, OpenVLA)的自回归离散化 token 预测,改用流匹配(Flow Matching,一种扩散模型的变体) 来预测连续动作分布。这使得模型能够生成高频(50Hz)、高精度的动作块(Action Chunks,包含 50 步动作),完美适配复杂的灵巧操作。
2. 数据规模与跨本体(Cross-Embodiment)训练
- 数据量巨大:使用了超 10,000 小时的机器人真实操作数据,结合开源的 OXE 数据集,涵盖 7 种不同的机器人形态(单臂、双臂、移动操作平台)和 68 种任务。
- 统一对齐:通过维度补零(Zero-padding)的方式,将不同机器人的状态空间和动作空间统一映射到最大维度(18 DoF),实现单一模型控制多种机器人。
3. 训练范式:Pre-training + Post-training (Fine-tuning)
- 借鉴了 LLM 的训练范式。先在海量、多形态、含有次优操作的混合数据上进行预训练(Pre-training),让模型学习通用物理规律、广泛的动作能力和纠错/恢复能力。
- 然后在高质量的任务专精数据上进行后训练(Post-training),让模型学会在特定任务(如叠衣服)上表现出流畅、高效的最佳策略。
二、技术细节
Q1 (架构决策):此前的通用 VLA 模型(如 RT-2, OpenVLA)都采用自回归(Autoregressive)将动作离散化为 Token 来预测。为什么 π₀要改用 Flow Matching?
回答参考:
自回归离散化方法在简单抓取任务上表现不错,但在高精度、高频的灵巧操作(如叠衣服)上面临巨大瓶颈。
- 精度损失:离散化(通常分 256 个 bin)不可避免地损失了连续控制所需的精度。
- 多峰分布问题:自回归模型在预测连续轨迹时,容易因为误差累积导致动作抖动;而 Flow Matching / Diffusion 天生适合建模复杂的多峰连续分布。
- 高频控制效率:灵巧操作需要高达 50Hz 的控制频率。自回归如果逐帧预测延迟极高,而 Flow Matching 可以结合 Action Chunking 技术,一次性并行生成未来 H 步(如 50 步)的动作序列,极大提升了执行流畅度和推理效率。
Q2 (网络设计细节):π₀是如何将视觉语言模型(VLM)与 Flow Matching 结合的?如何避免动作训练破坏 VLM 原有的世界知识?
回答参考:
π₀的设计非常巧妙,它没有简单地把 Action 映射成 Token 让整个 VLM 去拟合,而是采用了类似 MoE(混合专家) 的架构和分块因果注意力掩码(Blockwise Causal Attention Mask)。
- 双重权重 (Action Expert):输入图像和语言 Prompt 路由给冻结或微调的 VLM 骨干网络(3B 参数);而机器人本体状态(State)和加噪的动作(Noisy Actions)则路由给一个从头初始化的 Action Expert(300M 参数)。它们只在 Transformer 的 Self-Attention 层进行信息交互。

