具身智能里程碑：π0 视觉 - 语言 - 动作流模型解析

1. 核心架构：VLM + 独立动作专家 (Action Expert) + Flow Matching

基础模型：采用预训练的视觉语言模型（PaliGemma，3B 参数），继承互联网级的丰富语义和常识推理能力。
动作专家：为避免破坏 VLM 的语义表征，引入了一个独立的 Transformer 结构（约 300M 参数）专门处理本体感觉（State）和动作（Action），类似于 MoE（混合专家）架构。
动作生成机制：摒弃了传统 VLA（如 RT-2, OpenVLA）的自回归离散化 token 预测，改用流匹配（Flow Matching，一种扩散模型的变体） 来预测连续动作分布。这使得模型能够生成高频（50Hz）、高精度的动作块（Action Chunks，包含 50 步动作），完美适配复杂的灵巧操作。

2. 数据规模与跨本体（Cross-Embodiment）训练

数据量巨大：使用了超 10,000 小时的机器人真实操作数据，结合开源的 OXE 数据集，涵盖 7 种不同的机器人形态（单臂、双臂、移动操作平台）和 68 种任务。
统一对齐：通过维度补零（Zero-padding）的方式，将不同机器人的状态空间和动作空间统一映射到最大维度（18 DoF），实现单一模型控制多种机器人。

3. 训练范式：Pre-training + Post-training (Fine-tuning)

借鉴了 LLM 的训练范式。先在海量、多形态、含有次优操作的混合数据上进行预训练（Pre-training），让模型学习通用物理规律、广泛的动作能力和纠错/恢复能力。
然后在高质量的任务专精数据上进行后训练（Post-training），让模型学会在特定任务（如叠衣服）上表现出流畅、高效的最佳策略。

回答参考：
自回归离散化方法在简单抓取任务上表现不错，但在高精度、高频的灵巧操作（如叠衣服）上面临巨大瓶颈。

精度损失：离散化（通常分 256 个 bin）不可避免地损失了连续控制所需的精度。
多峰分布问题：自回归模型在预测连续轨迹时，容易因为误差累积导致动作抖动；而 Flow Matching / Diffusion 天生适合建模复杂的多峰连续分布。
高频控制效率：灵巧操作需要高达 50Hz 的控制频率。自回归如果逐帧预测延迟极高，而 Flow Matching 可以结合 Action Chunking 技术，一次性并行生成未来 H 步（如 50 步）的动作序列，极大提升了执行流畅度和推理效率。

回答参考：
π0 的设计非常巧妙，它没有简单地把 Action 映射成 Token 让整个 VLM 去拟合，而是采用了类似 MoE（混合专家） 的架构和分块因果注意力掩码（Blockwise Causal Attention Mask）。

双重权重 (Action Expert)：输入图像和语言 Prompt 路由给冻结或微调的 VLM 骨干网络（3B 参数）；而机器人本体状态（State）和加噪的动作（Noisy Actions）则路由给一个从头初始化的 Action Expert（300M 参数）。它们只在 Transformer 的 Self-Attention 层进行信息交互。
注意力掩码隔离：系统设计了 3 个 Block。前置的'图像 + 文本'Block attend 到未来的'状态'和'动作'Block。这种单向注意力机制防止了新加入的连续动作 token 引起 VLM 预训练特征分布的偏移（Distribution Shift）。

更多推荐文章