论文笔记：π₀ 视觉 - 语言 - 动作流模型通用机器人控制

π₀ 是具身智能领域里程碑，基于流匹配构建视觉 - 语言 - 动作基础模型。通过独立动作专家与冻结 VLM 结合，解决连续控制精度问题。采用预训练加后训练范式提升鲁棒性，利用 KV Cache 和动作块技术实现 50Hz 实时控制，支持多形态机器人统一调度。

星落发布于 2026/4/10更新于 2026/7/2540 浏览

π₀：具身智能领域的里程碑式工作

Physical Intelligence 团队发布的 π₀ 是具身智能（Embodied AI）领域的一个标志性成果。它提出了首个基于流匹配（Flow Matching）的大型视觉 - 语言 - 动作（VLA）基础模型，在折叠衣服、清理桌面、组装纸箱等高难度灵巧操作任务上，实现了前所未有的自主水平。

核心架构与设计思路

VLM + 独立动作专家 + Flow Matching

π₀ 的架构设计非常克制且高效。它没有试图用一个庞大的网络解决所有问题，而是采用了组合策略：

基础模型：采用预训练的视觉语言模型 PaliGemma（3B 参数），继承互联网级的丰富语义和常识推理能力。
动作专家：为了避免破坏 VLM 的语义表征，引入了一个独立的 Transformer 结构（约 300M 参数）专门处理本体感觉（State）和动作（Action）。这类似于 MoE（混合专家）架构的思路。
动作生成机制：摒弃了传统 VLA（如 RT-2, OpenVLA）的自回归离散化 token 预测，改用流匹配来预测连续动作分布。这使得模型能够生成高频（50Hz）、高精度的动作块（Action Chunks，包含 50 步动作），完美适配复杂的灵巧操作。

数据规模与跨本体训练

数据是这类模型的血液。π₀ 使用了超 10,000 小时的机器人真实操作数据，结合开源的 OXE 数据集，涵盖 7 种不同的机器人形态（单臂、双臂、移动操作平台）和 68 种任务。

为了统一对齐不同机器人的状态空间和动作空间，团队采用了维度补零（Zero-padding）的方式，将最大自由度设为 18 DoF。对于低自由度的机器人，直接填充固定位置，其余补零。这种简单粗暴的策略证明了 Transformer 架构对高度稀疏和统一表征具有极强的自适应能力。

训练范式：Pre-training + Post-training

借鉴了 LLM 的训练范式，π₀ 分为两个阶段：

预训练（Pre-training）：先在海量、多形态、含有次优操作的混合数据上进行训练。目的是让模型学习通用物理规律、广泛的动作能力和纠错/恢复能力。如果只用高质量数据，模型会非常脆弱，一旦现实部署出现微小扰动就不知道如何恢复。
后训练（Post-training）：然后在高质量的任务专精数据上进行微调，让模型学会在特定任务（如叠衣服）上表现出流畅、高效的最佳策略。

关键技术解析

为什么放弃自回归？

此前的通用 VLA 模型多采用自回归方法将动作离散化为 Token。但在高精度、高频的灵巧操作上，这种方法面临瓶颈：

精度损失：离散化（通常分 256 个 bin）不可避免地损失了连续控制所需的精度。
多峰分布问题：自回归模型在预测连续轨迹时，容易因为误差累积导致动作抖动；而 Flow Matching / Diffusion 天生适合建模复杂的多峰连续分布。
高频控制效率：灵巧操作需要高达 50Hz 的控制频率。自回归如果逐帧预测延迟极高，而 Flow Matching 可以结合 Action Chunking 技术，一次性并行生成未来 H 步的动作序列，极大提升了执行流畅度和推理效率。

架构如何隔离知识？

π₀ 的设计巧妙之处在于防止动作训练破坏 VLM 原有的世界知识。系统设计了 3 个 Block，前置的'图像 + 文本'Block 不允许 attend 到未来的'状态'和'动作'Block。这种单向注意力机制防止了新加入的连续动作 token 引起 VLM 预训练特征分布的偏移（Distribution Shift）。

采样时间步的特殊设计

在 Flow Matching 的训练中，采样时间步 τ 的分布与一般的图像生成扩散模型有所不同。一般的模型偏好在中间时间步采样或均匀采样，但 π₀ 团队设计了一个偏向低时间步（即高噪声阶段）的 shifted Beta 分布 Beta(..., 1.5, 1)。

原因在于：文本生成图像时，初始约束很弱，模型需要花大量时间步去构建大体结构。而机器人动作预测是高度条件化的，当前的图像观测已经极大地限制了动作的可能空间。因此，模型不需要学习复杂的均值分布，而是更需要学习如何从严重的噪声中修正并提炼出精准的动作。

论文笔记：π₀ 视觉 - 语言 - 动作流模型通用机器人控制

π₀：具身智能领域的里程碑式工作

核心架构与设计思路

VLM + 独立动作专家 + Flow Matching

数据规模与跨本体训练

训练范式：Pre-training + Post-training

关键技术解析

为什么放弃自回归？

架构如何隔离知识？

采样时间步的特殊设计

实时推理如何实现？

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

论文笔记：π₀ 视觉 - 语言 - 动作流模型通用机器人控制

π₀：具身智能领域的里程碑式工作

核心架构与设计思路

VLM + 独立动作专家 + Flow Matching

数据规模与跨本体训练

训练范式：Pre-training + Post-training

关键技术解析

为什么放弃自回归？

架构如何隔离知识？

采样时间步的特殊设计

实时推理如何实现？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具