π0 源码深度剖析：从 PaLI-Gemma 扩散策略到 C/S 架构部署

π0 源码深度剖析

前言

随着大模型技术的快速发展，具身智能领域迎来了新的突破。OpenPI（π0）项目作为一套基于视觉语言动作（VLA）的通用机器人控制框架，展示了如何利用 PaLI-Gemma 和扩散策略实现高效的动作生成。本文将对 OpenPI 的源码结构进行系统性解读，涵盖模型架构、策略适配、训练配置以及基于客户端 - 服务器（C/S）架构的部署流程。

第一部分 π0 模型架构的实现：src 下 models 的全面分析与解读

1.1 models/model.py：核心基础模型的定义

这是模型框架的核心文件，定义了基础的抽象类和数据结构：

BaseModelConfig: 所有模型配置的抽象基类
BaseModel: 所有模型实现的抽象基类
Observation: 保存模型输入的数据类
Actions: 定义动作数据格式
提供了通用功能如 preprocess_observation 和 restore_params

1.1.1 基础组件和关键常量

首先是模型类型枚举，定义了两种支持的模型类型：

class ModelType(enum.Enum):
    """Supported model types."""
    PI0 = "pi0"
    PI0_FAST = "pi0_fast"

接下来是图像输入配置，定义了模型期望的图像输入的键名。这表明模型设计为同时接收三个视角的图像：

一个基础视图（机器人环境的全局视图）
左手腕视图（来自左手腕摄像头）
右手腕视图（来自右手腕摄像头）

# The model always expects these images
IMAGE_KEYS = (
    "base_0_rgb",
    "left_wrist_0_rgb",
    "right_wrist_0_rgb",
)

再其次，是图像分辨率设置——定义了模型处理图像的标准分辨率为 224×224 像素。

# This may need change if we release a small model.
IMAGE_RESOLUTION = (224, 224)

1.1.2 Observation 类与 Actions 类型的详解

Observation 类是 OpenPI 框架中的一个核心数据结构，用于存储和管理模型的输入数据。

首先，它包含了机器人感知系统收集的所有必要信息：

PI0-FAST 模型特有字段

token_ar_mask: 自回归模型的标记掩码
token_loss_mask: 损失计算的标记掩码

语言提示相关字段

tokenized_prompt: 已经 tokenized 的语言提示
: 语言提示的掩码

π0 源码深度剖析：从 PaLI-Gemma 扩散策略到 C/S 架构部署

π0 源码深度剖析

前言

第一部分 π0 模型架构的实现：src 下 models 的全面分析与解读

1.1 models/model.py：核心基础模型的定义

1.1.1 基础组件和关键常量

1.1.2 Observation 类与 Actions 类型的详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.1.3 preprocess_observation

1.1.4 BaseModelConfig(abc.ABC)

1.1.5 class BaseModel(nnx.Module, abc.ABC)

1.1.6 restore_params

1.2 models/pi0.py 的实现

1.2.1 make_attn_mask：注意力掩码生成函数

1.2.2 posemb_sincos：位置编码函数

1.2.3 class Pi0Config：含 inputs_spec、get_freeze_filter

1.2.3.1 模型配置参数的定义

1.2.3.2 inputs_spec：定义了π0 模型本身接收的输入数据格式

1.2.3.3 get_freeze_filter：参数冻结器

1.2.4 class Pi0：含特征嵌入、损失函数、推理

1.2.4.1 初始化方法 __init__

1.2.4.2 特征嵌入方法：embed_prefix/embed_suffix

1.2.4.3 损失函数 compute_loss：训练模型去噪的准确率

1.2.4.4 推理函数 sample_actions：基于扩散模型逆向采样

1.3 语言模型实现：models/gemma.py

1.4 视觉模型实现：models/siglip.py

1.5 tokenizer.py: 提供文本 tokenization 功能

1.5.1 PaligemmaTokenizer 类

1.5.2 FASTTokenizer 类

1.6 lora.py：实现了 LoRA (Low-Rank Adaptation) 微调方法

1.6.1 Einsum 类中的 setup

1.6.2 Einsum 类中的__call__

1.6.3 Einsum 类中的_make_lora_eqns

1.7 vit.py: Vision Transformer 实现

第二部分 策略适配接口：src 下 policy 的全面分析与解读

2.1 policy.py：实现了 Policy 类和 PolicyRecorder 类

2.1.1 Policy 类

2.1.2 PolicyRecorder

2.2 policy_config.py

2.2.1 PolicyConfig 数据类

2.2.2 create_trained_policy 函数

2.3 policies/aloha_policy.py

2.3.1 make_aloha_example

2.3.2 AlohaInputs

2.3.3 AlohaOutputs

第三部分 模型训练的配置：src 下 training 模块的全面分析与解读

3.1 配置系统 (config.py)

3.1.1 基础配置类 AssetsConfig、DataConfig

3.1.2 数据集配置：包含 ALOHA、Libero 两套数据集

3.1.3 训练配置 TrainConfig

3.1.4 预定义配置

3.2 数据加载系统 data_loader.py

3.2.1 FakeDataset 类

3.2.2 create_dataset：创建适合训练的数据集

3.2.3 transform_dataset：对数据集应用转换

3.2.4 create_data_loader：创建用于训练的数据加载器

3.3 优化器系统 (optimizer.py)

3.4 检查点系统 (checkpoints.py)

3.5 模型分片系统(sharding.py)

3.6 权重加载系统 (weight_loaders.py)

3.7 辅助工具(utils.py)

第四部分 模型的训练与部署：基于客户端 - 服务器 C/S 架构

4.1 packages/openpi-client：帮真机或 Sim 与策略服务器进行通信和交互

4.1.1 核心接口层

4.1.2 通信层 WebsocketClientPolicy

4.1.3 数据处理层

4.1.4 运行时系统层

4.2 scripts(策略服务器)

4.2.1 init.py

4.2.2 compute_norm_stats.py：计算数据的归一化统计信息

4.2.3 serve_policy.py：启动策略服务，用于模型推理

4.2.3.1 分别启动 WebSocket 服务器、WebSocket 客户端并互联

4.2.3.2 客户端发送推理请求、服务端处理推理请求

4.2.3.3 模型获得全部输入数据，生成动作序列

4.2.4 train_test.py：训练和测试模型

4.2.5 train.py：训练模型

4.2.6 scripts/docker

第五部分 examples：各种机器人平台及策略客户端的示例实现

1.2.4.1 初始化方法 `init`

1.6.2 Einsum 类中的call

第二部分策略适配接口：src 下 policy 的全面分析与解读

第三部分模型训练的配置：src 下 training 模块的全面分析与解读

第四部分模型的训练与部署：基于客户端 - 服务器 C/S 架构