π0 源码剖析：基于 PaLI-Gemma 的扩散策略与 C/S 架构部署

引言

OpenPI 是 Physical Intelligence 推出的开源通用机器人控制框架，核心是基于 PaLI-Gemma 和扩散策略的 π0 模型。本文将深入剖析其源码结构，涵盖从模型架构实现到 C/S 架构下的训练与部署全流程。

第一部分 π0 模型架构的实现

核心位于 src/openpi/models。首先是 models/model.py，定义了基础抽象类。

1.1 基础组件与数据结构

这是模型框架的核心文件，定义了基础的抽象类和数据结构：

BaseModelConfig: 所有模型配置的抽象基类
BaseModel: 所有模型实现的抽象基类
Observation: 保存模型输入的数据类
Actions: 定义动作数据格式

提供了通用功能如 preprocess_observation 和 restore_params。

基础组件和关键常量

首先是模型类型枚举，定义了两种支持的模型类型：

class ModelType(enum.Enum): 
    """Supported model types.""" 
    PI0 = "pi0" 
    PI0_FAST = "pi0_fast"

接下来是图像输入配置，定义了模型期望的图像输入的键名。这表明模型设计为同时接收三个视角的图像：一个基础视图（机器人环境的全局视图）、左手腕视图、右手腕视图。

# The model always expects these images 
IMAGE_KEYS = ( 
    "base_0_rgb", "left_wrist_0_rgb", "right_wrist_0_rgb", 
)

再其次，是图像分辨率设置——定义了模型处理图像的标准分辨率为 224×224 像素。

# This may need change if we release a small model. 
IMAGE_RESOLUTION = (224, 224)

Observation 类与 Actions 类型的详解

Observation 类是 OpenPI 框架中的一个核心数据结构，用于存储和管理模型的输入数据。

首先，它包含了机器人感知系统收集的所有必要信息：

PI0-FAST 模型特有字段：token_ar_mask（自回归模型的标记掩码）、token_loss_mask（损失计算的标记掩码）。
语言提示相关字段：tokenized_prompt（已经 tokenized 的语言提示）、tokenized_prompt_mask（语言提示的掩码）。
机器人状态 (state)：低维度的机器人状态向量。
图像掩码 (image_masks)：标记对应的图像是否有效。
图像数据 (images)：存储多个摄像头视角的图像数据。

π0 源码剖析：基于 PaLI-Gemma 的扩散策略与 C/S 架构部署

引言

第一部分 π0 模型架构的实现

1.1 基础组件与数据结构

基础组件和关键常量

Observation 类与 Actions 类型的详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

BaseModelConfig 与 BaseModel

1.2 models/pi0.py 的实现

make_attn_mask：注意力掩码生成函数

posemb_sincos：位置编码函数

Pi0Config：模型配置参数

inputs_spec：定义了 π0 模型本身接收的输入数据格式

get_freeze_filter：参数冻结器

class Pi0：含特征嵌入、损失函数、推理

初始化方法 __init__

特征嵌入方法：embed_prefix/embed_suffix

损失函数 compute_loss：训练模型去噪的准确率

推理函数 sample_actions：基于扩散模型逆向采样

1.3 语言模型实现：models/gemma.py

1.4 视觉模型实现：models/siglip.py

1.5 tokenizer.py: 提供文本 tokenization 功能

PaligemmaTokenizer 类：专门处理文本 prompt

FASTTokenizer 类

1.6 lora.py：实现了 LoRA (Low-Rank Adaptation) 微调方法

1.7 vit.py: Vision Transformer 实现

第二部分 策略适配接口：src 下 policy 的全面分析与解读

2.1 policy.py：实现了 Policy 类和 PolicyRecorder 类

2.1.1 Policy 类

2.1.2 PolicyRecorder

2.2 policy_config.py

2.2.1 PolicyConfig 数据类

2.2.2 create_trained_policy 函数

2.3 policies/aloha_policy.py

2.3.1 make_aloha_example：输入示例

2.3.2 AlohaInputs：定义 Aloha 策略的输入数据结构

2.3.3 AlohaOutputs：定义 Aloha 策略的输出数据结构

2.3.4 辅助函数

第三部分 模型训练的配置：src 下 training 模块的全面分析与解读

3.1 配置系统 (config.py)

3.1.1 基础配置类 AssetsConfig、DataConfig

3.1.2 数据集配置

3.1.3 训练配置 TrainConfig

3.1.4 预定义配置

3.2 数据加载系统 data_loader.py

3.2.1 FakeDataset 类

3.2.2 create_dataset：创建适合训练的数据集

3.2.3 transform_dataset：对数据集应用转换

3.2.4 create_data_loader：创建用于训练的数据加载器

3.3 优化器系统 (optimizer.py)

3.4 检查点系统 (checkpoints.py)

3.5 模型分片系统 (sharding.py)

3.6 权重加载系统 (weight_loaders.py)

3.7 辅助工具 (utils.py)

第四部分 模型的训练与部署：基于客户端 - 服务器 C/S 架构

4.1 packages/openpi-client：帮真机或 Sim 与策略服务器进行通信和交互

4.1.1 核心接口层

4.1.2 通信层 WebsocketClientPolicy

4.1.3 数据处理层

4.1.4 运行时系统层

4.1.5 工具支持

4.2 scripts(策略服务器)

4.2.1 init.py

4.2.2 compute_norm_stats.py：计算数据的归一化统计信息

4.2.3 serve_policy.py：启动策略服务

4.2.4 train_test.py：训练和测试模型

4.2.5 train.py：训练模型

4.2.6 scripts/docker

第五部分 examples：各种机器人平台及策略客户端的示例实现

5.1 aloha_real

5.1.1 核心架构

5.1.2 系统工作流程与部署方式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

初始化方法 `init`

第二部分策略适配接口：src 下 policy 的全面分析与解读

第三部分模型训练的配置：src 下 training 模块的全面分析与解读

第四部分模型的训练与部署：基于客户端 - 服务器 C/S 架构