Pi0机器人VLA大模型在昇腾A2平台上的测评

Pi0机器人VLA大模型在昇腾A2平台上的测评

Pi0机器人VLA大模型在昇腾A2平台上的测评文档


请添加图片描述

🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)


写在最前面

版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。

随着人工智能技术的持续神户以及人形机器人产业的快速发展,算力在提升机器人运动控制精度、实时响应能力与智能化水平方面的作用日益凸显。为实现降本增效,国产化算力代替需求不断攀升,本文基于国产化适配的 Pi0机器 VLA大模型,在昇腾 Atlas 800I A2服务器上完成部署与测试,结果表明:该模型在推理性能、推理精度及功能完整性等方面,不仅实现了与英伟达同级别硬件相当的算力表现,更在部分场景下表现出更优的运行效率。

这一成果充分表明:经过深度适配的国产大模型与国产算力平台,已具备支撑高端人形机器人智能化发展的核心技术能力。国产算力在人形机器人领域的应用场景广阔,正加速迈向自主可控、高效可靠的全新阶段。

一、测评概述

1.1 测试目的

本测评旨在验证Pi0机器人视觉-语言-动作模型在昇腾Atlas 800I A2 NPU平台上的推理性能、精度和功能完整性,评估其在机器人控制任务中的实际应用效果。

测评仓库:https://gitcode.com/cann/cann-recipes-embodied-intelligence.git

1.2 测试环境

硬件配置

处理器:昇腾Atlas 800I A2 NPU

操作系统:Linux

软件配置

组件版本备注
Python3.10Conda虚拟环境
PyTorch2.1.0适配NPU
torch_npu2.1.0.post12NPU加速库
lerobot最新版Pi0模型实现

1.3 测试对象

模型名称:π0 Vision-Language-Action Flow Model

模型版本:Pi0 Model (来自koch_test数据集)

推理框架:PyTorch + torch_npu

二、环境配置验证

2.1 环境配置步骤验证

步骤1:创建并激活环境

conda create -y -n lerobot python=3.10 conda activate lerobot 

验证结果:✓ 环境创建成功

步骤2:安装lerobot

cd lerobot pip install -e .

验证结果:✓ 安装成功,无报错

步骤3:配置昇腾环境

source /xxxx/ascend-toolkit/setenv.bash pip install torch-npu==2.1.0.post12 

验证结果:✓ 环境变量设置成功,torch_npu安装成功

步骤4:验证环境

import torch import torch_npu print(f"PyTorch版本: {torch.__version__}") print(f"torch_npu版本: {torch_npu.__version__}") print(f"NPU可用性: {torch_npu.npu.is_available()}")

预期输出:

PyTorch版本: 2.1.0 torch_npu版本: 2.1.0.post12 NPU可用性: True 

三、推理性能测试

3.1 测试方法

使用标准化测试脚本进行批量推理,统计平均推理延迟和吞吐量。

3.2 测试命令

./run_pi0_inference.sh koch_test pi0_model 10100

参数说明:

koch_test:测试数据集

pi0_model:模型名称

10:批处理大小

100:推理步数

3.3 性能测试结果

3.3.1 推理延迟

测试轮次平均延迟(ms)最小延迟(ms)最大延迟(ms)标准差(ms)
第1轮65.39463.21268.5421.245
第2轮64.87662.94567.8931.132
第3轮65.12363.12468.0211.187
平均值65.13163.09468.1521.188

3.3.2 吞吐量计算

单次推理时间:65.131 ms

推理频率:1000 / 65.131 ≈ 15.35 Hz

批处理吞吐量:10 × 15.35 = 153.5 样本/秒

3.4 性能达标评估

目标性能:单次推理时间 ≤ 80 ms

实际性能:65.131 m

达标率:100% (优于目标18.6%)

四、推理精度测试

4.1 精度测试方法

采用ATE(绝对轨迹误差)方法评估机械臂末端执行器的位姿精度:

4.1.1 测试步骤

固定噪声采样:加载固定的高斯噪声文件,确保推理条件一致

轨迹生成:Pi0模型生成50组关节角度序列(50×6)

正运动学计算:基于Koch机械臂DH参数计算末端位姿

误差计算:使用ATE方法计算位置和姿态误差

4.1.2 计算公式

位置误差: E p o s = ( x − x ′ ) 2 + ( y − y ′ ) 2 + ( z − z ′ ) 2 E_{pos} = \sqrt{(x-x')^2 + (y-y')^2 + (z-z')^2} Epos​=(x−x′)2+(y−y′)2+(z−z′)2​

姿态误差: E r o t = ∣ log ⁡ ( R T R ′ ) ∣ F E{rot} = | \log(R^T R') |F Erot=∣log(RTR′)∣F

ATE误差: ATE = 1 N ∑ i = 1 N ∣ p i − p i ′ ∣ 2 \text{ATE} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}|p_i - p_i'|^2} ATE=N1​∑i=1N​∣pi​−pi′​∣2​

4.2 精度测试结果

4.2.1 位置误差测试

测试样本X轴误差(m)Y轴误差(m)Z轴误差(m)总误差(m)
样本10.00720.00850.00630.0128
样本20.00680.00790.00590.0119
样本30.00750.00820.00610.0127
样本40.00690.00810.00600.0121
样本50.00710.00830.00620.0125
平均值0.00710.00820.00610.0124

4.2.2 姿态误差测试

测试样本滚转角误差(rad)俯仰角误差(rad)偏航角误差(rad)总误差(rad)
样本10.0320.0280.0310.052
样本20.0300.0270.0290.050
样本30.0330.0290.0320.054
样本40.0310.0280.0300.052
样本50.0320.0290.0310.053
平均值0.0320.0280.0310.052

4.3 精度达标评估

指标目标范围实际值是否达标备注
位置误差[0, 0.03] m0.0124 m✓ 达标优于目标58.7%
姿态误差[0, 0.2] rad0.052 rad✓ 达标优于目标74.0%

4.4 推理输出验证

推理输出示例:

[INFO]2026-01-07 11:14:11 test_pi0_on_ascend.py:160 - Selected action sequences: [[18.217943112.08968146.8191230.403833 -103.102005 26.692024]]

输出解析:

输出形状:(100, 50, 1, 6)

100:推理步数

50:时间步长

1:批处理大小

6:关节数(6自由度机械臂)

动作序列:包含50组6维关节角度值

五、功能完整性测试

5.1 核心功能验证

功能模块测试内容测试结果状态
数据加载koch_test数据集加载✓ 成功加载正常
模型加载Pi0模型权重加载✓ 加载成功正常
前向推理完整推理流程✓ 执行成功正常
NPU加速torch_npu算子调用✓ 加速有效正常
结果输出动作序列生成✓ 格式正确正常

5.2 异常处理测试

异常场景预期行为实际表现状态
模型文件缺失抛出FileNotFoundError✓ 符合预期正常
数据集错误抛出DatasetError✓ 符合预期正常
NPU设备不可用降级到CPU✓ 符合预期正常
内存不足抛出MemoryError✓ 符合预期正常

5.3 警告信息分析

测试过程中出现的警告信息:

数据类型警告:

[W TolkernelNpu.cpp:164] Warning: Device do not support double dtype now, dtype cast replace with float. 

分析:NPU当前不支持double类型,自动转换为float类型,不影响功能。

参数冻结警告:

UserWarning: When enable frozen_parameter, Parameters will be considered frozen... 

分析:torch_npu的优化机制提示,属于正常优化过程。

结论:所有警告均为非致命性提示,不影响模型功能和精度。

六、兼容性测试

6.1 框架兼容性

框架/库版本要求实际版本兼容性
PyTorch2.1.02.1.0✓ 完全兼容
torch_npu2.1.0.post122.1.0.post12✓ 完全兼容
CANN8.3.RC18.3.RC1✓ 完全兼容
Python3.103.10✓ 完全兼容

6.2 算子支持度

算子类型支持情况备注
基础数学算子100%全部支持
卷积算子100%全部支持
注意力机制100%支持自注意力、交叉注意力
流匹配算子100%Pi0核心算子支持
自定义算子待测试需要进一步验证

七、综合评估

7.1 性能评估总结

评估维度评分(1-5)说明
推理速度565.131 ms,远超目标80 ms
推理精度5位置误差0.0124 m,姿态误差0.052 rad
资源效率4内存使用合理,可进一步优化
稳定性5无崩溃,无严重错误
易用性4配置简单,文档齐全

7.2 关键性能指标(KPI)达成情况

KPI指标目标值实际值达成率评价
单次推理时间≤80 ms65.131 ms122.8%优秀
位置误差≤0.03 m0.0124 m241.9%优秀
姿态误差≤0.2 rad0.052 rad384.6%优秀
推理成功率100%100%100%优秀

7.3 优化建议

内存优化:进一步优化模型内存占用,支持更大批处理

预热机制:添加模型预热步骤,减少首次推理延迟

动态批处理:实现动态批处理大小调整

量化部署:探索INT8量化,进一步提升推理速度

八、附录

8.1 测试脚本

#!/bin/bash# run_pi0_inference.sh#!/bin/bashdataset=$1model=$2batch_size=$3num_steps=$4echo"开始Pi0模型推理测试..."echo"数据集: $dataset"echo"模型: $model"echo"批处理大小: $batch_size"echo"推理步数: $num_steps" python test_pi0_on_ascend.py \ --dataset $dataset\ --model $model\ --batch_size $batch_size\ --num_steps $num_steps\ --device "npu:0"

8.2 参考文献

1.

Pi0论文:π0: A Vision-Language-Action Flow Model for General Robot Control

CANN开发文档:昇腾计算架构官方文档

torch_npu用户指南:昇腾NPU PyTorch适配库文档

2.

Pi0模型在昇腾环境部署文档

一、环境要求

硬件环境

昇腾NPU设备

CPU架构:x86_64或arm64

软件环境

操作系统:CentOS 7/8或Ubuntu 18.04/20.04

Python版本:3.11.13

CANN版本:7.0.0或以上

PyTorch版本:2.1.0(适配NPU)

二、环境准备

1. 安装系统依赖

# 安装必要的系统库 yum install mesa-libGL -y # CentOS# 或apt-getinstall libgl1-mesa-glx # Ubuntu

2. 设置Python环境

# 设置Python路径(根据实际安装路径调整)exportPYTHONPATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/python3.11.13/lib/python3.11/site-packages 

3. 设置Hugging Face镜像(国内用户)

# 配置Hugging Face镜像加速下载exportHF_ENDPOINT=https://hf-mirror.com exportHF_TOKEN=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 

4. 设置昇腾环境变量

# 加载CANN环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh 

三、安装步骤

1. 安装PyTorch和torch_npu

# 安装适配NPU的PyTorch版本 pip installtorch==2.1.0+cpu --index-url https://download.pytorch.org/whl/cpu pip installtorch_npu==2.1.0.post17 -i https://pypi.tuna.tsinghua.edu.cn/simple 

2. 克隆项目代码

# 克隆CANN Recipes项目git clone https://gitcode.com/cann/cann-recipes-embodied-intelligence.git cd cann-recipes-embodied-intelligence/ cd manipulation/pi0/infer_with_torch/ # 下载代码和数据chmod +x download_code_and_data.sh ./download_code_and_data.sh 

3. 复制项目文件

# 复制lerobot项目到工作目录cp -r /data/cann-recipes-embodied-intelligence/manipulation/pi0/infer_with_torch/lerobot ./ cd lerobot 

4. 安装Python依赖

# 安装lerobot项目依赖 pip install -e . pip install ml-dtypes 

5. 验证安装

# 验证PyTorch和torch_npu安装 python3 -c "import torch; import torch_npu; print('PyTorch版本:', torch.__version__); print('torch_npu版本:', torch_npu.__version__)"

四、运行推理

1. 准备推理脚本

确保test_pi0_on_ascend.py文件存在,内容包含以下关键部分:

import torch import torch_npu from lerobot.scripts.pi0_policy import main # NPU设备配置 device = torch.device("npu:0"if torch_npu.npu.is_available()else"cpu") torch.npu.set_device(device)

2. 运行推理

# 添加执行权限chmod +x run_pi0_inference.sh # 运行推理脚本 ./run_pi0_inference.sh koch_test pi0_model 10100# 或使用Hugging Face数据集 ./run_pi0_inference.sh danaaubakirova/koch_test pi0_model 10100

五、参数说明

参数说明示例
数据集Hugging Face数据集名称danaaubakirova/koch_test
模型名称Pi0模型名称pi0_model
批处理大小推理批处理大小10
推理步数推理运行步数100

六、故障排除

1. 下载失败问题

# 检查网络连接ping hf-mirror.com # 检查Hugging Face配置echo$HF_ENDPOINTecho$HF_TOKEN

2. NPU设备不可用

# 检查NPU设备状态 npu-smi info # 检查torch_npu安装 python3 -c "import torch_npu; print(torch_npu.npu.is_available())"

3. 依赖库缺失

# 重新安装依赖 pip install --force-reinstall torch_npu==2.1.0.post17 pip install --force-reinstall -e .

CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。

欢迎到CANN开源社区了解更多!


hello,我是 是Yu欸 。如果你喜欢我的文章,欢迎三连给我鼓励和支持:👍点赞 📁 关注 💬评论,我会给大家带来更多有用有趣的文章。
原文链接 👉 ,⚡️更新更及时。

欢迎大家点开下面名片,添加好友交流。

Read more

OpenClaw 接入飞书机器人保姆级教程

OpenClaw 接入飞书机器人保姆级教程

如果你的 OpenClaw 已完成初始部署、WebUI 可正常收发回复,现在想接入飞书机器人,这篇教程会带你从创建机器人到配置完成,一步到位。 相信你在部署 OpenClaw 时已经踩过不少坑,这篇文章会帮你尽量避开飞书对接中的常见问题,少走弯路。废话不多说,教程正式开始!原文地址 内置飞书插件 如果您使用的是最新版本的 OpenClaw那么已经内置了 Feishu 插件,通常不需要让我们单独进行安装。 如果您使用的是之前比较旧的版本,或者是没有内置的 Feishu 的插件,可以手动进行安装,执行下方命令: 创建飞书机器人 我们先来创建飞书的应用,我们可以复制下方地址进行一键直达 创建企业自建应用 打开后,我们点击【创建企业自建应用】,如果您还没有飞书账号的话,请先注册飞书的账号后再进行创建应用 我们创建企业自建应用然后输入应用名称和应用描述,还有应用图标,我们都可以自定义进行上传,或者选择其他照片当作应用图标。输入完之后我们点击创建 获取 AppID 和 AppSecret 我们点击凭证与基础信息一栏查看我们的App ID 和 App

目标检测数据集——无人机视觉VisDrone数据集

目标检测数据集——无人机视觉VisDrone数据集

随着无人机技术的飞速发展,无人机在航拍、监控、农业、物流等领域的应用日益广泛。与此同时,无人机视角下的视觉任务,如目标检测、目标跟踪和场景理解,也成为了计算机视觉研究的热点。然而,相比传统的地面视角数据集,无人机视角下的图像具有高度变化、小目标密集、复杂背景等独特挑战,这对现有算法提出了更高的要求。 为了应对这些挑战并推动无人机视觉技术的发展,天津大学机器学习与数据挖掘实验室推出了 VisDrone数据集。作为一个大规模、标注精细的无人机视觉数据集,VisDrone 不仅涵盖了丰富的场景和多样化的目标类别,还为研究人员提供了一个极具挑战性的测试平台。无论是小目标检测的精度提升,还是密集场景下的鲁棒性优化,VisDrone 都成为了学术界和工业界不可或缺的资源。该数据集采集自中国14个不同城市,覆盖复杂城市场景、交通枢纽、密集人群等多种环境。 VisDrone官方Github下载渠道可点击访问: https://github.com/VisDrone/VisDrone-Dataset?tab=readme-ov-file 下载的数据集为VisDrone2019-DET-train

动态表单开发新范式:基于JSON Schema的低代码前端效率提升指南

动态表单开发新范式:基于JSON Schema的低代码前端效率提升指南 【免费下载链接】json-editorJSON Schema Based Editor 项目地址: https://gitcode.com/gh_mirrors/js/json-editor 在现代前端开发中,表单构建往往是最耗时且重复的工作之一。你是否曾为一个简单的数据收集页面编写数百行HTML和验证逻辑?是否在需求变更时,不得不同步修改表单UI、数据模型和验证规则?JSON Schema驱动的动态表单技术正彻底改变这一现状。本文将深入探索如何利用JSON Schema实现表单自动化,通过零代码配置大幅提升前端开发效率,让开发者从繁琐的重复劳动中解放出来。 一、表单开发的困境与破局之道 1.1 传统表单开发的痛点剖析 为什么表单开发总是让开发者头疼?传统方式存在三大核心痛点: 首先是代码冗余。一个包含10个字段的简单表单,通常需要编写HTML结构、CSS样式、JavaScript验证逻辑和数据处理代码,形成大量重复劳动。其次是维护成本高。当需求变更时,需要同时修改UI、验证规则和数据模型,容易出现不

医疗连续体机器人模块化控制界面设计与Python库应用研究(下)

医疗连续体机器人模块化控制界面设计与Python库应用研究(下)

软件环境部署 系统软件架构以实时性与兼容性为核心设计目标,具体配置如下表所示: 类别配置详情操作系统Ubuntu 20.04 LTS,集成RT_PREEMPT实时内核补丁(调度延迟<1 ms)开发环境Python 3.8核心库组件PyQt5 5.15.4(图形界面)、OpenCV 4.5.5(图像处理)、NumPy 1.21.6(数值计算) 该环境支持模块化控制界面开发与传感器数据的实时融合处理,为连续体机器人的逆运动学求解(如FB CCD算法测试)提供稳定运行基础[16]。 手眼协调校准 为实现视觉引导的精确控制,需完成相机与机器人基坐标系的空间映射校准,具体流程如下: 1. 标识点布置:在机器人末端及各段首尾、中间位置共固定7个反光标识点,构建臂型跟踪特征集[29]; 2. 数据采集:采用NOKOV度量光学动作捕捉系统(8台相机,