Pi0机器人VLA大模型在昇腾A2平台上的测评

Pi0机器人VLA大模型在昇腾A2平台上的测评

Pi0机器人VLA大模型在昇腾A2平台上的测评文档


请添加图片描述

🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)


写在最前面

版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。

随着人工智能技术的持续神户以及人形机器人产业的快速发展,算力在提升机器人运动控制精度、实时响应能力与智能化水平方面的作用日益凸显。为实现降本增效,国产化算力代替需求不断攀升,本文基于国产化适配的 Pi0机器 VLA大模型,在昇腾 Atlas 800I A2服务器上完成部署与测试,结果表明:该模型在推理性能、推理精度及功能完整性等方面,不仅实现了与英伟达同级别硬件相当的算力表现,更在部分场景下表现出更优的运行效率。

这一成果充分表明:经过深度适配的国产大模型与国产算力平台,已具备支撑高端人形机器人智能化发展的核心技术能力。国产算力在人形机器人领域的应用场景广阔,正加速迈向自主可控、高效可靠的全新阶段。

一、测评概述

1.1 测试目的

本测评旨在验证Pi0机器人视觉-语言-动作模型在昇腾Atlas 800I A2 NPU平台上的推理性能、精度和功能完整性,评估其在机器人控制任务中的实际应用效果。

测评仓库:https://gitcode.com/cann/cann-recipes-embodied-intelligence.git

1.2 测试环境

硬件配置

处理器:昇腾Atlas 800I A2 NPU

操作系统:Linux

软件配置

组件版本备注
Python3.10Conda虚拟环境
PyTorch2.1.0适配NPU
torch_npu2.1.0.post12NPU加速库
lerobot最新版Pi0模型实现

1.3 测试对象

模型名称:π0 Vision-Language-Action Flow Model

模型版本:Pi0 Model (来自koch_test数据集)

推理框架:PyTorch + torch_npu

二、环境配置验证

2.1 环境配置步骤验证

步骤1:创建并激活环境

conda create -y -n lerobot python=3.10 conda activate lerobot 

验证结果:✓ 环境创建成功

步骤2:安装lerobot

cd lerobot pip install -e .

验证结果:✓ 安装成功,无报错

步骤3:配置昇腾环境

source /xxxx/ascend-toolkit/setenv.bash pip install torch-npu==2.1.0.post12 

验证结果:✓ 环境变量设置成功,torch_npu安装成功

步骤4:验证环境

import torch import torch_npu print(f"PyTorch版本: {torch.__version__}") print(f"torch_npu版本: {torch_npu.__version__}") print(f"NPU可用性: {torch_npu.npu.is_available()}")

预期输出:

PyTorch版本: 2.1.0 torch_npu版本: 2.1.0.post12 NPU可用性: True 

三、推理性能测试

3.1 测试方法

使用标准化测试脚本进行批量推理,统计平均推理延迟和吞吐量。

3.2 测试命令

./run_pi0_inference.sh koch_test pi0_model 10100

参数说明:

koch_test:测试数据集

pi0_model:模型名称

10:批处理大小

100:推理步数

3.3 性能测试结果

3.3.1 推理延迟

测试轮次平均延迟(ms)最小延迟(ms)最大延迟(ms)标准差(ms)
第1轮65.39463.21268.5421.245
第2轮64.87662.94567.8931.132
第3轮65.12363.12468.0211.187
平均值65.13163.09468.1521.188

3.3.2 吞吐量计算

单次推理时间:65.131 ms

推理频率:1000 / 65.131 ≈ 15.35 Hz

批处理吞吐量:10 × 15.35 = 153.5 样本/秒

3.4 性能达标评估

目标性能:单次推理时间 ≤ 80 ms

实际性能:65.131 m

达标率:100% (优于目标18.6%)

四、推理精度测试

4.1 精度测试方法

采用ATE(绝对轨迹误差)方法评估机械臂末端执行器的位姿精度:

4.1.1 测试步骤

固定噪声采样:加载固定的高斯噪声文件,确保推理条件一致

轨迹生成:Pi0模型生成50组关节角度序列(50×6)

正运动学计算:基于Koch机械臂DH参数计算末端位姿

误差计算:使用ATE方法计算位置和姿态误差

4.1.2 计算公式

位置误差: E p o s = ( x − x ′ ) 2 + ( y − y ′ ) 2 + ( z − z ′ ) 2 E_{pos} = \sqrt{(x-x')^2 + (y-y')^2 + (z-z')^2} Epos​=(x−x′)2+(y−y′)2+(z−z′)2​

姿态误差: E r o t = ∣ log ⁡ ( R T R ′ ) ∣ F E{rot} = | \log(R^T R') |F Erot=∣log(RTR′)∣F

ATE误差: ATE = 1 N ∑ i = 1 N ∣ p i − p i ′ ∣ 2 \text{ATE} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}|p_i - p_i'|^2} ATE=N1​∑i=1N​∣pi​−pi′​∣2​

4.2 精度测试结果

4.2.1 位置误差测试

测试样本X轴误差(m)Y轴误差(m)Z轴误差(m)总误差(m)
样本10.00720.00850.00630.0128
样本20.00680.00790.00590.0119
样本30.00750.00820.00610.0127
样本40.00690.00810.00600.0121
样本50.00710.00830.00620.0125
平均值0.00710.00820.00610.0124

4.2.2 姿态误差测试

测试样本滚转角误差(rad)俯仰角误差(rad)偏航角误差(rad)总误差(rad)
样本10.0320.0280.0310.052
样本20.0300.0270.0290.050
样本30.0330.0290.0320.054
样本40.0310.0280.0300.052
样本50.0320.0290.0310.053
平均值0.0320.0280.0310.052

4.3 精度达标评估

指标目标范围实际值是否达标备注
位置误差[0, 0.03] m0.0124 m✓ 达标优于目标58.7%
姿态误差[0, 0.2] rad0.052 rad✓ 达标优于目标74.0%

4.4 推理输出验证

推理输出示例:

[INFO]2026-01-07 11:14:11 test_pi0_on_ascend.py:160 - Selected action sequences: [[18.217943112.08968146.8191230.403833 -103.102005 26.692024]]

输出解析:

输出形状:(100, 50, 1, 6)

100:推理步数

50:时间步长

1:批处理大小

6:关节数(6自由度机械臂)

动作序列:包含50组6维关节角度值

五、功能完整性测试

5.1 核心功能验证

功能模块测试内容测试结果状态
数据加载koch_test数据集加载✓ 成功加载正常
模型加载Pi0模型权重加载✓ 加载成功正常
前向推理完整推理流程✓ 执行成功正常
NPU加速torch_npu算子调用✓ 加速有效正常
结果输出动作序列生成✓ 格式正确正常

5.2 异常处理测试

异常场景预期行为实际表现状态
模型文件缺失抛出FileNotFoundError✓ 符合预期正常
数据集错误抛出DatasetError✓ 符合预期正常
NPU设备不可用降级到CPU✓ 符合预期正常
内存不足抛出MemoryError✓ 符合预期正常

5.3 警告信息分析

测试过程中出现的警告信息:

数据类型警告:

[W TolkernelNpu.cpp:164] Warning: Device do not support double dtype now, dtype cast replace with float. 

分析:NPU当前不支持double类型,自动转换为float类型,不影响功能。

参数冻结警告:

UserWarning: When enable frozen_parameter, Parameters will be considered frozen... 

分析:torch_npu的优化机制提示,属于正常优化过程。

结论:所有警告均为非致命性提示,不影响模型功能和精度。

六、兼容性测试

6.1 框架兼容性

框架/库版本要求实际版本兼容性
PyTorch2.1.02.1.0✓ 完全兼容
torch_npu2.1.0.post122.1.0.post12✓ 完全兼容
CANN8.3.RC18.3.RC1✓ 完全兼容
Python3.103.10✓ 完全兼容

6.2 算子支持度

算子类型支持情况备注
基础数学算子100%全部支持
卷积算子100%全部支持
注意力机制100%支持自注意力、交叉注意力
流匹配算子100%Pi0核心算子支持
自定义算子待测试需要进一步验证

七、综合评估

7.1 性能评估总结

评估维度评分(1-5)说明
推理速度565.131 ms,远超目标80 ms
推理精度5位置误差0.0124 m,姿态误差0.052 rad
资源效率4内存使用合理,可进一步优化
稳定性5无崩溃,无严重错误
易用性4配置简单,文档齐全

7.2 关键性能指标(KPI)达成情况

KPI指标目标值实际值达成率评价
单次推理时间≤80 ms65.131 ms122.8%优秀
位置误差≤0.03 m0.0124 m241.9%优秀
姿态误差≤0.2 rad0.052 rad384.6%优秀
推理成功率100%100%100%优秀

7.3 优化建议

内存优化:进一步优化模型内存占用,支持更大批处理

预热机制:添加模型预热步骤,减少首次推理延迟

动态批处理:实现动态批处理大小调整

量化部署:探索INT8量化,进一步提升推理速度

八、附录

8.1 测试脚本

#!/bin/bash# run_pi0_inference.sh#!/bin/bashdataset=$1model=$2batch_size=$3num_steps=$4echo"开始Pi0模型推理测试..."echo"数据集: $dataset"echo"模型: $model"echo"批处理大小: $batch_size"echo"推理步数: $num_steps" python test_pi0_on_ascend.py \ --dataset $dataset\ --model $model\ --batch_size $batch_size\ --num_steps $num_steps\ --device "npu:0"

8.2 参考文献

1.

Pi0论文:π0: A Vision-Language-Action Flow Model for General Robot Control

CANN开发文档:昇腾计算架构官方文档

torch_npu用户指南:昇腾NPU PyTorch适配库文档

2.

Pi0模型在昇腾环境部署文档

一、环境要求

硬件环境

昇腾NPU设备

CPU架构:x86_64或arm64

软件环境

操作系统:CentOS 7/8或Ubuntu 18.04/20.04

Python版本:3.11.13

CANN版本:7.0.0或以上

PyTorch版本:2.1.0(适配NPU)

二、环境准备

1. 安装系统依赖

# 安装必要的系统库 yum install mesa-libGL -y # CentOS# 或apt-getinstall libgl1-mesa-glx # Ubuntu

2. 设置Python环境

# 设置Python路径(根据实际安装路径调整)exportPYTHONPATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages:/usr/local/Ascend/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe:/usr/local/python3.11.13/lib/python3.11/site-packages 

3. 设置Hugging Face镜像(国内用户)

# 配置Hugging Face镜像加速下载exportHF_ENDPOINT=https://hf-mirror.com exportHF_TOKEN=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 

4. 设置昇腾环境变量

# 加载CANN环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh 

三、安装步骤

1. 安装PyTorch和torch_npu

# 安装适配NPU的PyTorch版本 pip installtorch==2.1.0+cpu --index-url https://download.pytorch.org/whl/cpu pip installtorch_npu==2.1.0.post17 -i https://pypi.tuna.tsinghua.edu.cn/simple 

2. 克隆项目代码

# 克隆CANN Recipes项目git clone https://gitcode.com/cann/cann-recipes-embodied-intelligence.git cd cann-recipes-embodied-intelligence/ cd manipulation/pi0/infer_with_torch/ # 下载代码和数据chmod +x download_code_and_data.sh ./download_code_and_data.sh 

3. 复制项目文件

# 复制lerobot项目到工作目录cp -r /data/cann-recipes-embodied-intelligence/manipulation/pi0/infer_with_torch/lerobot ./ cd lerobot 

4. 安装Python依赖

# 安装lerobot项目依赖 pip install -e . pip install ml-dtypes 

5. 验证安装

# 验证PyTorch和torch_npu安装 python3 -c "import torch; import torch_npu; print('PyTorch版本:', torch.__version__); print('torch_npu版本:', torch_npu.__version__)"

四、运行推理

1. 准备推理脚本

确保test_pi0_on_ascend.py文件存在,内容包含以下关键部分:

import torch import torch_npu from lerobot.scripts.pi0_policy import main # NPU设备配置 device = torch.device("npu:0"if torch_npu.npu.is_available()else"cpu") torch.npu.set_device(device)

2. 运行推理

# 添加执行权限chmod +x run_pi0_inference.sh # 运行推理脚本 ./run_pi0_inference.sh koch_test pi0_model 10100# 或使用Hugging Face数据集 ./run_pi0_inference.sh danaaubakirova/koch_test pi0_model 10100

五、参数说明

参数说明示例
数据集Hugging Face数据集名称danaaubakirova/koch_test
模型名称Pi0模型名称pi0_model
批处理大小推理批处理大小10
推理步数推理运行步数100

六、故障排除

1. 下载失败问题

# 检查网络连接ping hf-mirror.com # 检查Hugging Face配置echo$HF_ENDPOINTecho$HF_TOKEN

2. NPU设备不可用

# 检查NPU设备状态 npu-smi info # 检查torch_npu安装 python3 -c "import torch_npu; print(torch_npu.npu.is_available())"

3. 依赖库缺失

# 重新安装依赖 pip install --force-reinstall torch_npu==2.1.0.post17 pip install --force-reinstall -e .

CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。

欢迎到CANN开源社区了解更多!


hello,我是 是Yu欸 。如果你喜欢我的文章,欢迎三连给我鼓励和支持:👍点赞 📁 关注 💬评论,我会给大家带来更多有用有趣的文章。
原文链接 👉 ,⚡️更新更及时。

欢迎大家点开下面名片,添加好友交流。

Read more

基于FPGA的TDC延迟链优化与码密度校准方法

1. TDC延迟链的基本原理与挑战 时间数字转换器(TDC)的核心任务是将时间间隔转换为数字量,就像秒表记录运动员成绩一样。但在高精度测量领域,我们需要达到皮秒(ps)级的分辨率,这相当于把一秒分成一万亿份!FPGA内部的进位链(Carry Chain)资源天然适合实现这种高精度测量,因为它具有极快的信号传播速度。 延迟链的基本原理很简单:信号从链的起点开始传播,每经过一级延迟单元就会产生固定的时间延迟。当另一个参考信号(如停止信号)到达时,我们通过检查链上每个单元的状态,就能知道信号传播了多少级,从而计算出时间间隔。这就像观察一排多米诺骨牌倒到第几块了一样。 但在实际应用中,我们会遇到一个棘手的问题:零宽度延迟单元。这些单元由于制造工艺偏差,几乎不产生任何延迟。它们的存在会破坏温度计码的连续性,导致测量结果出现非线性误差。想象一下,如果多米诺骨牌中混进了几块不会倒的牌子,我们就无法准确判断骨牌倒到哪了。 2. 码密度测试:诊断延迟链的健康状况 码密度测试是校准TDC的基础,它的原理类似于统计学中的蒙特卡洛方法。我们让Start信号和Strobe信号使用两个不同频率且不相干

具身智能小智AI小车图形化编程Mixly MQTT MCP AIOT控制齐护机器人

具身智能小智AI小车图形化编程Mixly MQTT MCP AIOT控制齐护机器人

项目1-07 智能AI小车 (PBL技术核心_MCP与AI小车控制应用) 一、项目场景介绍 在人工智能迈向“具身化”(Embodied Intelligence)的新时代,智能体不再只是云端的算法,而是能感知、决策并与物理世界互动的实体存在。本课程以齐护Small智能小车为硬件载体,结合齐护AiTall Mini开发平台与小智AI开源大模型对话系统,打造一个集“自然语言理解—意图识别—物理执行”于一体的端到端具身智能交互实验平台。 课程项目将通过图形化软件Mixly编程方式,轻松实现以下高阶功能: 1.语音/文本指令输入:用户通过自然语言与小智AI对话; 2.大模型意图解析:利用小智AI开源大模型理解用户指令语义; 3.多协议融合通信:通过串口、MQTT、MCP协议及本地IoT控制(如AiTall内置RGB灯反馈),构建低延迟、高可靠的人—AI—小车通信链路; 4.智能行为执行:小车根据AI解析结果完成移动、灯光响应、状态反馈等具身动作; 5.可视化编程体验:采用齐护教育版Mixly平台,零代码门槛快速上手,

【无人机3D路径规划】基于改进蝙蝠优化算法的无人机3D路径规划研究附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室  👇 关注我领取海量matlab电子书和数学建模资料  🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。 🔥 内容介绍  一、引言 在当今科技飞速发展的时代,无人机在众多领域得到了广泛应用,从物流配送、农业监测到航空测绘等。在这些应用场景中,无人机需要在三维空间中规划出一条安全、高效的飞行路径,以完成各种任务。传统的路径规划算法在处理复杂的 3D 环境时,往往存在收敛速度慢、易陷入局部最优等问题。蝙蝠优化算法(Bat Algorithm,BA)作为一种新兴的智能优化算法,模拟了蝙蝠的回声定位行为,为解决此类问题提供了新的思路。然而,标准的蝙蝠优化算法也有其局限性,因此本文聚焦于基于改进蝙蝠优化算法的无人机 3D 路径规划研究,旨在提升路径规划的性能。 二、蝙蝠优化算法基础 1. 蝙蝠回声定位模拟:蝙蝠在飞行过程中通过发出超声波,并根据回声来感知周围环

论文阅读笔记(一):《深度学习在自主导航中的应用与方法最新进展:全面综述》

论文阅读笔记(一):《深度学习在自主导航中的应用与方法最新进展:全面综述》

最近想要学习一下关于AI的知识,准备读一个综述《RECENT ADVANCEMENTS IN DEEP LEARNING APPLICATIONS AND METHODS FOR AUTONOMOUS NAVIGATION: A COMPREHENSIVE REVIEW》,并将学习内容记录在此,本笔记主要内容为记录并梳理文献中介绍的基础神经元网络部分,欢迎大家讨论并批评指正。 Artiffcial Neuron(人工神经元) 文献中提到,人工神经元是一个数学函数,用于模拟生物神经元的行为。它接收一个输入信号x,这个信号被一个权重w加权,并加上一个偏置b,然后通过一个激活函数 f来产生输出信号y。 上图展示了一个神经元的结构:它有多个输入,对应多个权重 。这些加权输入在传输函数(通常是求和函数Σ)中合并,然后通过激活函数ϕ产生最终的输出Y 神经网络就是将这些单个的神经元以不同的方式连接起来组成的层级结构(例如,一个神经元的输出可以作为另一个神经元的输入)。通过调整神经元之间的连接权重,神经网络可以学习并模拟复杂的非线性关系,从而实现模式识别、决策等功能,是深度学习的基础。