【CANN】Pi0机器人大模型 × 昇腾A2 测评

优质文章学习记录

10 Apr 2026 — 4 min read

【CANN】Pi0机器人大模型 × 昇腾A2 测评

写在最前面

🌈你好呀！我是是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

写在最前面

版权声明：本文为原创，遵循 CC 4.0 BY-SA 协议。转载请注明出处。

Pi0机器人VLA大模型测评

哈喽大家好呀！我是是Yu欸。
最近人形机器人和具身智能真的太火了，大家都在聊 Pi0、聊 VLA 大模型。但是，兄弟们，不管是搞科研还是做落地，咱们始终绕不开一个问题——算力。
今天，我们一起把当下最火的 Pi0 机器人视觉-语言-动作大模型，完完整整地部署在国产算力平台上，也就是华为的昇腾 Atlas 800I A2 服务器上。

在跑通仓库模型的基础上，我们做一次性能测评。我们要测三个最核心的指标：第一，推理速度，机器人反应够不够快？第二，控制精度，机械臂抓得准不准？第三，功能完整性，国产环境到底稳不稳？
让我们开始吧！

【01:30 - 03:30】什么是CANN与测试背景

在正式跑代码之前，我先花两分钟介绍一下今天的幕后功臣。很多人只知道昇腾芯片，也就是 NPU，但很少人知道怎么用好它。
这就得提到 CANN 了。CANN 的全称是“神经网络计算架构”。简单来说，如果昇腾芯片是肌肉，那 CANN 就是神经系统。我们平时用的 PyTorch 写的代码，怎么在国产 NPU 上跑起来？全靠 CANN 在中间做翻译和加速。它把上层的 AI 框架和底层的硬件算力完美地连接在了一起。

这次测评，我没有自己瞎折腾环境，而是直接使用了 CANN 开源社区里的官方仓库，叫 cann-recipes-embodied-intelligence。这个仓库里全是针对具身智能的优化案例。说实话，现在的国产开源生态真的比几年前好太多了，像这种可以直接拿来用的“交钥匙”工程，能帮我们省下大量踩坑的时间。

接下来，我们进实操。

【03:30 - 06:00】环境配置

【06:00 - 09:30】推理性能测评：速度与激情

【09:30 - 12:30】精度测试

【12:30 - 14:00】功能与兼容性

【14:00 - 15:00】总结与展望

单次推理 65 毫秒，误差控制在 1 厘米级别。这一连串数据证明了一件事：国产算力配合 CANN 软件栈，已经完全具备了支撑高端具身智能发展的核心能力。咱们以后做机器人大模型，完全可以放心地用国产平台来跑。
如果你也是做 AI 的，或者对机器人感兴趣，我强烈建议你去逛逛 CANN 开源社区。哪里不仅有我今天用的代码，还有很多针对大语言模型、计算机视觉的优化案例，全是干货。

以上就是测评的全部内容，我们下期视频再见。拜拜！

hello，我是是Yu欸。如果你喜欢我的文章，欢迎三连给我鼓励和支持：👍点赞 📁 关注 💬评论，我会给大家带来更多有用有趣的文章。
原文链接 👉 ，⚡️更新更及时。

欢迎大家点开下面名片，添加好友交流。

告别“打字机”：Generative UI 如何重塑 AI 时代的前端交互？

自从大语言模型（LLM）爆发以来，前端开发者接到了无数“给系统加个 AI 对话框”的需求。我们熟练地接入 API，处理流式（Streaming）响应，看着文字像打字机一样一个个蹦出来。但这真的是 AI 时代前端交互的终点吗？想象一下这个场景：用户问“帮我对比一下苹果和微软的近期股价”。传统的聊天机器人只能吐出一堆干瘪的文字，或者勉强渲染一个 Markdown 表格。但作为一名前端工程师，你的组件库里明明躺着精美的 Echarts K线图、带有交互提示的卡片和丝滑的动画。为什么我们不能让大模型直接“生成”一个可交互的 React 或 Vue 组件呢？答案是：可以。这就是目前前端领域最具颠覆性的范式——Generative UI（生成式 UI）。什么是 Generative UI？ Generative UI 是指结合 AI

Flutter 三方库 flutter_dropzone 的鸿蒙化适配指南 - 掌握万物皆可拖拽的资源流转技术、助力鸿蒙大屏与 Web 应用构建极致直观的文件导入与交互体系

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 flutter_dropzone 的鸿蒙化适配指南 - 掌握万物皆可拖拽的资源流转技术、助力鸿蒙大屏与 Web 应用构建极致直观的文件导入与交互体系前言在 OpenHarmony 鸿蒙应用全场景覆盖、特别是适配鸿蒙桌面模式（Desktop Mode）、折叠屏大屏交互及鸿蒙 Web 版推送的工程实战中，“文件拖拽（Drag and Drop）”已成为提升生产力效率的标配功能。用户希望能够像在 PC 上一样，直接将图片或文档拖入应用窗口即可完成上传。如何实现这种跨越边界的直观交互？flutter_dropzone 作为一个专注于“拖放区域感知与文件流提取”的库，旨在为鸿蒙开发者提供一套标准的拖放治理方案。本文将详述其在鸿蒙端的实战技法。一、原原理分析 / 概念介绍 1.1 基础原理 flutter_dropzone

Qwen3-VL视觉编程：从UI设计图生成前端代码

Qwen3-VL视觉编程：从UI设计图生成前端代码 1. 引言：当视觉语言模型遇上前端工程化在现代软件开发中，UI/UX 设计稿到前端代码的转换一直是一个高成本、低效率的手动过程。设计师交付 Figma 或 Sketch 文件后，前端工程师需要逐项还原布局、样式与交互逻辑，不仅耗时，还容易因理解偏差导致实现失真。随着多模态大模型的发展，这一瓶颈正在被打破。阿里最新推出的 Qwen3-VL-WEBUI，基于其强大的视觉-语言模型 Qwen3-VL 系列，首次实现了从 UI 设计图到可运行 HTML/CSS/JS 代码的端到端自动化生成。这不仅是“图像转代码”的简单尝试，更是构建视觉代理（Visual Agent）的关键一步——让 AI 能真正“看懂”界面并“动手实现”。本文将深入解析 Qwen3-VL 在前端代码生成场景中的技术原理、

物理实验报告图像自动评分系统基于GLM-4.6V-Flash-WEB搭建

物理实验报告图像自动评分系统基于GLM-4.6V-Flash-WEB搭建在中学和高校的物理教学中，实验报告批改一直是个“高投入、低产出”的环节。教师需要逐份检查学生的实验步骤记录、数据表格、图表绘制以及结论分析，不仅要识别手写内容，还要判断逻辑是否合理、误差分析是否到位。一份报告可能只需学生半小时完成，但老师批阅却要花上十几分钟——面对上百名学生，这项工作几乎成了体力劳动。更棘手的是，评分标准往往依赖经验，不同教师之间甚至同一教师在不同时段都可能出现偏差。而市面上一些自动化工具要么只能做简单的OCR文字识别，无法理解图像中的坐标轴趋势或公式含义；要么依赖昂贵的云服务API，响应慢、成本高、数据还必须上传到第三方服务器。直到像 GLM-4.6V-Flash-WEB 这样的轻量级多模态大模型出现，才真正让“本地化、低延迟、高准确率”的智能评分成了一种可落地的现实选择。为什么是 GLM-4.6V-Flash-WEB？这个由智谱AI推出的模型名字听起来有点技术味十足，其实拆开来看并不复杂： * GLM 是通用语言模型（General Language Model）系列

【CANN】Pi0机器人大模型 × 昇腾A2 测评

写在最前面

Read more

告别“打字机”：Generative UI 如何重塑 AI 时代的前端交互？

Flutter 三方库 flutter_dropzone 的鸿蒙化适配指南 - 掌握万物皆可拖拽的资源流转技术、助力鸿蒙大屏与 Web 应用构建极致直观的文件导入与交互体系

Qwen3-VL视觉编程：从UI设计图生成前端代码

物理实验报告图像自动评分系统基于GLM-4.6V-Flash-WEB搭建