昇腾 CANN 技术栈解析：Python、C++ 与算子开发选型指南

CANN 架构示意图

昇腾 CANN 生态持续扩展，功能日益丰富。面对 Python、C++、AscendCL、TBE、MindSpore、PyTorch Frontend、Kernel DSL 等多种接口，开发者常面临选择困难。

CANN 语言体系结构

整个 CANN 软件栈由多层 API 和 Kernel 构成，看似不同实则分工明确。为简化理解，可将其分为三层：

高层：框架调用 — 类似 PyTorch、MindSpore 训练推理
中层：算子 API 调用 — AscendCL、ACL Python、算子编写接口
底层：kernel 语言 — TBE、C++ Kernel、融合算子 DSL

场景化学习路径

模型推理：Python (ACL Python)

适用场景：

部署 YOLO
部署大模型
ONNX 转 OM
简单前后处理

推荐理由： Python ACL 是官方主推的部署 API，上手快，无需接触复杂内存、流或 Device buffer，也不需编写 Kernel。

总结：不做算子开发，用 Python ACL 即可。

深度部署与自定义流程：C++ AscendCL

适用场景：

性能要求高
大规模离线服务
推理服务并发、异步、流水线
自定义 DVPP / AIPP / Memory Pool 管理

推荐理由： 真实部署场景中，Python 存在速度慢、多线程不友好、高并发不稳定等问题。C++ AscendCL 是最稳定且接近硬件的调用方式。

总结：做工程化推理，必须掌握 C++ ACL。

算子开发者：TBE 或 C++ Kernel

CANN 算子开发分两类：

TBE (Tensor Boost Engine)：偏向静态图 + 模板，适合 Conv2D、Softmax、MatMul、BatchNorm 等已有算子的二次开发。
C++ AICore Kernel：偏底层，写 AI Core 的 kernel pipeline，适合复杂融合算子手写 pipeline、性能极限优化及 AICore scheduler 调优。

总结：TBE = 快速开发；C++ Kernel = 极致性能。

框架训练端开发：MindSpore 或 PyTorch Adapter

CANN 训练侧主要依托两条路线：

MindSpore（原生最佳）：CANN 与 MindSpore 深度集成，使用原生能力体验最好。
PyTorch 前端：支持 AutoGrad、OpBuilder、AOT、动态图转图优化。

总结：训练选 MindSpore 最稳，PyTorch 最方便。

需求	推荐技术
只做模型部署	Python ACL
企业级推理服务	C++ AscendCL
自定义算子	TBE + C++ Kernel
搞训练	MindSpore / PyTorch Frontend
科研学生	Python ACL + PyTorch Frontend

昇腾 CANN 技术栈解析：Python、C++ 与算子开发选型指南

昇腾 CANN 技术栈解析：Python、C++ 与算子开发选型指南

CANN 语言体系结构

场景化学习路径

模型推理：Python (ACL Python)

深度部署与自定义流程：C++ AscendCL

算子开发者：TBE 或 C++ Kernel

框架训练端开发：MindSpore 或 PyTorch Adapter

选型建议

更多推荐文章

相关免费在线工具

未来趋势

总结

更多推荐文章

相关免费在线工具

昇腾 CANN 技术栈解析：Python、C++ 与算子开发选型指南

昇腾 CANN 技术栈解析：Python、C++ 与算子开发选型指南

CANN 语言体系结构

场景化学习路径

模型推理：Python (ACL Python)

深度部署与自定义流程：C++ AscendCL

算子开发者：TBE 或 C++ Kernel

框架训练端开发：MindSpore 或 PyTorch Adapter

选型建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

未来趋势

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具