一:先说结论
先说结论:不仅能跑,还一共有四种方案。
方案一:STM32 官方提供的 STM32Cube.AI(X-CUBE-AI)
其实原理是我们把在 PC 上训练好的神经网络自动转换成可在 MCU 上运行的 C 库;然后在自己的软件/代码工程中调用已经编译产生的 C 库。
方案二:直接用 TensorFlow Lite Micro(TFLM)+ CMSIS-NN 在 STM32 上做端侧推理。
TensorFlow 是由谷歌开发并开源的一个机器学习库,它支持模型训练和模型推理。这里提到的 TFLM,全称是 TensorFlow Lite for Microcontrollers,翻译过来就是'针对微控制器的 TensorFlow Lite'。
它适用于微控制器和其他一些仅有数千字节内存的设备。
可以直接在'裸机'上运行,不需要操作系统支持、任何标准 C/C++ 库和动态内存分配。核心运行时在 Cortex M3 上运行时仅需 16KB,加上足以用来运行语音关键字检测模型的操作,也只需 22KB 的空间。
方案三:NanoEdge AI Studio
对于'异常检测/分类/回归'这类小模型,还可以用 NanoEdge AI Studio 生成适配 STM32 的库。
NanoEdge AI Studio 是用于 STM32 部署边缘 AI 的软件,Studio 可生成四种类型的库:异常检测、单分类、多分类、预测。它支持所有类型的传感器,所生成的库不需要任何云连接,可以直接在本地学习与部署,支持 STM32 所有 MCU 系列。
方案四:STM32N6 + NPU
STM32N6 这代芯片把 NPU(Neural-ART)直接塞进 MCU,峰值可达百亿次级别运算,面向更重的视觉/音频任务——这等于把'在 STM32 上跑 AI'从'小巧求稳',推进到'更大模型也能实时'。
二:四种方案的对比?该怎么选择?
| 路线 | 适用任务 | 优点 | 注意点 |
|---|---|---|---|
| STM32Cube.AI(X-CUBE-AI) | 小到中等 CNN/MLP、KWS、人形检测、回归/分类 | 图形化/命令行一体,自动把模型转成优化的 C 代码;新版本支持 ONNX 量化网络与在线开发/板农场验证 | 模型算子需被支持;建议 Int8 量化;结合板端性能页面做预估 |
| TFLite Micro + CMSIS-NN | 经典 TinyML 示例(hello_world、kws、gesture、person_detection) | 开源、可控;CMSIS-NN 将核函数映射到 Cortex-M,常见可获 4–5×提速/能效改善 | 需要自己选/裁剪算子与内存;工程化工作量稍大 |
| NanoEdge AI Studio | 异常检测、简单分类/回归(工业声音、振动等) | 向导式生成库,数据量要求低,上手快 | 黑盒程度更高,适合追'快落地'的项目 |
| STM32N6 + NPU | 更重的视觉/音频(目标/人形、语音场景) | MCU 等级首次具备'类 MPU'级别的 AI 推理吞吐;官方工具链直接支持 | 面向新芯片与生态,需对齐支持的模型/算子与工具 |
三:直接上干货:可复制的案例分享
方案 1 案例:STM32 AI Model Zoo(图像分类等多任务)
STM32 AI 模型库(Model Zoo)是一个针对 STM32 微控制器优化的可以直接用于设计参考的机器学习模型集合。
(1)它包含大量面向应用的模型,这些模型通常可以直接用于再训练(retraining)。
(2)提供在标准数据集上已经预训练好的模型。
(3)附带脚本,用以简化在用户自己数据集上对任一模型进行再训练、量化(quantization)、评估或基准测试(benchmarking)的过程。


