STM32 运行 AI 大模型的四种方案与案例

不仅能跑，还一共有四种方案。

原理是将 PC 上训练好的神经网络自动转换成可在 MCU 上运行的 C 库，然后在软件工程中调用已编译的 C 库。

TensorFlow 是由谷歌开发并开源的机器学习库。TFLM 全称是 TensorFlow Lite for Microcontrollers，适用于微控制器及其他仅有数千字节内存的设备。

它可以直接在'裸机'上运行，不需要操作系统支持、任何标准 C/C++ 库和动态内存分配。核心运行时在 Cortex M3 上仅需 16KB，加上语音关键字检测模型的操作，也只需 22KB 的空间。

对于'异常检测/分类/回归'这类小模型，可以用 NanoEdge AI Studio 生成适配 STM32 的库。

NanoEdge AI Studio 是用于 STM32 部署边缘 AI 的软件，可生成四种类型的库：异常检测、单分类、多分类、预测。它支持所有类型的传感器，所生成的库不需要任何云连接，可以直接在本地学习与部署，支持 STM32 所有 MCU 系列。

STM32N6 这代芯片把 NPU（Neural-ART）直接塞进 MCU，峰值可达百亿次级别运算，面向更重的视觉/音频任务——这等于把'在 STM32 上跑 AI'从'小巧求稳'，推进到'更大模型也能实时'。

路线	适用任务	优点	注意点
STM32Cube.AI（X-CUBE-AI）	小到中等 CNN/MLP、KWS、人形检测、回归/分类	图形化/命令行一体，自动把模型转成优化的 C 代码；新版本支持 ONNX 量化网络与在线开发/板农场验证	模型算子需被支持；建议 Int8 量化；结合板端性能页面做预估
TFLite Micro + CMSIS-NN	经典 TinyML 示例（hello_world、kws、gesture、person_detection）	开源、可控；CMSIS-NN 将核函数映射到 Cortex-M，常见可获 4–5× 提速/能效改善	需要自己选/裁剪算子与内存；工程化工作量稍大
NanoEdge AI Studio	异常检测、简单分类/回归（工业声音、振动等）

更多推荐文章