AI 编译器 SRAM 内存分配管理算法调研

一、AI 编译器中的 SRAM 内存分配管理算法

AI 编译器的 SRAM 分配目标通常包括：

最小峰值内存（peak memory）
减少带宽访问（减少 DRAM ↔ SRAM 往返）
保持计算并行度
为 kernel 调度与算子融合提供约束

在各大 NPU 编译器（TensorRT、TFLite、TVM、IREE、XNNPACK、各家 SoC NPU 编译器）中，常见的 SRAM 分配策略可分为三类：

1. 静态图的'生存期区间 (Liveness-based) 分配'

这是目前 最常见、所有主流编译器都使用的基础算法。

1.1 Linear Scan（线性扫描分配）

原理：

对每个 tensor 做 liveness analysis：得到 start 与 end 点。
按时间顺序扫描分配固定区域。

特点：

O(n) 时间复杂度，编译速度快。
分配结果可预测、确定性强。
对内存块（tensor）的生命周期要求较严。

缺点：

没有全局优化，不是最优解。
在多分支 / 大模型中依然可能碎片高。

绝大多数 NPU 编译器的 baseline 都是它（包括 TVM、ONNX Runtime EP、厂商私有编译器）。

2. 区间图着色（Interval Graph Coloring）

思想来自寄存器分配，将 tensor 视为区间图上的节点，冲突区间染色融合空间。

优点：

更接近最优内存布局。
支持在极小 SRAM 中 squeeze 更大模型。

缺点：

NP-hard，需要启发式（heuristic）。
编译速度较慢，多用于高端设备（GPU/TPU 类编译器）。

TensorRT、Meta 的 Glow、部分 NPU 编译器内部采用该技术。

3. Memory Planning with Best-Fit / First-Fit（内存框选分配）

相比 linear scan 更灵活：

First Fit：找第一个足够大的空洞。
Best Fit：找最适合的空洞，减少碎片。
Worst Fit：为未来保留更多大洞（rare）。

这些算法常用于：

TFLite Micro
XNNPACK
部分嵌入式 NPU 后端（如 ARM Ethos-U）

优点：

实现简单
对碎片化有改善
很适合 运算图较小/算子固定 的 microcontroller NPU

4. 仿射模型优化（Affine Memory Planning）

IREE、MLIR、边缘 AI 编译器常用。

建立一个 tensor offset 分配问题

算法类别	典型编译器	优点	缺点
Linear Scan	TVM/ONNX/TensorRT 基础层	快、简单	非全局最优
Graph Coloring	Glow / TensorRT	近最优	NP-hard，慢
Best/First Fit	TFLite Micro / MCU	实现简单	依赖 heuristics
ILP/Affine	MLIR/IREE/高端 NPU	全局最优	编译开销大
Buffer Reuse	所有编译器	大幅省 SRAM	依赖 schedule
Block-level Plan	Transformer 友好后端	可运行大模型	策略化较强
Dynamic Planner	TensorRT/TVM	支持动态 shape	复杂度高

编译器	分配核心算法	复用能力	是否做 ILP/Affine	Tiling 影响	动态 shape 支持
TensorRT	Liveness + Graph Coloring	⭐⭐⭐⭐	中	强依赖 Tensor Core tile	强
TVM	Linear Scan + Region	⭐⭐⭐	可选	强（用户 schedule）	中
IREE	Affine Planner（MLIR）	⭐⭐⭐⭐⭐	强	中等	非常强
TFLite	Liveness + Best-Fit	⭐⭐	无	弱	弱
XNNPACK	Liveness + First-Fit	⭐⭐	无	弱	无
NPU 编译器	强硬件耦合：pipeline + tile SRAM	⭐⭐⭐⭐⭐	少	极强	中等

AI 编译器 SRAM 内存分配管理算法调研

一、AI 编译器中的 SRAM 内存分配管理算法

1. 静态图的'生存期区间 (Liveness-based) 分配'

1.1 Linear Scan（线性扫描分配）

2. 区间图着色（Interval Graph Coloring）

3. Memory Planning with Best-Fit / First-Fit（内存框选分配）

4. 仿射模型优化（Affine Memory Planning）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 'Buffer Reuse'（缓冲区复用）策略

5.1 Inplace 复用

5.2 Alias（别名）

5.3 Lifetime-based Reuse（生存期复用）

5.4 Pattern-based Reuse

6. 基于 DAG 拓扑的 Block Allocation（块级调度分配）

7. 动态形状（Dynamic Shape）下的分配策略

7.1 Executable Memory Planner

7.2 Chunk-based Allocation

8. Weight Streaming + Compute-Overlapping 管理

9. 图优化带来的间接内存减少算法

最终总结

二、AI 编译器 SRAM 内存分配方式对比

1. TensorRT

核心策略

强项

特点

2. TVM

核心策略

强项

特点

3. IREE (Google, MLIR)

核心策略

强项

特点

4. TFLite

核心策略

强项

特点

5. XNNPACK

核心策略

强项

特点

6. 各类厂商专有 NPU 编译器（寒武纪 Cambricon、地平线、海思、联发科、苹果 ANE、三星 DSP 等）

通用特征

6.1 双缓冲 / 多缓冲 DMA pipeline

6.2 Multi-bank SRAM 冲突避免

6.3 Kernel 模板固定，所以内存规划固定

6.4 强制算子流水（Pipeline）

6.5 全图级 Memory Planner（体现 NPU 特色）

6.6 部分 NPU 有片内 L0/L1 分级缓存

多维度对比表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具