多 FPGA 模型推理架构与切分策略

1. 多颗 FPGA 实现模型推理：完全可行且是主流方案

绝大多数大模型、高吞吐、低延迟推理场景（如云端 AI 加速卡、自动驾驶域控、机器人中央计算单元）都是多 FPGA / 多芯片协同推理。

典型做法：

模型切层 / 切通道 / 切任务分布到多片 FPGA
片间流水并行 + 数据并行
每片 FPGA 负责一部分算子 / 层 / 特征图

只要带宽、时延、同步设计得当，性能几乎可以接近线性扩展。

2. 多 FPGA 之间用什么总线 / 接口通信？

按速度从高到低、从近到远排序：

（1）芯片内 / 紧耦合：Die-to-Die 互联（D2D）

UCIe、BoW、AIB 等
用于 2.5D/3D 封装内多裸片（小芯片）
带宽极高、时延极低

（2）板级高速：SerDes 高速串行接口

PCIe 5.0/6.0（最常用，软件生态最好）
CXL 2.0/3.0（未来大模型多芯片统一内存）
100G/400G Ethernet（分布式多卡、多机箱）
自定义 Multi-gigabit Transceiver（MGT）直连（低时延专用）

（3）传统并行总线（基本不用）

AXI、APB 等是片内总线，不用于多 FPGA 通信。

3. 必须要有数据存储单元吗？

必须有，而且非常关键。

你至少需要三类存储：

片上存储（BRAM/URAM）
- 存放权重、特征图、指令
- 决定推理时延与吞吐
片外高带宽内存（HBM / GDDR6 / DDR5）
- 大模型权重、特征图缓存
- 多 FPGA 推理最吃带宽
片间共享 / 同步存储
- 用于多 FPGA 之间的数据同步、乒乓缓冲、命令队列
- 可以是：
  - 共享 DDR
  - CXL 共享内存
  - 片上双端口 RAM + 高速链路

一句话：没有存储，多 FPGA 就无法流水线、无法缓存中间特征图、无法切模型。

多 FPGA 模型推理整体架构（板级 / 多卡）

┌─────────────────────────────────────────────────────────────────┐
│ 主机 / 主控 CPU                                                   │
└───────────────────────┬─────────────────────────────────────────┘
                        │ PCIe/CXL 管理通道
                        ▼
┌─────────────────────────────────────────────────────────────────┐
│ 板级高速交换区域                                                │
│ ┌─────────────────┐ ┌─────────────────┐                        │
│ │ 高速交换芯片    │◄───────►│ 时钟/同步模块                    │
│ │ (PCIe Switch /  │ │ (同步多片时序) │                        │
│ │ 自定义 MGT 交换) │ └─────────────────┘                        │
│ └────────┬────────┘                                             │
└───────────┼─────────────────────────────────────────────────────┘
            │ 高速数据通路 (PCIe 5.0/CXL/100G/MGT 直连)
┌──────────┴──────────┐ ┌──────────────────┐ ┌───────────────┐
│                     │                   │                   │
│ FPGA 0              │ FPGA 1            │ FPGA N            │
│ (模型前层/编码)     │ (模型中层/计算)   │ (模型后层/输出)   │
│                     │                   │                   │
└───────────┬──────────┘ └────────┬─────────┘ └───────┬───────┘
            │                     │                   │
┌───────────┴──────┐ ┌───────────┴──────┐ ┌───────────┴──────┐
│ 片外存储         │ │ 片外存储         │ │ 片外存储         │
│ HBM/DDR5         │ │ HBM/DDR5         │ │ HBM/DDR5         │
└──────────────────┘ └──────────────────┘ └──────────────────┘

切分策略	实现难度	片间带宽要求	适用场景	核心目标
层级切分	低	≥100Gbps	中小模型、高吞吐	易落地、高吞吐
数据维度切分	中高	≥400Gbps	大模型、低延迟	低延迟、高算力
混合切分	高	≥400Gbps	超大模型、双需求	平衡吞吐 + 延迟

多 FPGA 模型推理架构与切分策略

1. 多颗 FPGA 实现模型推理：完全可行且是主流方案

2. 多 FPGA 之间用什么总线 / 接口通信？

（1）芯片内 / 紧耦合：Die-to-Die 互联（D2D）

（2）板级高速：SerDes 高速串行接口

（3）传统并行总线（基本不用）

3. 必须要有数据存储单元吗？

你至少需要三类存储：

多 FPGA 模型推理整体架构（板级 / 多卡）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

内部结构（单 FPGA 内部）

关键通信总线

核心切分策略

策略 1：按「模型层级」切分（Pipeline 切分，最易实现）

核心思路

适用场景

工程实现要点

策略 2：按「数据维度」切分（Parallel 切分，高性能）

核心思路

适用场景

工程实现要点

策略 3：混合切分（Pipeline+Parallel，最优解）

核心思路

适用场景

工程实现要点

策略选择速查表

一、多 FPGA 推理 总线推荐（按优先级）

1. 板内多 FPGA（同一块板卡）

2. 多板卡 / 机柜间

二、带宽怎么算？

关键公式

1. 特征图数据量

2. 片间需要的最小带宽

三、真实场景估算

场景 1：CNN 中间特征图传输（典型 FPGA 推理）

场景 2：Transformer 层间切分（大模型常用）

场景 3：大模型张量并行（多 FPGA 算同一层）

四、最终选型结论

1. 模型层级切分（Pipeline）

2. 模型张量 / 通道并行（Parallel）

3. 板间多卡

五、极简记忆口诀

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

一、多 FPGA 推理总线推荐（按优先级）