基于 FPGA 的卷积神经网络 CNN 设计与基础回顾 | 极客日志

C++AI算法

基于 FPGA 的卷积神经网络 CNN 设计与基础回顾

综述由AI生成基于 FPGA 实现卷积神经网络（CNN）的设计方案，涵盖基础知识、Vivado HLS 工具使用、IP 核（RAM、FIFO、MMCM）配置以及通信协议（UART、IIC、SPI）驱动。重点讲解了卷积层、激活层、池化层和 SoftMax 层的硬件实现细节，包括半精度浮点数（FP16）运算单元设计及泰勒展开法在激活函数中的应用。文章详细阐述了从卷积本质操作到 FPGA 具体实现的流程，提供了关于接口信号、IP 核参数配置及算法优化的技术参考。

草莓泡芙发布于 2026/4/5更新于 2026/5/2030 浏览

卷积神经网络 FPGA 设计概述

卷积的本质操作

每个输出通道的卷积核是一个大小为 K×K×Cin 的张量，与输入的所有 Cin 个通道做逐通道乘加（Cross-channel sum），每个输出通道由此得出。

示例说明

nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3)

输入图像是 RGB 彩色图（3 通道）；
有 64 个卷积核，每个核的大小为 3×3×3；
最终输出是 64 个通道（特征图），每个大小为 Hout×Wout。

FPGA 设计意义

输入通道数决定了并行输入数据数量；
输出通道数决定了需要并行计算多少组卷积；
如果使用多个 Processing Element (PE) 实现并行卷积，输出通道数常等于 PE 个数。

Vivado HLS 简介

Xilinx 推出的 Vivado HLS 工具可以直接使用 C、C++ 或 SystemC 对 Xilinx 系列的 FPGA 进行编程。FPGA 设计中从底层向上一共存在着四种抽象层级，依次为：结构性的、RTL、行为性的和高层。 Vivado HLS 的功能简单来说就是把 C、C++ 或 SystemC 的设计转换成 RTL 实现，然后就可以在 Xilinx FPGA 或 Zynq 芯片的可编程逻辑中综合并实现了。

接口信号（Interface → Summary 表格）

红框里的 RTL Ports 是综合后生成的硬件端口（对应 FPGA 的引脚 / 信号），关键信息如下：

RTL Ports	Dir	Bits	Protocol	含义解释
`ap_clk`	in	1	`ap_ctrl_none`	时钟信号（FPGA 运行需要时钟驱动）
`ap_rst`	in	1	`ap_ctrl_none`	复位信号（用于重置电路状态）
`led`	out	2	`ap_none`	最终控制 LED 的 2 位输出信号

因为加了 #pragma HLS INTERFACE ap_ctrl_none port=return，工具自动补充了 ap_clk、ap_rst（HLS 默认的控制信号），但因为 ap_ctrl_none，这些信号不会有复杂的握手逻辑，只是基础的时钟、复位。
led 是 2 位输出（对应代码里的 uint2），协议是 ap_none（简单直接的端口，没有总线协议封装）。

接口约束详解

#pragma HLS INTERFACE ap_none port=led
- 指定 led 指针的接口类型为 ap_none。
- ap_none 表示这个端口不会被映射到任何标准总线接口，通常用于直接连接到 FPGA 引脚的简单信号。
- 在这里，led 会被综合成一个直接输出到 LED 引脚的信号。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

clk_wiz_0 instance_name (
    // Clock out ports
    .clk_out_100m(clk_out_100m),
    .clk_out_100m_180(clk_out_100m_180),
    .clk_out_50m(clk_out_50m),
    .clk_out_25m(clk_out_25m),
    // Status and control signals
    .reset(reset),
    .locked(locked),
    // Clock in ports
    .clk_in1(clk_in1)
);

起始位：主设备要发起通信时，会将 SDA 线从高电平拉低，此时 SCL 线保持高电平，以此表示通信开始。在给定代码中，当处于 st_sladdr 状态且 cnt 为 7'd1 时，sda_out <= 1'b0，实现了起始位的发送。 发送从设备地址：起始位之后，主设备发送 7 位或 10 位的从设备地址，紧接着是一位读写控制位（0 表示写，1 表示读）。代码中在 st_sladdr 状态下，通过循环依次将从设备地址 SLAVE_ADDR 的每一位从高位到低位通过 SDA 线发送出去，最后根据读写控制信号 i2c_rh_wl 确定发送的是读还是写控制位。 等待从设备应答：主设备发送完从设备地址和读写控制位后，会释放 SDA 线，等待从设备返回确认信号（ACK）。从设备在接收到地址后，会在第 9 个时钟周期将 SDA 线拉低，表示应答。在代码中，当 cnt 为 7'd38 时，会检测 SDA 线的电平，如果 SDA 线为高电平，表示从设备未应答，将 i2c_ack 标志位置 1。 发送字地址：根据 bit_ctrl 信号判断是发送 16 位还是 8 位字地址。如果是 16 位字地址，先在 st_addr16 状态下发送高 8 位，然后在 st_addr8 状态下发送低 8 位；如果是 8 位字地址，则直接在 st_addr8 状态下发送。发送过程中，通过 cnt 计数，依次将字地址的每一位通过 SDA 线发送出去，并在发送完后等待从设备应答。 数据传输方向：写数据：如果是写操作，主设备在发送完字地址并收到从设备应答后，进入 st_data_wr 状态。通过 cnt 计数，将 i2c_data_w 中的数据逐位通过 SDA 线发送出去，每发送一位后，等待从设备应答。读数据：如果是读操作，主设备在发送完字地址并收到从设备应答后，会再次发送从设备地址（读），然后进入 st_data_rd 状态。主设备在该状态下，通过设置 SDA 为输入模式，在每个时钟周期的上升沿从 SDA 线读取数据，存入 data_r 中。读取完 8 位数据后，主设备发送非应答信号（NACK），告知从设备数据已接收完毕。 结束位：数据传输完成后，主设备通过将 SDA 线从低电平拉高，同时 SCL 线保持高电平，表示通信结束。在代码的 st_stop 状态下，当 cnt 为 7'd0 时，sda_dir <= 1'b1 和 sda_out <= 1'b0，先将 SDA 线拉低，然后在 cnt 为 7'd3 时，sda_out <= 1'b1，将 SDA 线拉高，实现了结束位的发送。

基于 FPGA 的卷积神经网络 CNN 设计与基础回顾

卷积神经网络 FPGA 设计概述

卷积的本质操作

示例说明

FPGA 设计意义

Vivado HLS 简介

接口信号（Interface → Summary 表格）

接口约束详解

更多推荐文章

相关免费在线工具

Verilog HDL 语法与 Vivado 软件

IP 核使用实验

MMCM/PLL IP 核

RAM IP 核

FIFO IP 核

UART 串口实验

IIC 协议驱动模块仿真实验

EEPROM 读写测试实验（IIC 协议读写）

SPI 协议驱动模块仿真实验

练习：基于 FPGA 实现 CNN

为什么采用半精度浮点数？

一、Processing Element（float16 的'乘法 - 累加'）

半精度浮点数 FP16(float point 16) 格式理解

举个例子：将十进制数转换为半精度浮点数格式

二、Convolution Unit（单通道、单输出点的一次卷积运算）

三、Single Filter Layer（完整的卷积运算，行优先由高到低存储）

四、Multi Filter Layer（多层卷积运算）

五、integrationConv（卷积层由多个卷积核组成）

激活层设计——以 tanh 为例（泰勒展开）

池化层设计——自顶而下分析池化层的设计过程

一、AvgUnit（四输入求平均值）

二、AvgPoolSingle（单个通道的平均池化）

三、AvgPoolMulti（对多维数据执行 2×2 平均池化）

SoftMax 层设计

更多推荐文章

相关免费在线工具

基于 FPGA 的卷积神经网络 CNN 设计与基础回顾

卷积神经网络 FPGA 设计概述

卷积的本质操作

示例说明

FPGA 设计意义

Vivado HLS 简介

接口信号（Interface → Summary 表格）

接口约束详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Verilog HDL 语法与 Vivado 软件

IP 核使用实验

MMCM/PLL IP 核

RAM IP 核

FIFO IP 核

UART 串口实验

IIC 协议驱动模块仿真实验

EEPROM 读写测试实验（IIC 协议读写）

SPI 协议驱动模块仿真实验

练习：基于 FPGA 实现 CNN

为什么采用半精度浮点数？

一、Processing Element（float16 的'乘法 - 累加'）

半精度浮点数 FP16(float point 16) 格式理解

举个例子：将十进制数转换为半精度浮点数格式

二、Convolution Unit（单通道、单输出点的一次卷积运算）

三、Single Filter Layer（完整的卷积运算，行优先由高到低存储）

四、Multi Filter Layer（多层卷积运算）

五、integrationConv（卷积层由多个卷积核组成）

激活层设计——以 tanh 为例（泰勒展开）

池化层设计——自顶而下分析池化层的设计过程

一、AvgUnit（四输入求平均值）

二、AvgPoolSingle（单个通道的平均池化）

三、AvgPoolMulti（对多维数据执行 2×2 平均池化）

SoftMax 层设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具