FPGA 实时图像处理：从流水线架构到系统优化

FPGA 实时图像处理：从流水线架构到系统优化 | 极客日志

📊 不同应用对延迟的要求 │ ├─ 1️⃣ 工业分选系统 │ ├─ 要求：延迟 < 5ms │ ├─ 原因：传送带速度固定，必须在物料到达执行机构前完成处理 │ └─ 特点：延迟必须固定，不能有波动 │ ├─ 2️⃣ 医疗影像处理 │ ├─ 要求：延迟 < 100ms │ ├─ 原因：实时显示和诊断 │ └─ 特点：需要高吞吐量，但延迟可以有一定波动 │ ├─ 3️⃣ 自动驾驶视觉系统 │ ├─ 要求：延迟 < 50ms │ ├─ 原因：实时决策和控制 │ └─ 特点：延迟波动会影响安全性 │ └─ 4️⃣ 安防监控 ├─ 要求：延迟 < 200ms ├─ 原因：实时告警和追踪 └─ 特点：可以接受较大延迟，但需要高吞吐量

# CPU/GPU 处理方式 (以帧为单位) 采集图像 → 存入内存 → GPU 读取 → 处理 → 存回内存 → 输出 延迟：不确定 (取决于系统负载) 吞吐量：受内存带宽限制 # FPGA 处理方式 (流水线处理) 采集像素 → 流水线处理 → 输出像素 延迟：固定 (几个时钟周期) 吞吐量：每个时钟周期处理一个像素

处理器	功耗 (W)	性能 (GOPs)	能效比	应用场景
CPU	50-150	100-500	2-10	通用计算
GPU	100-300	1000-5000	5-50	并行计算
FPGA	5-50	100-1000	10-200	专用加速

FPGA 延迟 = 流水线级数 × 时钟周期 例如：10 级流水线 × 10ns = 100ns(固定延迟) CPU/GPU 延迟 = 不确定 - 缓存命中/缺失 - 系统中断 - 内存访问竞争 - 任务调度

时间轴：t=0ms t=33ms t=66ms t=99ms │ │ │ │ 帧 1 采集 帧 1 处理 帧 2 采集 帧 2 处理 完成 完成 完成 ↓ ↓ ↓ 输出 1 输出 2 输出 3 特点： - 必须等待整帧数据采集完成 - 处理延迟 = 帧周期 (30fps 时为 33ms) - 吞吐量受帧率限制

时间轴 (以像素为单位): t=0ns t=10ns t=20ns t=30ns t=40ns │ │ │ │ │ 像素 1→ 像素 2→ 像素 3→ 像素 4→ 像素 5→ 处理 处理 处理 处理 处理 ↓ ↓ ↓ ↓ ↓ 输出 1 输出 2 输出 3 输出 4 输出 5 特点： - 每个时钟周期处理一个像素 - 处理延迟 = 流水线级数 × 时钟周期 (通常 10-100ns) - 吞吐量 = 工作频率 × 并行度

// 伪代码 for frame in frames: image_data = read_from_memory(frame) // 内存读取 result = process(image_data) // 处理 write_to_memory(result) // 内存写入 output(result)

// 硬件流水线 always @(posedge clk) begin // 第 1 级：输入 pixel_in <= input_data; // 第 2 级：预处理 pixel_p1 <= preprocess(pixel_in); // 第 3 级：主处理 pixel_p2 <= process(pixel_p1); // 第 4 级：后处理 pixel_out <= postprocess(pixel_p2); end

处理步骤：打开冰箱 (1s) → 放入大象 (1s) → 关上冰箱 (1s) 总时间：3s 处理 3 头大象：大象 1: 0-3s 大象 2: 3-6s 大象 3: 6-9s 总耗时：9s 吞吐量：3 头/9s = 0.33 头/s

时间 打开冰箱 放入大象 关上冰箱 1s 大象 1 2s 大象 2 大象 1 3s 大象 3 大象 2 大象 1 4s 大象 3 大象 2 5s 大象 3 总耗时：5s 吞吐量：3 头/5s = 0.6 头/s 性能提升：5/9 ≈ 1.67 倍

假设：1080p 图像 (1920×1080 像素), 100MHz 工作频率 不使用流水线： - 处理一个像素需要 10 个时钟周期 - 处理一帧需要：1920×1080×10 = 20.7M 个时钟周期 - 处理时间：20.7M / 100M = 207ms - 帧率：1000ms / 207ms ≈ 4.8fps 使用 10 级流水线： - 处理一个像素需要 1 个时钟周期 - 处理一帧需要：1920×1080×1 = 2.07M 个时钟周期 - 处理时间：2.07M / 100M = 20.7ms - 帧率：1000ms / 20.7ms ≈ 48fps 性能提升：48 / 4.8 = 10 倍！

// ❌ 不使用流水线 always @(posedge clk) begin result <= ((a + b) * c - d) / e + f; end // 关键路径：加法 → 乘法 → 减法 → 除法 → 加法 // 最大延迟：5 个操作的延迟之和 // 最高工作频率：100MHz (假设)

// ✅ 使用流水线 always @(posedge clk) begin // 第 1 级：加法 temp1 <= a + b; // 第 2 级：乘法 temp2 <= temp1 * c; // 第 3 级：减法 temp3 <= temp2 - d; // 第 4 级：除法 temp4 <= temp3 / e; // 第 5 级：加法 result <= temp4 + f; end // 关键路径：单个操作的延迟 // 最高工作频率：500MHz (假设) // 频率提升：5 倍！

单个处理单元：输入：像素 1 → 处理 → 输出 1 吞吐量：1 像素/时钟周期 4 个并行处理单元：输入：像素 1,2,3,4 → 处理 → 输出 1,2,3,4 吞吐量：4 像素/时钟周期

顺序处理：输入 → 滤波 → 边缘检测 → 形态学 → 输出 延迟：3 个处理阶段 并行处理：输入 → 滤波 ─┐ ├→ 边缘检测 → 形态学 → 输出 预处理 ─┘ 延迟：2 个处理阶段

单流水线：时刻 1: 处理像素 1 时刻 2: 处理像素 2 时刻 3: 处理像素 3 吞吐量：1 像素/时钟周期 多流水线 (4 条): 时刻 1: 处理像素 1,2,3,4 时刻 2: 处理像素 5,6,7,8 时刻 3: 处理像素 9,10,11,12 吞吐量：4 像素/时钟周期

FPGA 系统延迟 = 流水线级数 × 时钟周期 + 输入/输出延迟 例如： - 流水线级数：10 级 - 时钟周期：10ns - 输入延迟：5ns - 输出延迟：5ns - 总延迟：10×10 + 5 + 5 = 110ns 这个延迟是固定的，不会因为系统负载而变化！

CPU/GPU 延迟 = 不确定 - 缓存命中：快 (几个时钟周期) - 缓存缺失：慢 (几百个时钟周期) - 系统中断：可能延迟数毫秒 - 任务调度：可能延迟数毫秒 FPGA 延迟 = 确定 - 硬件流水线：固定延迟 - 无系统中断：专用硬件 - 无任务调度：硬件直接执行

相机 → FPGA → 检测结果 → 执行机构 ↓ 实时处理 (延迟 < 5ms)

医学影像设备 → FPGA → 处理结果 → 显示/存储 ↓ 实时处理 (吞吐量 > 1Gbps)

摄像头 1 ─┐ 摄像头 2 ─┼→ FPGA → 目标检测 → 决策 → 控制 摄像头 3 ─┤ ↓ 摄像头 4 ─┘ 并行处理 (延迟 < 50ms)

摄像头 1 ─┐ 摄像头 2 ─┼→ FPGA → 目标追踪 → 告警 → 存储 摄像头 3 ─┤ ↓ 摄像头 4 ─┘ 并行处理 (功耗 < 50W)

图像滤波公式：Output(x,y) = Σ Σ Kernel(i,j) × Input(x+i, y+j) i j 其中： - Kernel: 卷积核 (通常 3×3、5×5 等) - Input: 输入图像 - Output: 输出图像

输入图像：卷积核：输出像素： ┌─────────────┐ ┌─────────┐ │ a b c │ │ │ k1 k2 k3│ │ d e f │ → │ k4 k5 k6│ → Output = a×k1 + b×k2 + c×k3 │ g h i │ │ k7 k8 k9│ + d×k4 + e×k5 + f×k6 └─────────────┘ └─────────┘ + g×k7 + h×k8 + i×k9

用途：图像平滑，去噪 特点：保留边缘，平滑效果好 3×3 高斯核： ┌─────────────┐ │ 1 2 1 │ │ 2 4 2 │ ÷ 16 │ 1 2 1 │ └─────────────┘ Verilog 实现思路：1. 缓存 3×3 像素窗口 2. 计算加权和 3. 右移 4 位 (÷16)

用途：去除椒盐噪声 特点：非线性滤波，效果好但计算复杂 算法：1. 取 3×3 窗口的 9 个像素 2. 排序 3. 取中间值 Verilog 实现思路：1. 缓存 3×3 像素 2. 使用排序网络 (Sorting Network) 3. 输出中间值

用途：简单平滑 特点：计算简单，效果一般 3×3 均值核： ┌─────────────┐ │ 1 1 1 │ │ 1 1 1 │ ÷ 9 │ 1 1 1 │ └─────────────┘ Verilog 实现思路：1. 缓存 3×3 像素 2. 求和 3. 右移 3 位 (÷8, 近似÷9)

Sobel X 方向核：Sobel Y 方向核： ┌─────────────┐ ┌─────────────┐ │-1 0 1 │ │-1 -2 -1│ │-2 0 2 │ │ 0 0 0│ │-1 0 1 │ │ 1 2 1│ └─────────────┘ └─────────────┘ 梯度计算：Gx = Sobel_X * Input Gy = Sobel_Y * Input Magnitude = √(Gx² + Gy²) Direction = atan2(Gy, Gx)

CPU 实现： - 需要浮点运算 (√, atan2) - 计算复杂，速度慢 FPGA 实现： - 使用定点运算 - 可以使用查表法 (LUT) - 可以使用近似算法 (如|Gx|+|Gy|) - 流水线处理，速度快

// 定点 Sobel 边缘检测 (16bit 定点数) module sobel_edge_detector ( input clk, input [7:0] pixel_in, output [15:0] edge_magnitude ); // 缓存 3×3 窗口 reg [7:0] window [0:8]; // Sobel 计算 wire signed [15:0] gx, gy; assign gx = -window[0] + window[2] - 2*window[3] + 2*window[5] - window[6] + window[8]; assign gy = -window[0] - 2*window[1] - window[2] + window[6] + 2*window[7] + window[8]; // 梯度幅值 (使用近似：|Gx| + |Gy|) assign edge_magnitude = abs(gx) + abs(gy); endmodule

1. 高斯滤波 → 去噪 2. 计算梯度 → Sobel 3. 非极大值抑制 → 细化边缘 4. 双阈值处理 → 边缘分类 5. 边缘连接 → 最终边缘

1. 流水线设计 ├─ 第 1 级：高斯滤波 ├─ 第 2 级：Sobel 计算 ├─ 第 3 级：非极大值抑制 ├─ 第 4 级：双阈值处理 └─ 第 5 级：边缘连接 2. 存储优化 ├─ 使用行缓存 (Line Buffer) ├─ 减少 BRAM 使用 └─ 提高数据重用率 3. 并行处理 ├─ 多个像素并行处理 └─ 提高吞吐量

输入：输出 (腐蚀): ┌─────────────┐ ┌─────────────┐ │ 255 255 255│ │ 0 0 0 │ │ 255 100 255│ → │ 0 100 0 │ │ 255 255 255│ │ 0 0 0 │ └─────────────┘ └─────────────┘ 效果：白色区域缩小，黑色区域扩大

module erosion ( input clk, input [7:0] pixel_in, output [7:0] pixel_out ); reg [7:0] window [0:8]; // 取最小值 wire [7:0] min_val; assign min_val = (window[0] < window[1]) ? window[0] : window[1]; // ... 继续比较其他像素 assign pixel_out = min_val; endmodule

输入：输出 (膨胀): ┌─────────────┐ ┌─────────────┐ │ 0 0 0 │ │ 100 100 100│ │ 0 100 0 │ → │ 100 100 100│ │ 0 0 0 │ │ 100 100 100│ └─────────────┘ └─────────────┘ 效果：白色区域扩大，黑色区域缩小

作用：去除小的白色噪声 流程：输入 → 腐蚀 → 膨胀 → 输出

作用：去除小的黑色噪声 流程：输入 → 膨胀 → 腐蚀 → 输出

浮点运算： - 精度高 - 计算复杂 - 硬件资源多 (DSP) - 功耗高 - 延迟大 定点运算： - 精度足够 (8-16bit) - 计算简单 - 硬件资源少 - 功耗低 - 延迟小

8bit 定点数 (Q7.0): 范围：0-255 精度：1 16bit 定点数 (Q8.8): 范围：0-255.99609375 精度：1/256 ≈ 0.004 16bit 定点数 (Q4.12): 范围：0-15.999755859375 精度：1/4096 ≈ 0.0002

单级处理：输入 → 处理 (10 个时钟周期) → 输出 吞吐量：1 像素/10 个时钟周期 5 级流水线：输入 → 处理 1 → 处理 2 → 处理 3 → 处理 4 → 处理 5 → 输出 (2 个周期) (2 个周期) (2 个周期) (2 个周期) (2 个周期) 吞吐量：1 像素/1 个时钟周期 性能提升：10 倍！

处理第 N 行时： ┌─────────────────────────────┐ │ 第 N-1 行 (缓存在 BRAM 中) │ │ 第 N 行 (缓存在 BRAM 中) │ │ 第 N+1 行 (实时输入) │ └─────────────────────────────┘ 优势： - 减少内存访问 - 提高数据重用率 - 降低功耗

时间轴：时刻 1: 像素 1 → [处理 1] → 时刻 2: 像素 2 → [处理 1] → 像素 1 → [处理 2] → 时刻 3: 像素 3 → [处理 1] → 像素 2 → [处理 2] → 像素 1 → [处理 3] → 时刻 4: 像素 4 → [处理 1] → 像素 3 → [处理 2] → 像素 2 → [处理 3] → 像素 1 → [输出] 特点： - 吞吐量：1 像素/时钟周期 - 延迟：N 级 × 时钟周期 - 资源利用率：高 - 实现复杂度：低

module single_pipeline ( input clk, input rst_n, input [7:0] pixel_in, output [7:0] pixel_out ); // 流水线寄存器 reg [7:0] stage1, stage2, stage3; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin stage1 <= 8'b0; stage2 <= 8'b0; stage3 <= 8'b0; end else begin // 第 1 级：输入缓存 stage1 <= pixel_in; // 第 2 级：处理 (例如：高斯滤波) stage2 <= (stage1 + stage1 + stage1) >> 2; // 简单平均 // 第 3 级：输出缓存 stage3 <= stage2; end end assign pixel_out = stage3; endmodule

输入：1920×1080 像素，100MHz 时钟 处理时间： - 每帧像素数：1920 × 1080 = 2,073,600 - 处理时间：2,073,600 / 100MHz = 20.736ms - 帧率：1000ms / 20.736ms ≈ 48fps 延迟： - 流水线延迟：3 级 × 10ns = 30ns - 总延迟：30ns + 输入/输出延迟

单数据流：时刻 1: 像素 1 → 处理 → 输出 1 时刻 2: 像素 2 → 处理 → 输出 2 时刻 3: 像素 3 → 处理 → 输出 3 吞吐量：1 像素/时钟周期 4 数据流：时刻 1: 像素 1,2,3,4 → 处理 → 输出 1,2,3,4 时刻 2: 像素 5,6,7,8 → 处理 → 输出 5,6,7,8 时刻 3: 像素 9,10,11,12 → 处理 → 输出 9,10,11,12 吞吐量：4 像素/时钟周期

module multi_pipeline_parallel ( input clk, input rst_n, input [31:0] pixel_in, // 4 个 8bit 像素 output [31:0] pixel_out ); reg [31:0] stage1, stage2; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin stage1 <= 32'b0; stage2 <= 32'b0; end else begin // 第 1 级：4 个像素并行处理 stage1[7:0] <= process(pixel_in[7:0]); stage1[15:8] <= process(pixel_in[15:8]); stage1[23:16] <= process(pixel_in[23:16]); stage1[31:24] <= process(pixel_in[31:24]); // 第 2 级：输出 stage2 <= stage1; end end assign pixel_out = stage2; // 处理函数 (例如：简单的阈值处理) function [7:0] process(input [7:0] pixel); process = (pixel > 128) ? 8'hFF : 8'h00; endfunction endmodule

module multi_pipeline_time_mux ( input clk, input rst_n, input [7:0] pixel_in, output [7:0] pixel_out ); reg [1:0] counter; reg [7:0] buffer [0:3]; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin counter <= 2'b0; end else begin // 缓存 4 个像素 buffer[counter] <= pixel_in; counter <= counter + 1; // 当收集到 4 个像素时，并行处理 if (counter == 2'b11) begin // 处理 4 个像素 // ... end end end endmodule

假设：1920×1080 图像，100MHz 时钟 单数据流： - 吞吐量：1 像素/时钟周期 - 处理时间：2,073,600 / 100M = 20.736ms - 帧率：48fps 4 数据流： - 吞吐量：4 像素/时钟周期 - 处理时间：2,073,600 / (100M × 4) = 5.184ms - 帧率：192fps - 性能提升：4 倍 8 数据流： - 吞吐量：8 像素/时钟周期 - 处理时间：2,073,600 / (100M × 8) = 2.592ms - 帧率：384fps - 性能提升：8 倍

输入 → [模块 1] → [模块 2] → [模块 3] → [模块 4] → 输出 (滤波) (边缘检测) (形态学) (输出) 特点： - 支持复杂的多步骤处理 - 每个模块独立设计 - 易于扩展和维护 - 总延迟 = 各模块延迟之和

module cascaded_pipeline ( input clk, input rst_n, input [7:0] pixel_in, output [7:0] pixel_out ); wire [7:0] stage1_out, stage2_out, stage3_out; // 第 1 级：高斯滤波 gaussian_filter filter_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(pixel_in), .pixel_out(stage1_out) ); // 第 2 级：Sobel 边缘检测 sobel_detector sobel_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(stage1_out), .pixel_out(stage2_out) ); // 第 3 级：阈值处理 threshold_processor threshold_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(stage2_out), .pixel_out(stage3_out) ); assign pixel_out = stage3_out; endmodule

解决方案 1: 使用有效信号 (Valid Signal) 输入 → [模块 1] → valid1 → [模块 2] → valid2 → [模块 3] → 输出 (处理) (处理) (处理) 解决方案 2: 使用握手信号 (Handshake) 输入 → [模块 1] → ready/valid → [模块 2] → ready/valid → [模块 3] → 输出 (处理) (处理) (处理)

module cascaded_with_valid ( input clk, input rst_n, input [7:0] pixel_in, input valid_in, output [7:0] pixel_out, output valid_out ); reg [7:0] stage1, stage2, stage3; reg valid1, valid2, valid3; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin stage1 <= 8'b0; stage2 <= 8'b0; stage3 <= 8'b0; valid1 <= 1'b0; valid2 <= 1'b0; valid3 <= 1'b0; end else begin // 第 1 级 stage1 <= pixel_in; valid1 <= valid_in; // 第 2 级 stage2 <= process1(stage1); valid2 <= valid1; // 第 3 级 stage3 <= process2(stage2); valid3 <= valid2; end end assign pixel_out = stage3; assign valid_out = valid3; endmodule

例子：输入 → [加法器] → [乘法器] → [除法器] → 输出 (5ns) (10ns) (15ns) 关键路径 = 5 + 10 + 15 = 30ns 最高工作频率 = 1 / 30ns ≈ 33MHz 使用流水线后：输入 → [加法器] → [寄存器] → [乘法器] → [寄存器] → [除法器] → 输出 (5ns) (10ns) (15ns) 关键路径 = max(5, 10, 15) = 15ns 最高工作频率 = 1 / 15ns ≈ 67MHz 频率提升：2 倍！

流水线深度 vs 性能：浅流水线 (3-5 级): - 优点：延迟小，资源少 - 缺点：频率提升有限 中等流水线 (5-10 级): - 优点：频率提升明显，资源适中 - 缺点：延迟增加 深流水线 (10+ 级): - 优点：频率最高，吞吐量最大 - 缺点：延迟大，资源多，复杂度高

正常运行 (无气泡): 时刻 1: 像素 1 → [处理 1] 时刻 2: 像素 2 → [处理 1], 像素 1 → [处理 2] 时刻 3: 像素 3 → [处理 1], 像素 2 → [处理 2], 像素 1 → [处理 3] 时刻 4: 像素 4 → [处理 1], 像素 3 → [处理 2], 像素 2 → [处理 3], 像素 1 → [输出] 有气泡 (例如：处理 2 需要等待): 时刻 1: 像素 1 → [处理 1] 时刻 2: 像素 2 → [处理 1], 像素 1 → [处理 2(等待)] 时刻 3: 像素 3 → [处理 1], 像素 1 → [处理 2(等待)], 气泡 时刻 4: 像素 4 → [处理 1], 像素 1 → [处理 2(完成)], 像素 2 → [处理 3] 气泡导致吞吐量下降！

处理像素 (x,y) 需要访问： ┌─────────────────┐ │ (x-1,y-1) (x,y-1) (x+1,y-1) │ │ (x-1,y) (x,y) (x+1,y) │ │ (x-1,y+1) (x,y+1) (x+1,y+1) │ └─────────────────┘ 但图像数据是逐行输入的：时刻 1: 输入第 1 行 时刻 2: 输入第 2 行 时刻 3: 输入第 3 行 ... 如何获取 (x-1,y-1) 和 (x,y-1) 等前面行的像素？ → 使用行缓存！

输入流：第 1 行：P11 P12 P13 P14 P15 ... 第 2 行：P21 P22 P23 P24 P25 ... 第 3 行：P31 P32 P33 P34 P35 ... 行缓存结构： ┌─────────────────────────────┐ │ 行缓存 1: P11 P12 P13 P14 P15 ... │ (BRAM) │ 行缓存 2: P21 P22 P23 P24 P25 ... │ (BRAM) │ 当前行：P31 P32 P33 P34 P35 ... │ (实时输入) └─────────────────────────────┘ 处理 P33 时，可以访问： - 上上行：P13(从行缓存 1 读取) - 上一行：P23(从行缓存 2 读取) - 当前行：P33(实时输入)

module line_buffer ( input clk, input rst_n, input [7:0] pixel_in, input pixel_valid, output [7:0] pixel_out_top, // 上一行像素 output [7:0] pixel_out_current, // 当前行像素 output [7:0] pixel_out_bottom // 下一行像素 ); parameter WIDTH = 1920; // 两个行缓存 (BRAM) reg [7:0] line_buffer1 [0:WIDTH-1]; reg [7:0] line_buffer2 [0:WIDTH-1]; reg [10:0] col_counter; reg [7:0] current_pixel; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin col_counter <= 11'b0; end else if (pixel_valid) begin // 写入行缓存 line_buffer2[col_counter] <= line_buffer1[col_counter]; line_buffer1[col_counter] <= pixel_in; current_pixel <= pixel_in; // 列计数器 if (col_counter == WIDTH - 1) begin col_counter <= 11'b0; end else begin col_counter <= col_counter + 1; end end end // 读取 3×3 窗口 assign pixel_out_top = line_buffer2[col_counter]; assign pixel_out_current = line_buffer1[col_counter]; assign pixel_out_bottom = current_pixel; endmodule

1920×1080 图像，8bit 像素：单行缓存： - 大小：1920 × 8bit = 15,360bit ≈ 1.9KB - BRAM 块数：1920 × 8 / 36,864 ≈ 0.4 块 两行缓存： - 大小：2 × 1920 × 8bit = 30,720bit ≈ 3.8KB - BRAM 块数：2 × 1920 × 8 / 36,864 ≈ 0.8 块 对于 Xilinx Zynq(有 140 个 BRAM 块): - 占用比例：0.8 / 140 ≈ 0.6% - 非常经济！

带宽 = 像素宽度 × 像素数 × 帧率 例子 1: 8bit 灰度图 - 像素宽度：8bit - 像素数：1920 × 1080 = 2,073,600 - 帧率：30fps - 带宽：8 × 2,073,600 × 30 = 497.66Mbps ≈ 0.5Gbps 例子 2: 24bit 彩色图 - 像素宽度：24bit - 像素数：1920 × 1080 = 2,073,600 - 帧率：30fps - 带宽：24 × 2,073,600 × 30 = 1.49Gbps ≈ 1.5Gbps 例子 3: 4K 24bit 彩色图 - 像素宽度：24bit - 像素数：3840 × 2160 = 8,294,400 - 帧率：60fps - 带宽：24 × 8,294,400 × 60 = 11.9Gbps ≈ 12Gbps

原始数据： - 1920×1080 24bit 彩色图 - 带宽：1.49Gbps 使用 JPEG 压缩 (压缩比 10:1): - 压缩后带宽：1.49 / 10 = 0.149Gbps - 节省：90% 但代价： - 需要压缩/解压缩硬件 - 增加延迟 - 有损压缩可能影响处理精度

不使用数据重用：处理像素 (x,y) 时： - 读取 (x-1,y-1), (x,y-1), (x+1,y-1) - 读取 (x-1,y), (x,y), (x+1,y) - 读取 (x-1,y+1), (x,y+1), (x+1,y+1) - 总共 9 次读取 使用数据重用 (滑动窗口): 处理像素 (x,y) 时： - 从缓存读取已有的 8 个像素 - 只读取 1 个新像素 (x+1,y+1) - 总共 1 次读取 - 节省：8/9 ≈ 89%

原始方式： - 每个时钟周期传输 1 个 8bit 像素 - 总线宽度：8bit - 吞吐量：1 像素/时钟周期 打包方式 (4 个像素打包): - 每个时钟周期传输 4 个 8bit 像素 - 总线宽度：32bit - 吞吐量：4 像素/时钟周期 - 带宽利用率提升：4 倍

应用 1: 卷积操作 处理像素 (x,y) 时使用的 3×3 窗口： ┌─────────────┐ │ P(x-1,y-1) P(x,y-1) P(x+1,y-1) │ │ P(x-1,y) P(x,y) P(x+1,y) │ │ P(x-1,y+1) P(x,y+1) P(x+1,y+1) │ └─────────────┘ 处理像素 (x+1,y) 时使用的 3×3 窗口： ┌─────────────┐ │ P(x,y-1) P(x+1,y-1) P(x+2,y-1) │ │ P(x,y) P(x+1,y) P(x+2,y) │ │ P(x,y+1) P(x+1,y+1) P(x+2,y+1) │ └─────────────┘ 重用的像素：P(x,y-1), P(x+1,y-1), P(x,y), P(x+1,y), P(x,y+1), P(x+1,y+1) 重用率：6/9 = 67%

module sliding_window ( input clk, input rst_n, input [7:0] pixel_in, output [7:0] window [0:8] // 3×3 窗口 ); reg [7:0] col0 [0:2]; // 第 1 列 reg [7:0] col1 [0:2]; // 第 2 列 reg [7:0] col2 [0:2]; // 第 3 列 always @(posedge clk or negedge rst_n) begin if (!rst_n) begin // 初始化 end else begin // 左移窗口 col0[0] <= col0[1]; col0[1] <= col0[2]; col0[2] <= col1[0]; col1[0] <= col1[1]; col1[1] <= col1[2]; col1[2] <= col2[0]; col2[0] <= col2[1]; col2[1] <= col2[2]; col2[2] <= pixel_in; end end // 输出 3×3 窗口 assign window[0] = col0[0]; assign window[1] = col0[1]; assign window[2] = col0[2]; assign window[3] = col1[0]; assign window[4] = col1[1]; assign window[5] = col1[2]; assign window[6] = col2[0]; assign window[7] = col2[1]; assign window[8] = col2[2]; endmodule

应用：视频处理中的帧间预测 第 N 帧： ┌─────────────┐ │ 背景 目标 背景 │ │ 背景 目标 背景 │ │ 背景 背景 背景 │ └─────────────┘ 第 N+1 帧 (目标移动): ┌─────────────┐ │ 背景 背景 目标 │ │ 背景 背景 目标 │ │ 背景 背景 背景 │ └─────────────┘ 重用：背景区域的数据可以从第 N 帧缓存中读取 节省：大量的内存访问

Xilinx BRAM 特性： - 容量：36Kb 或 18Kb - 访问延迟：1 个时钟周期 - 带宽：可配置 (8bit-72bit) - 双端口：可同时读写 BRAM vs 分布式 RAM: ┌──────────────┬──────────┬──────────┐ │ 特性 │ BRAM │ 分布式 RAM │ ├──────────────┼──────────┼──────────┤ │ 容量 │ 36Kb │ 64bit │ │ 访问延迟 │ 1 周期 │ 0 周期 │ │ 功耗 │ 低 │ 高 │ │ 用途 │ 大容量 │ 小容量 │ └──────────────┴──────────┴──────────┘

优点： - 简单易用 - 资源利用率高 缺点： - 每个时钟周期只能进行一次操作 (读或写)

优点： - 可以同时进行读写操作 - 支持两个独立的地址 缺点： - 资源利用率较低 - 配置复杂 应用场景： - 行缓存 (一端读，一端写) - 帧缓存 (一端读，一端写)

module dual_port_bram ( input clk, input [10:0] addr_a, input [10:0] addr_b, input [7:0] din_a, output [7:0] dout_a, input we_a, output [7:0] dout_b ); reg [7:0] mem [0:2047]; // 端口 A: 读写 always @(posedge clk) begin if (we_a) begin mem[addr_a] <= din_a; end end assign dout_a = mem[addr_a]; // 端口 B: 只读 assign dout_b = mem[addr_b]; endmodule

┌─────────────────────────────────────────────────────────┐ │ FPGA 系统架构 │ ├─────────────────────────────────────────────────────────┤ │ │ │ ┌──────────┐ ┌──────────────────────────────────┐ │ │ │ 相机接口 │───→│ 图像处理流水线 │ │ │ │(MIPI CSI)│ │ ┌────────────────────────────┐ │ │ │ └──────────┘ │ │ 1. 输入缓存 (Line Buffer) │ │ │ │ │ │ 2. 高斯滤波 (3×3) │ │ │ │ │ │ 3. Sobel 边缘检测 │ │ │ │ │ │ 4. 非极大值抑制 │ │ │ │ │ │ 5. 双阈值处理 │ │ │ │ │ │ 6. 输出缓存 │ │ │ │ │ └────────────────────────────┘ │ │ │ └──────────────────────────────────┘ │ │ ↓ │ │ ┌──────────────────────┐ │ │ │ 输出接口 (HDMI/USB) │ │ │ └──────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────┘

module image_processing_top ( input clk, input rst_n, // 相机接口 input [7:0] camera_data, input camera_valid, input camera_hsync, input camera_vsync, // 输出接口 output [7:0] output_data, output output_valid, output output_hsync, output output_vsync ); // 内部信号 wire [7:0] line_buffer_out; wire [7:0] gaussian_out; wire [7:0] sobel_out; wire [7:0] nms_out; wire [7:0] threshold_out; wire valid_line_buffer; wire valid_gaussian; wire valid_sobel; wire valid_nms; wire valid_threshold; // 第 1 级：行缓存 line_buffer_module line_buf_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(camera_data), .valid_in(camera_valid), .pixel_out(line_buffer_out), .valid_out(valid_line_buffer), .hsync_in(camera_hsync), .vsync_in(camera_vsync), .hsync_out(), .vsync_out() ); // 第 2 级：高斯滤波 gaussian_filter gaussian_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(line_buffer_out), .valid_in(valid_line_buffer), .pixel_out(gaussian_out), .valid_out(valid_gaussian) ); // 第 3 级：Sobel 边缘检测 sobel_detector sobel_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(gaussian_out), .valid_in(valid_gaussian), .pixel_out(sobel_out), .valid_out(valid_sobel) ); // 第 4 级：非极大值抑制 nms_processor nms_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(sobel_out), .valid_in(valid_sobel), .pixel_out(nms_out), .valid_out(valid_nms) ); // 第 5 级：双阈值处理 threshold_processor threshold_inst ( .clk(clk), .rst_n(rst_n), .pixel_in(nms_out), .valid_in(valid_nms), .pixel_out(threshold_out), .valid_out(valid_threshold) ); // 输出 assign output_data = threshold_out; assign output_valid = valid_threshold; endmodule

module gaussian_filter ( input clk, input rst_n, input [7:0] pixel_in, input valid_in, output [7:0] pixel_out, output valid_out ); // 3×3 窗口缓存 reg [7:0] window [0:8]; reg [2:0] valid_shift; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin valid_shift <= 3'b0; end else begin // 移位寄存器用于延迟有效信号 valid_shift <= {valid_shift[1:0], valid_in}; // 更新窗口 (简化版，实际需要行缓存) window[0] <= window[1]; window[1] <= window[2]; window[2] <= window[3]; window[3] <= window[4]; window[4] <= window[5]; window[5] <= window[6]; window[6] <= window[7]; window[7] <= window[8]; window[8] <= pixel_in; end end // 高斯滤波计算 wire [15:0] sum; assign sum = window[0] + 2*window[1] + window[2] + 2*window[3] + 4*window[4] + 2*window[5] + window[6] + 2*window[7] + window[8]; assign pixel_out = sum >> 4; // 除以 16 assign valid_out = valid_shift[2]; endmodule

module sobel_detector ( input clk, input rst_n, input [7:0] pixel_in, input valid_in, output [7:0] pixel_out, output valid_out ); // 3×3 窗口 reg [7:0] window [0:8]; reg valid_shift; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin valid_shift <= 1'b0; end else begin valid_shift <= valid_in; // 更新窗口 window[0] <= window[1]; window[1] <= window[2]; window[2] <= window[3]; window[3] <= window[4]; window[4] <= window[5]; window[5] <= window[6]; window[6] <= window[7]; window[7] <= window[8]; window[8] <= pixel_in; end end // Sobel 计算 wire signed [15:0] gx, gy; assign gx = -window[0] + window[2] - 2*window[3] + 2*window[5] - window[6] + window[8]; assign gy = -window[0] - 2*window[1] - window[2] + window[6] + 2*window[7] + window[8]; // 梯度幅值 (使用近似) wire [15:0] magnitude; assign magnitude = (gx[15] ? -gx : gx) + (gy[15] ? -gy : gy); // 限制到 8bit assign pixel_out = (magnitude > 255) ? 8'hFF : magnitude[7:0]; assign valid_out = valid_shift; endmodule

module threshold_processor ( input clk, input rst_n, input [7:0] pixel_in, input valid_in, output [7:0] pixel_out, output valid_out ); parameter THRESHOLD = 8'd100; reg valid_out_reg; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin valid_out_reg <= 1'b0; end else begin valid_out_reg <= valid_in; end end // 阈值处理 assign pixel_out = (pixel_in > THRESHOLD) ? 8'hFF : 8'h00; assign valid_out = valid_out_reg; endmodule

每帧像素数：1920 × 1080 = 2,073,600 每秒像素数：2,073,600 × 30 = 62,208,000 工作频率：100MHz = 100,000,000 时钟周期/秒 每个时钟周期处理的像素数：62,208,000 / 100,000,000 = 0.622 像素/周期 实际吞吐量 z × 1 像素/: 100MH 周期 = 100M 像素/秒 处理时间：2,073,600 / 100M = 20.736ms 帧率：1000ms / 20.736ms ≈ 48fps 结论：系统可以处理 30fps 的 1080p 视频，还有余量

各级延迟： - 行缓存：2 个像素周期 ≈ 20ns - 高斯滤波：3 个时钟周期 ≈ 30ns - Sobel 检测：2 个时钟周期 ≈ 20ns - 非极大值抑制：2 个时钟周期 ≈ 20ns - 阈值处理：1 个时钟周期 ≈ 10ns 总延迟：20 + 30 + 20 + 20 + 10 = 100ns 对于 30fps 视频： - 帧周期：1000ms / 30 = 33.33ms - 延迟占比：100ns / 33.33ms = 0.0003% - 完全可以接受！

LUT(查找表): - 行缓存：~500 LUT - 高斯滤波：~300 LUT - Sobel 检测：~400 LUT - 其他模块：~300 LUT - 总计：~1500 LUT (占比 < 5%) BRAM(块 RAM): - 行缓存 (2 行×1920×8bit): ~1 BRAM 块 - 其他缓存：~1 BRAM 块 - 总计：~2 BRAM 块 (占比 < 2%) DSP(数字信号处理): - 乘法器：~10 个 - 总计：~10 DSP (占比 < 5%) 功耗估计： - 动态功耗：~2W - 静态功耗：~0.5W - 总功耗：~2.5W

module image_processing_tb; reg clk; reg rst_n; reg [7:0] camera_data; reg camera_valid; wire [7:0] output_data; wire output_valid; // 实例化顶层模块 image_processing_top dut ( .clk(clk), .rst_n(rst_n), .camera_data(camera_data), .camera_valid(camera_valid), .output_data(output_data), .output_valid(output_valid) ); // 时钟生成 always #5 clk = ~clk; // 测试激励 initial begin clk = 0; rst_n = 0; camera_valid = 0; camera_data = 0; #100 rst_n = 1; // 输入测试图像 repeat(2073600) begin @(posedge clk); camera_valid = 1; camera_data = $random % 256; end #1000 $finish; end // 监测输出 always @(posedge clk) begin if (output_valid) begin $display("Output: %d", output_data); end end endmodule

1. 综合 (Synthesis) - 检查语法错误 - 优化逻辑 - 生成网表 2. 实现 (Implementation) - 布局布线 - 时序分析 - 生成比特流 3. 上板验证 - 加载比特流到 FPGA - 输入测试图像 - 观察输出结果 - 性能测试

建立时间 (Setup Time): 数据在时钟上升沿前必须稳定的时间 保持时间 (Hold Time): 数据在时钟上升沿后必须保持稳定的时间 时序违反： - 建立时间违反：数据变化太晚，寄存器无法正确捕获 - 保持时间违反：数据变化太早，寄存器捕获错误的值 时序裕度 (Timing Margin): - 正裕度：满足时序要求 - 负裕度：违反时序要求，需要优化

Xilinx 工具链：1. Vivado Design Suite - 综合后时序分析 - 实现后时序分析 - 时序报告生成 2. Timing Analyzer - 关键路径分析 - 时序违反检测 - 优化建议 3. Power Analyzer - 功耗估计 - 热点分析

症状：综合后工作频率低于预期 原因分析：1. 组合逻辑太长 - 多级运算 (加法→乘法→除法) - 深层次的多路选择器 2. 布局布线不优 - 关键路径跨越芯片 - 长连线延迟大 3. 资源竞争 - 多个模块竞争同一资源 - 导致布线拥塞

1. 增加流水线级数 - 缩短关键路径 - 提高工作频率 - 代价：增加延迟 2. 使用更快的原语 - 使用 DSP 块替代 LUT 实现乘法 - 使用 BRAM 替代分布式 RAM - 性能提升：2-3 倍 3. 优化布局 - 相关模块靠近放置 - 减少长连线 - 使用约束文件 (XDC) 4. 算法优化 - 使用近似算法 - 减少计算复杂度 - 例如：|Gx|+|Gy| 替代 sqrt(Gx²+Gy²)

// ❌ 不优化 (关键路径长) always @(posedge clk) begin result <= ((a + b) * c - d) / e + f; end // ✅ 优化 (使用流水线) always @(posedge clk) begin temp1 <= a + b; temp2 <= temp1 * c; temp3 <= temp2 - d; temp4 <= temp3 / e; result <= temp4 + f; end // ✅ 优化 (使用 DSP 块) always @(posedge clk) begin // Xilinx 会自动推断 DSP 块 product <= a * b; // 使用 DSP 乘法器 end

Xilinx 6-input LUT: - 可以实现任意 6 输入逻辑函数 - 也可以配置为两个 5 输入 LUT - 或者配置为 32bit 分布式 RAM LUT 使用率 = 已用 LUT 数 / 总 LUT 数 优化目标：降低 LUT 使用率，为其他功能留出空间

1. 逻辑综合优化 - 使用高级综合 (HLS) - 让综合工具自动优化 - 设置优化目标 (面积/速度) 2. 资源共享 - 多个操作共享同一硬件 - 例如：多个乘法器共享一个 DSP 块 3. 常数折叠 - 编译时计算常数表达式 - 减少运行时计算 4. 死代码消除 - 移除未使用的逻辑 - 减少 LUT 消耗

# 设置综合优化目标 set_property STEPS.SYNTH_DESIGN.ARGS.DIRECTIVE AlternateRoutability [get_runs synth_1] # 启用资源共享 set_property STEPS.SYNTH_DESIGN.ARGS.RESOURCE_SHARING on [get_runs synth_1] # 启用逻辑优化 set_property STEPS.SYNTH_DESIGN.ARGS.KEEP_EQUIVALENT_REGISTERS on [get_runs synth_1]

BRAM 块数 = 总数据量 / 单块容量 例子： - 行缓存：2 行 × 1920 像素 × 8bit = 30,720bit - 单块 BRAM: 36,864bit - 所需块数：30,720 / 36,864 ≈ 0.83 块 ≈ 1 块 优化： - 使用 18Kb BRAM 块 (如果可用) - 多个小缓存合并到一个 BRAM 块 - 使用 BRAM 的两个端口

// ❌ 浪费 BRAM(每个缓存独占一个块) reg [7:0] buffer1 [0:1023]; // 8Kb reg [7:0] buffer2 [0:1023]; // 8Kb // 总计：16Kb,浪费了 20Kb // ✅ 优化 (共享 BRAM 块) reg [7:0] buffer [0:4095]; // 32Kb // 使用地址的高 2 位区分 buffer1 和 buffer2 wire [7:0] data1 = buffer[{2'b00, addr}]; wire [7:0] data2 = buffer[{2'b01, addr}];

Xilinx DSP48E2 特性： - 25×18bit 乘法器 - 48bit 累加器 - 可级联 - 功耗低，速度快 应用场景：1. 乘法运算 - 图像处理中的卷积 - 滤波系数乘法 2. 累加运算 - FIR 滤波 - 求和操作 3. 乘加运算 (MAC) - 最常见的操作 - 一个时钟周期完成

// Xilinx 会自动推断 DSP 块 always @(posedge clk) begin // 乘法 product <= a * b; // 乘加 (MAC) accumulator <= accumulator + (a * b); // 乘加累加 result <= result + (a * b) + (c * d); end

1. Vivado Simulator - 集成在 Vivado 中 - 支持 Verilog/VHDL - 波形查看 2. ModelSim - 第三方仿真工具 - 功能强大 - 支持混合语言 3. VCS - 高性能仿真 - 用于大型设计

1. 添加调试信号 - 在关键位置添加$display - 输出中间结果 - 便于问题定位 2. 使用断点 - 在特定条件下暂停仿真 - 检查信号状态 3. 波形分析 - 查看信号随时间的变化 - 对比预期和实际结果 4. 覆盖率分析 - 确保所有代码路径被测试 - 发现未测试的分支

module debug_testbench; reg clk, rst_n; reg [7:0] data_in; wire [7:0] data_out; // 实例化被测模块 image_processor dut ( .clk(clk), .rst_n(rst_n), .data_in(data_in), .data_out(data_out) ); // 时钟生成 always #5 clk = ~clk; // 测试激励 initial begin clk = 0; rst_n = 0; data_in = 0; #100 rst_n = 1; // 测试用例 1 @(posedge clk); data_in = 8'h55; @(posedge clk); // 检查输出 if (data_out != 8'hAA) begin $display("ERROR: Expected 0xAA, got 0x%02X", data_out); end else begin $display("PASS: Output is correct"); end #1000 $finish; end // 波形记录 initial begin $dumpfile("debug.vcd"); $dumpvars(0, debug_testbench); end endmodule

1. Vivado Logic Analyzer - 实时信号采集 - 触发条件设置 - 波形显示 2. Integrated Logic Analyzer(ILA) - 片上逻辑分析仪 - 无需额外硬件 - 实时监测 3. Virtual Input/Output(VIO) - 动态改变输入信号 - 实时观察输出 - 便于交互式调试

# 1. 在设计中添加 ILA 核 create_ip -name ila -vendor xilinx -library ip -version 6.2 -module_name ila_0 # 2. 配置 ILA set_property -dict [list CONFIG.C_NUM_OF_PROBES {4} \ CONFIG.C_PROBE0_WIDTH {8} \ CONFIG.C_PROBE1_WIDTH {1} \ CONFIG.C_PROBE2_WIDTH {8} \ CONFIG.C_PROBE3_WIDTH {1}] [get_ips ila_0] # 3. 在设计中连接 ILA set_property mark_debug true [get_nets {pixel_in[*]}] set_property mark_debug true [get_nets {pixel_out[*]}] # 4. 生成比特流并上板 # 5. 在 Vivado 中打开 Hardware Manager # 6. 设置触发条件并采集数据

总功耗 = 静态功耗 + 动态功耗 静态功耗： - 漏电流导致 - 与工作频率无关 - 随温度增加而增加 动态功耗： - 信号翻转导致 - 与工作频率成正比 - 与活跃信号数量成正比 功耗公式：P_dynamic = C × V² × f × α 其中： - C: 负载电容 - V: 工作电压 - f: 工作频率 - α: 活跃因子 (0-1)

1. 降低工作频率 - 如果性能允许 - 功耗降低平方关系 2. 降低工作电压 - 需要硬件支持 - 功耗降低平方关系 3. 减少活跃信号 - 使用时钟门控 (Clock Gating) - 关闭未使用的模块 4. 优化算法 - 减少计算复杂度 - 减少数据搬运 5. 使用低功耗工艺 - 选择低功耗 FPGA - 例如：Xilinx Zynq UltraScale+

# 1. 生成功耗报告 report_power -file power_report.txt # 2. 查看功耗分布 # 在 Vivado 中打开 Power Report # 分析各模块的功耗贡献 # 3. 应用功耗优化 set_property CLOCK_DEDICATED_ROUTE BACKBONE [get_nets clk] set_property LOC BUFGCTRL_X0Y0 [get_cells clk_buf]

1. 流水线架构 ├─ 单数据流：简单易实现 ├─ 多数据流：提高吞吐量 └─ 级联流水线：支持复杂处理 2. 算法优化 ├─ 定点运算：降低资源消耗 ├─ 数据重用：减少内存访问 └─ 近似算法：简化计算 3. 系统设计 ├─ 模块化设计：便于维护和扩展 ├─ 性能分析：确保满足要求 └─ 验证测试：保证功能正确 4. 性能优化 ├─ 时序优化：提高工作频率 ├─ 资源优化：降低成本 └─ 功耗优化：降低能耗

A: 取决于多个因素： - FPGA 芯片大小 (LUT、BRAM 数量) - 工作频率 - 处理算法复杂度 - 帧率要求 典型配置： - Xilinx Zynq: 4K@30fps - Xilinx Zynq UltraScale+: 8K@30fps - 高端 FPGA: 可支持更高分辨率

A: 考虑以下因素：1. 性能需求 - 分辨率和帧率 - 处理算法复杂度 2. 资源需求 - LUT 数量 - BRAM 容量 - DSP 块数量 3. 功耗限制 - 散热能力 - 电源供应 4. 成本预算 - 芯片成本 - 开发工具成本

A: 多层次调试方法：1. 仿真阶段 - 使用 Testbench 验证算法 - 检查数据流正确性 2. 综合后仿真 - 验证时序正确性 - 检查资源使用 3. 硬件调试 - 使用 ILA 采集实时信号 - 使用 VIO 动态改变输入 - 观察输出结果

FPGA 实时图像处理：从流水线架构到系统优化

FPGA 实时图像处理：从流水线架构到系统优化

一、FPGA 实时图像处理基础概念

1.1 为什么选择 FPGA 做图像处理

1.1.1 实时性要求的本质

1.1.2 功耗效率对比

1.1.3 延迟可预测性

1.2 FPGA vs CPU/GPU 的本质区别

1.2.1 处理模式对比

1.2.2 数据流处理方式

1.3 流水线处理的核心优势

1.3.1 吞吐量提升

1.3.2 工作频率提升

1.4 并行处理与实时性保证

1.4.1 并行处理的多个维度

1.4.2 实时性保证机制

1.5 FPGA 图像处理的典型应用场景

1.5.1 工业检测与分选

1.5.2 医疗影像处理

1.5.3 自动驾驶视觉系统

1.5.4 安防监控与追踪

二、图像处理算法基础

2.1 图像滤波算法

2.1.1 滤波的基本原理

2.1.2 常用滤波算法

2.2 边缘检测算法

2.2.1 Sobel 算子

2.2.2 Canny 边缘检测

2.3 形态学操作

2.3.1 腐蚀 (Erosion)

2.3.2 膨胀 (Dilation)

2.3.3 开运算与闭运算

2.4 图像处理算法的 FPGA 实现特点

2.4.1 定点运算

2.4.2 流水线设计

2.4.3 数据重用

三、FPGA 流水线架构设计

3.1 单数据流流水线 (Single Data Path Pipeline)

3.1.1 基本概念

3.1.2 Verilog 实现示例

3.2 多数据流流水线 (Multi-Data Path Pipeline)

3.2.1 基本概念

3.2.2 实现方法

3.2.3 性能对比

3.3 级联流水线 (Cascaded Pipeline)

3.3.1 基本概念

3.3.2 实现示例

3.3.3 数据流同步

3.4 流水线设计的关键考虑

3.4.1 关键路径分析

3.4.2 流水线深度选择

3.4.3 流水线气泡 (Pipeline Bubble)

四、图像数据流处理与存储优化

4.1 行缓存 (Line Buffer) 设计

4.1.1 为什么需要行缓存

4.1.2 行缓存的实现

4.1.3 行缓存的资源消耗

4.2 带宽优化

4.2.1 带宽计算

4.2.2 带宽优化技术

4.3 数据重用策略

4.3.1 空间局部性 (Spatial Locality)

4.3.2 时间局部性 (Temporal Locality)

4.4 BRAM 优化

4.4.1 BRAM 的基本特性

4.4.2 BRAM 的配置

五、实时图像处理系统设计实例

5.1 系统架构设计

5.1.1 完整的图像处理系统框架

5.1.2 顶层模块设计

5.2 关键模块实现

5.2.1 高斯滤波模块

5.2.2 Sobel 边缘检测模块

5.2.3 阈值处理模块

5.3 系统性能分析

5.3.1 吞吐量计算

5.3.2 延迟分析

5.3.3 资源消耗

5.4 系统集成与验证

5.4.1 仿真验证