纯 Verilog FPGA 双线性插值视频缩放设计与实现

本项目旨在易灵思 Ti60F225 FPGA 上构建'端到端'4K@60 视频缩放链路。目标是将任意分辨率（640×480 至 3840×2160）的 HDMI 输入实时缩放到指定分辨率并输出。整个链路不依赖外部 DDR，仅使用片内 6.3 Mbit 嵌入式 SRAM 完成行缓存，实现小于 2 ms 的固定延迟，满足医疗内窥镜、工业检测等低延迟场景需求。

系统架构方面，整体划分为五个时钟域、三大子系统。视频接收子系统负责高速 LVDS 硬核接收 TMDS 差分信号，内置 DVI 解码器完成 8b/10b 解码与字对齐，输出符合 AXI4-Stream 协议的 24 bit RGB 像素流。缩放子系统是核心，仅缓存两行原始像素，采用滑动窗口机制，基于定点 12 bit 小数运算完成双线性插值。视频发送子系统将缩放后像素打包成 TMDS 流，支持多种 VESA 时序。控制面则通过 32 位 RISC-V 软核提供分辨率设置、缩放系数及伽马曲线索引等功能。

在缩放核心算法设计上，我们在面积与画质之间权衡，选用了双线性插值。资源消耗上每通道仅需 2 个乘法器和 4 个加法器，画质比最近邻提升 6–8 dB，且行缓存仅 2 行，延迟远低于三次卷积。缩放系数采用 12 bit 定点小数（8.4 格式），保证最大 8 倍放大时误差小于 1/16 像素。滑动窗口缓存使用双口 SRAM 实现乒乓结构，读口带宽高达 21.6 Gbit/s，满足 4K@60 需求。插值流水线分为三级，总延迟约 10 ns，可忽略不计。边界处理支持镜像回卷或黑色填充模式。

跨时钟域与 AXI 总线处理上，接收域到缩放域、缩放域到发送域均使用异步 FIFO，深度分别为 512 和 256。AXI4-Stream 信号全部经过两级同步器，避免亚稳态。缩放核心仅依赖 tvalid/tready 反压，简化逻辑。为补偿面板非线性响应，输出前插入 256×8 bit LUT 进行伽马校正，软件离线生成曲线并通过 RISC-V 下载。

实测结果显示，Ti60F225 资源占用 ALM 约 8%，SRAM 约 37%。输入 4K@60 缩放至 1080p@60 时，链路固定延迟 1.8 ms；输入 720p@60 放大至 4K@60 时，延迟 1.9 ms。动态功耗 1.1 W。该方案可扩展性良好，算法可无缝替换为双三次或 Lanczos3，也可利用 FPGA 分区实现多路级联，甚至在 RISC-V 端运行轻量级超分模型融合结果。本方案以最低片内缓存加定点双线性插值为核心，在低成本 FPGA 上实现了 4K@60 实时缩放，为对延迟敏感的场景提供了高性价比参考。