跳到主要内容 基于 FPGA 的千兆以太网设计与实现 | 极客日志
编程语言
基于 FPGA 的千兆以太网设计与实现 基于 FPGA 平台的千兆以太网设计方案,涵盖物理层(PHY)、MAC 控制器及 Wishbone 总线接口实现。详细阐述了 GMII/RGMII 接口标准、时钟同步机制、自协商流程及状态机设计。同时提供了完整的测试平台搭建方法、仿真验证策略及硬件协同调试技巧,适用于嵌入式系统、工业控制等领域的高速网络通信开发。
Pythonist 发布于 2026/4/5 更新于 2026/4/13 1 浏览1. FPGA 千兆以太网设计概述
随着高速通信需求的不断增长,基于 FPGA 实现千兆以太网接口已成为嵌入式系统、工业控制和视频传输等领域的重要技术手段。本章从系统架构出发,阐述 FPGA 在千兆以太网设计中的核心优势——强大的并行处理能力、灵活的可重构性以及极低的数据处理延迟。重点介绍关键功能模块的划分与协作机制,包括 PHY 层接口、MAC 控制器、Wishbone 总线桥接及数据包处理引擎,并结合 IEEE 802.3 标准解析千兆以太网帧结构与物理层规范。同时,明确顶层模块(eth_top)的数据流向与控制逻辑,建立清晰的工程框架,为后续各模块的独立建模与系统集成提供理论支撑与设计指引。
2. 以太网物理层(PHY)模块实现(eth_phy.v)
在现代高速数字通信系统中,FPGA 作为可编程逻辑平台被广泛用于构建定制化的千兆以太网接口。其中,物理层(Physical Layer, PHY)是整个网络链路的基础组成部分,负责将 MAC 层的数据帧转换为能够在双绞线或光纤上传输的模拟信号,并完成接收端的信号恢复与解码。本章深入剖析基于 Verilog HDL 实现的 模块设计原理与工程实践,重点围绕 GMII/RGMII 接口标准、数据通路结构、时钟同步机制以及自协商流程展开讨论。通过分析发送路径的数据对齐策略、接收路径的采样技术及跨时钟域处理方法,帮助读者掌握从理论到硬件实现的关键跃迁过程。
eth_phy.v
2.1 物理层基本原理与接口协议 以太网物理层位于 OSI 七层模型的最底层,承担着比特流的传输与接收任务。对于千兆以太网(1000BASE-T),其工作频率高达 125 MHz,在铜缆上传输速率可达 1 Gbps。该速率下,数据完整性与时序精度成为系统稳定运行的核心挑战。因此,理解 PHY 的工作模式、接口电气特性及其与 FPGA 之间的交互方式,是构建可靠通信链路的前提条件。
2.1.1 千兆以太网 PHY 工作模式与时序要求 千兆以太网 PHY 芯片通常支持多种操作模式,包括全双工/半双工、自动协商(Auto-Negotiation)、节能模式(Energy Efficient Ethernet, EEE)等。其中,自动协商 是最关键的功能之一,它允许连接两端设备动态协商最佳传输参数,如速度(10/100/1000 Mbps)、双工模式和流控能力。这一过程遵循 IEEE 802.3 Clause 28 规范,通过快速链路脉冲(Fast Link Pulse, FLP)burst 进行信息交换。
在实际应用中,FPGA 需配置 PHY 芯片进入所需的固定模式或启用自协商功能。例如,使用外部 EEPROM 写入配置寄存器值,或通过 MDIO/MDC 接口动态读写 PHY 内部寄存器。以下是一个典型的 PHY 初始化序列:
// 示例:PHY 初始化状态机片段
always @(posedge clk_25m or posedge rst_n) begin
if (!rst_n) state <= IDLE;
else case (state)
IDLE: if (init_start) state <= WRITE_CTRL_REG;
WRITE_CTRL_REG: if (mdio_done) state <= READ_STATUS_REG;
READ_STATUS_REG: if (link_up && speed_1000m && full_duplex) state <= LINK_READY;
else state <= POLLING_STATUS;
default: state <= IDLE;
endcase
end
代码逻辑逐行解读:
第 1–2 行:定义同步复位下的状态机时钟触发逻辑。
第 3–4 行:异步复位清零状态,确保上电后处于空闲态。
第 5–12 行:采用有限状态机控制 PHY 初始化流程。从 IDLE 开始,启动对控制寄存器的写入操作。
mdio_done 表示 MDIO 写操作完成;一旦成功,则跳转至读取状态寄存器。
若检测到链接建立、速率为 1000M 且为全双工模式,则认为链路已就绪。
否则进入轮询状态持续监测链路状态。
寄存器地址 名称 功能描述 0x00 控制寄存器 设置复位、环回、速度选择、自协商使能 0x01 状态寄存器 反映链路状态、自协商完成标志 0x04 自协商广告寄存器 告知对端自身支持的能力集 0x09 扩展状态寄存器 指示是否为 1000M 连接
表:常用 PHY 寄存器功能说明(以 Marvell 88E1111 为例)
此外,千兆以太网对时序有严格要求。TX 路径要求 FPGA 在 TX_CLK 上升沿准备数据并保持至少 1 ns 建立时间;RX 路径则依赖于 RX_CLK 对输入数据进行采样,偏差超过±0.5 ns 可能导致误码率升高。为此,设计中常引入延迟锁定环(DLL)或可编程延时单元(IDELAY)来校准输入信号相位。
// 使用 Xilinx IDELAY 进行输入数据对齐
IBUFDS #( .DIFF_TERM("FALSE"), .IOSTANDARD("LVDS_25") ) u_ibuf_d (
.I(gt_rxp), .IB(gt_rxn), .O(rx_p_unbuf)
);
BUFG u_bufg_rxclk (.I(rx_clk_in), .O(rx_clk));
IDELAYCTRL u_idelayctrl_refclk (.REFCLK(clk_200m), .RST(rst_n), .RDY(idel_ready));
genvar i;
generate
for (i = 0; i < 8; i = i + 1) begin : gen_idelay
IDELAYE2_FINEDELAY #(
.CINVCTRL_SEL("FALSE"), .DELAY_SRC("IDATAIN"), .HIGH_PERFORMANCE_MODE("TRUE"),
.REFCLK_FREQUENCY(200.0), .DELAY_VALUE(750) // 750ps 延迟补偿
) idelay_inst (
.DATAOUT(data_rxdly[i]), .DATAIN(rxd_i[i]), .C(clk_200m), .CE(1'b0),
.INC(1'b0), .LD(1'b0), .LDPIPEEN(1'b0), .DELAYCTRLIN(idel_ctrl),
.CNTVALUEIN(6'd0), .CNTVALUEOUT()
);
end
endgenerate
参数说明与逻辑分析:
IBUFDS 用于差分输入缓冲,适配 LVDS 电平;
IDELAYCTRL 提供参考时钟给所有 IDELAY 原语,保证延迟精度;
循环生成 8 个 IDELAY 实例,分别对 RGMII 的 8 位数据进行延迟调节;
.DELAY_VALUE(750) 设置初始延迟为 750 皮秒,可根据 PCB 走线长度微调;
此结构适用于 Xilinx 7 系列及以上器件,可有效解决源同步接口中的偏斜问题。
stateDiagram-v2
[*] --> PowerOnReset
PowerOnReset --> WaitStableClock : 上电完成
WaitStableClock --> ConfigurePHY : 时钟稳定
ConfigurePHY --> WaitForLink : 写入控制寄存器
WaitForLink --> CheckNegotiationResult : 链路激活
CheckNegotiationResult --> LinkUp : 协商成功
CheckNegotiationResult --> RetryNegotiation : 失败重试
RetryNegotiation --> WaitForLink
LinkUp --> DataTransmission
图:PHY 链路建立状态机流程图(Mermaid 格式)
综上所述,千兆以太网 PHY 的工作模式不仅涉及复杂的寄存器配置,还需精确把控各信号间的时序关系。只有在正确完成初始化与链路协商后,才能进入正常的数据收发阶段。
2.1.2 GMII/RGMII 接口标准解析与电气特性 千兆以太网在 FPGA 与 PHY 之间主要采用两种接口标准:GMII (Gigabit Media Independent Interface)和RGMII (Reduced Gigabit Media Independent Interface)。两者在引脚数量、时钟频率和布线复杂度上有显著差异。
GMII 接口特点:
数据宽度:发送与接收各 8 位(8-bit)
时钟频率:125 MHz(对应 1 Gbps)
引脚总数:约 24 根(不含管理接口)
时钟与数据边沿对齐,无需相位偏移
适合短距离板内连接
RGMII 接口特点(v2.0):
数据宽度:发送与接收各 4 位(DDR 传输)
时钟频率:125 MHz,但数据在上升沿和下降沿均有效
实现等效 8 位带宽,减少引脚数至 12 根左右
TX Clock 输出相位滞后 90°,RX Clock 输入需匹配采样点
支持 RGMII-ID(Internal Delay)模式,由 PHY 内部添加延迟
// RGMII 发送侧时钟相移实现(Xilinx ODDR)
ODDR #(
.DDR_CLK_EDGE("SAME_EDGE_PIPELINED"), .INIT(1'b0), .SRTYPE("SYNC")
) oddr_tx_ctl (
.Q(txd_rgmii[4]), .C(tx_clk_90deg), // 相移 90 度的时钟
.CE(1'b1), .D1(tx_en_sync), .D2(1'b0), .R(1'b0), .S(1'b0)
);
逻辑分析:
利用 ODDR 原语将 tx_en 信号在 tx_clk_90deg 的上下沿输出,形成与数据对齐的 ctl 信号;
tx_clk_90deg 由 MMCM 生成,相对于主时钟延迟 90°,满足 RGMII 发送要求;
所有 TD[3:0] 和 TCTL 共 5 位均按此方式驱动,确保符合 tCO 与 skew 规范。
参数 GMII RGMII v2.0 数据速率 125 Mbps per bit 125 MHz DDR → 250 Mbps 总带宽 1 Gbps 1 Gbps 引脚数(单向) 9(data+ctrl) 5(4 data + 1 ctrl) 时钟相位要求 对齐 TX: 90°滞后,RX: 0°对齐 PCB 布线难度 中等 高(需严格控制长度匹配)
值得注意的是,RGMII 对 PCB 布线提出更高要求。所有数据线与对应的时钟线之间必须满足±50 ps 的飞行时间匹配,即长度差异不超过 1.5 cm(FR4 介质中信号传播速度约为 18 cm/ns)。否则会导致采样错误,特别是在高温或高负载条件下更为明显。
为验证接口行为,可在 FPGA 中嵌入 ILA 核实时捕获 RGMII 信号:
# Vivado TCL 脚本添加 ILA 调试核心
create_ip -name ila -vendor xilinx.com -library ip -version 6.2 -module_name debug_ila
set_property -dict {
CONFIG.C_NUM_OF_PROBES {4}
CONFIG.CProbe0_WIDTH {4}
CONFIG.CProbe1_WIDTH {1}
CONFIG.CProbe2_WIDTH {4}
CONFIG.CProbe3_WIDTH {1}
} [get_ips debug_ila]
connect_debug_port debug_ila/clk [get_nets tx_clk_90deg]
connect_debug_signal debug_ila/probe0 [list txd_rgmii]
connect_debug_signal debug_ila/probe1 [list tx_en_rgmii]
connect_debug_signal debug_ila/probe2 [list rxd_rgmii]
connect_debug_signal debug_ila/probe3 [list rx_dv_rgmii]
执行说明:
创建一个包含 4 个探针的 ILA 核;
分别监控 TX/RX 数据与控制信号;
时钟选择为 tx_clk_90deg 以正确捕捉发送波形;
综合后可通过 Vivado Logic Analyzer 查看实时通信状态。
结合上述分析可知,选择 GMII 还是 RGMII 应根据项目需求权衡。若追求简化设计且引脚资源充足,推荐使用 GMII;而在引脚受限或成本敏感型产品中,RGMII 更具优势,但必须配合严格的 PCB 布局规则与信号完整性仿真。
2.2 eth_phy.v 模块的设计与实现 eth_phy.v 作为 FPGA 侧物理层的核心模块,承担了与外部 PHY 芯片的数据交互、时钟同步、链路管理等多重职责。其设计质量直接影响整体系统的吞吐性能与稳定性。本节详细阐述该模块的内部架构与关键子模块实现,涵盖发送路径的数据打包与对齐、接收路径的时钟恢复机制,以及自协商状态机的建模方法。
2.2.1 发送路径的数据对齐与串并转换逻辑 在千兆以太网中,FPGA 通常以字节为单位向 PHY 提供数据。但在 RGMII 接口下,由于采用 4 位 DDR 传输,必须将 8 位 GMII 格式的数据拆分为两个半周期分别发送。此过程称为'数据对齐'或'nybble packing'。
设计中常采用双沿触发寄存器(如 Xilinx ODDR)实现 DDR 输出。以下为典型的数据路径结构:
reg [7:0] txd_reg;
wire [3:0] txd_upper = txd_reg[7:4];
wire [3:0] txd_lower = txd_reg[3:0];
ODDR #(
.DDR_CLK_EDGE("OPPOSITE_EDGE")
) oddr_txd [3:0] (
.Q(txd_pad[3:0]), .C(tx_clk_src), .CE(1'b1),
.D1(txd_upper), .D2(txd_lower), .R(1'b0), .S(1'b0)
);
参数说明:
.DDR_CLK_EDGE("OPPOSITE_EDGE"):表示第一个数据在上升沿输出,第二个在下降沿;
tx_clk_src 为原始 TX_CLK(125 MHz);
txd_upper 和 txd_lower 分别代表高四位和低四位;
综合后映射为专用 DDR 输出缓冲器,保证时序一致性。
为了进一步提升可靠性,可在发送前加入弹性缓冲(Elastic Buffer)以吸收时钟漂移带来的抖动。该缓冲一般采用小型 FIFO 结构,深度为 4~8 个条目:
// 发送侧弹性 FIFO
fifo_sync #(
.WIDTH(9), // 8 位数据 + 1 位 valid
.DEPTH(8)
) u_tx_fifo (
.clk(tx_clk), .srst(fifo_reset),
.din({tx_valid, txd_gmii}), .wr_en(tx_wr_en),
.rd_en(tx_rd_en), .dout(fifo_out),
.full(), .empty(fifo_empty), .count(fifo_cnt)
);
逻辑分析:
输入宽度为 9 位,包含数据与有效标志;
写使能由上游模块(如 MAC 引擎)驱动;
读使能由本地时钟域产生,实现跨时钟域解耦;
FIFO 非空时即可启动发送流程。
graph LR
A[MAC Engine] --> B{TX FIFO}
B --> C[TX Data Aligner]
C --> D[ODDR Drivers]
D --> E[RGMII Pads]
style B fill:#e0f7fa,stroke:#006064
style D fill:#fff3e0,stroke:#bf360c
图:发送路径数据流示意图(Mermaid 流程图)
该结构不仅能缓解不同时钟域间的速率差异,还能应对突发流量导致的瞬时拥塞,从而降低丢包概率。
2.2.2 接收路径的时钟恢复与数据采样机制 接收方向面临更大挑战,因为 RX_CLK 由 PHY 提供,可能与 FPGA 系统时钟存在频偏甚至短暂中断。因此,必须设计稳健的时钟恢复机制。
常见做法是使用源同步采样 + 缓冲队列 的方式。首先利用 RX_CLK 对输入数据打两拍去亚稳态,再送入异步 FIFO 暂存,最后由系统时钟读出处理:
always @(posedge rx_clk or negedge rst_n) begin
if (!rst_n) begin
rxd_meta <= 0; rxd_sync <= 0;
end else begin
rxd_meta <= rxd_in; rxd_sync <= rxd_meta;
end
end
assign fifo_din = {rx_dv_sync, rxd_sync};
async_fifo #(
.WIDTH(9), .LOG_DEPTH(4)
) u_rx_fifo (
.wr_clk(rx_clk), .rd_clk(sys_clk), .din(fifo_din),
.wr_en(fifo_wr), .rd_en(fifo_rd), .dout(fifo_dout),
.empty(fifo_empty), .full(fifo_full)
);
扩展说明:
两级同步寄存器有效抑制跨时钟域亚稳态;
rx_dv_sync 表示数据有效信号,与数据同步传递;
异步 FIFO 深度设为 16,足以应对短时钟失锁情况;
输出端由 sys_clk 驱动,便于后续 MAC 层解析。
此外,针对 RGMII 接收,部分 PHY 芯片支持片内延迟(RGMII-ID),此时无需外部调整,直接用 0°相位时钟采样即可。若不支持,则需使用 IDELAY 手动补偿。
2.2.3 自协商过程的状态机设计与链路建立流程 完整的 PHY 初始化需要通过状态机协调多个步骤。以下是一个精简但完整的自协商控制器实现:
typedef enum logic [2:0] {
RESET_PHY, WAIT_FOR_RESET_DONE, SET_AN_ENABLE,
WAIT_FOR_AN_COMPLETE, CHECK_LINK_STATUS, LINK_ESTABLISHED, LINK_FAILED
} an_state_t;
an_state_t current_state;
always @(posedge sys_clk or negedge rst_n) begin
if (!rst_n) current_state <= RESET_PHY;
else case (current_state)
RESET_PHY: if (start_init) current_state <= WAIT_FOR_RESET_DONE;
WAIT_FOR_RESET_DONE: if (phy_ready) current_state <= SET_AN_ENABLE;
SET_AN_ENABLE: if (mdio_write_done) current_state <= WAIT_FOR_AN_COMPLETE;
WAIT_FOR_AN_COMPLETE: if (an_complete) current_state <= CHECK_LINK_STATUS;
CHECK_LINK_STATUS: if (link_ok) current_state <= LINK_ESTABLISHED;
else current_state <= LINK_FAILED;
default: current_state <= RESET_PHY;
endcase
end
逻辑逐行分析:
定义枚举类型提高代码可读性;
每个状态等待特定事件(如 MDIO 完成、链接建立)后跳转;
phy_ready 由复位释放信号经去抖后获得;
最终判断链路是否成功建立,供上层模块查询。
该状态机能有效避免因 PHY 未准备好而导致的配置失败问题,是保障系统鲁棒性的关键组件。
2.3 实践中的关键问题与解决方案 尽管理论设计完备,但在真实硬件环境中仍会遇到诸多非理想因素。本节聚焦三大典型难题:跨时钟域同步、PCB 信号完整性优化及在线调试手段,提供经过验证的工程解决方案。
2.3.1 时钟域交叉处理:TX_CLK 与 RX_CLK 异步同步策略 FPGA 内部通常使用单一系统时钟,而 PHY 提供的 TX_CLK(125 MHz)和 RX_CLK(125 MHz)虽名义相同,实则相互独立且可能存在 ppm 级偏差。若直接跨域传递控制信号,极易引发亚稳态。
推荐使用双触发器同步器 + 异步 FIFO 组合方案:
// 跨时钟域握手信号同步
reg sync_level1, sync_level2;
always @(posedge dest_clk) begin
sync_level1 <= async_source;
sync_level2 <= sync_level1;
end
wire synced_sig = sync_level2;
对于批量数据传输,强烈建议使用异步 FIFO 桥接,而非简单的握手协议。Xilinx 推荐使用 xpm_cdc_async_rst 或集成 IP 核来实现高可靠性数据迁移。
2.3.2 信号完整性优化:PCB 布线与 FPGA 引脚分配建议 高速信号完整性直接决定通信质量。以下是关键设计准则:
项目 推荐做法 差分对阻抗 100Ω ±10%,使用 SI9000 计算叠层参数 长度匹配 RGMII 组内 skew < 50 ps(≈1.5 cm) 邻近层参考平面 确保完整地平面,避免分割 FPGA Bank 电压 匹配电平标准(如 1.8V 或 2.5V) 端接电阻 片外并联终端(如有必要)
同时,在 FPGA 引脚分配时应优先选择支持高性能 I/O 标准的 Bank,并避免将高速信号与开关噪声大的电源引脚相邻布局。
2.3.3 调试技巧:使用 ILA 核监测 PHY 输入输出波形 集成逻辑分析仪(ILA)是定位物理层问题的强大工具。建议在关键节点插入探测点:
rxd_raw, rx_dv_raw
txd_reg, tx_en
rx_clk, tx_clk
MDIO 数据与时钟
配置 ILA 后,可在 Vivado 中设置触发条件(如捕获特定 MAC 地址帧),进而分析协议合规性与时序偏差。
pie title 调试问题分布统计
"时序违例" : 35
"链路无法建立" : 25
"数据错乱" : 20
"初始化失败" : 15
"其他" : 5
图:PHY 相关调试问题占比(Mermaid 饼图)
通过合理运用上述方法,可大幅提升开发效率,缩短从原型到量产的时间周期。
3. 以太网控制器设计与 MAC 协议处理(eth_top.v, eth_registers.v) 在现代 FPGA 嵌入式系统中,实现一个稳定高效的千兆以太网通信接口离不开对 MAC(Media Access Control)子层的深度掌控。作为连接物理层 PHY 与上层协议栈的核心枢纽,MAC 控制器不仅负责帧的封装与解析,还需管理数据流调度、错误检测、中断响应以及寄存器配置等关键功能。本章聚焦于 eth_top.v 和 eth_registers.v 两个核心模块的设计与实现,深入剖析其状态机架构、寄存器映射机制及双缓冲数据引擎的工作原理,并结合 FIFO 管理与中断触发逻辑,构建一个可配置、高可靠性的以太网控制单元。
3.1 MAC 子层理论基础与帧结构解析 理解 MAC 控制器的前提是掌握 IEEE 802.3 标准所定义的数据链路层规范,尤其是以太网帧格式及其传输行为。该标准为所有基于以太网通信的设备提供了统一的数据组织方式,确保跨厂商互操作性。
3.1.1 以太网帧格式详解:前导码、目的地址、类型/长度字段 一个完整的千兆以太网帧由多个字段组成,每个字段承担特定的功能角色。从线路上接收到的数据流开始,首先出现的是用于同步接收端时钟的前导码(Preamble) ,紧随其后的是帧起始定界符(SFD),然后才是有效载荷部分。
字段名称 长度(字节) 描述 前导码(Preamble) 7 交替的'1'和'0'序列(1010_1010…),用于接收方时钟同步 帧起始定界符(SFD) 1 固定值 1010_1011,标志帧正式开始 目的 MAC 地址 6 接收节点的硬件地址 源 MAC 地址 6 发送节点的硬件地址 类型/长度(Type/Length) 2 若 ≤ 1500 表示长度;≥ 1536 表示上层协议类型(如 0x0800 为 IPv4) 数据域(Payload) 46–1500 上层协议数据,不足 46 字节需填充 填充域(Pad) 可变 确保最小帧长为 64 字节 帧校验序列(FCS/CRC32) 4 使用多项式 $ x^{32} + x^{26} + x^{23} + x^{22} + x^{16} + x^{12} + x^{11} + x^{10} + x^8 + x^7 + x^5 + x^4 + x^2 + x + 1 $ 计算
注意 :整个帧最小长度为 64 字节(含头部和 FCS),否则视为碎片(runt frame)。最大 MTU(Maximum Transmission Unit)通常为 1500 字节,支持 Jumbo Frame 的系统可扩展至 9000+ 字节。
为了更清晰地展示帧结构的构成顺序,以下使用 Mermaid 流程图表示帧的组装过程:
graph TD
A[生成 Preamble] --> B[添加 SFD]
B --> C[插入 Dst MAC]
C --> D[插入 Src MAC]
D --> E[写入 Type/Length]
E --> F[填充 Payload]
F --> G{Payload < 46?}
G -- Yes --> H[追加 Pad]
G -- No --> I[跳过 Pad]
H --> J[计算 CRC32]
I --> J
J --> K[输出完整帧]
该流程体现了发送侧如何逐步构造符合标准的以太网帧。其中,CRC 计算必须包含从目标地址到数据域的所有内容,不包括前导码和 SFD。这一规则在 FPGA 实现中尤为重要——若 CRC 模块输入范围错误,将导致帧被对端丢弃。
此外,在接收路径中,FPGA 必须能够准确识别 SFD 后的第一个字节是否为目标 MAC 地址,并启动地址匹配判断。例如,以下 Verilog 代码片段展示了如何在状态机中解析帧头:
always @(posedge rx_clk or negedge rst_n) begin
if (!rst_n) state <= IDLE;
else case (state)
IDLE: if (rx_en && rx_data == 8'hAB) // SFD = 0x55 followed by 0xAB
state <= READ_DST_MAC;
READ_DST_MAC: if (++byte_cnt >= 6) begin
byte_cnt <= 0; state <= READ_SRC_MAC;
end
READ_SRC_MAC: if (++byte_cnt >= 6) begin
byte_cnt <= 0; state <= READ_TYPE_LEN;
end
READ_TYPE_LEN: type_len <= {rx_data, next_rx_data};
state <= READ_PAYLOAD;
endcase
end
第 1–2 行:同步复位设计,保证状态机初始化安全。
第 4 行:检测到有效接收使能且当前数据为 SFD(0xAB),进入目的 MAC 读取阶段。
第 9–14 行:通过计数器 byte_cnt 逐字节读取 6 字节 MAC 地址,达到后切换状态。
第 17–20 行:保存类型/长度字段,准备后续解析是 IP 包还是 ARP 请求。
rx_clk:来自 PHY 的 RX_CLK,频率 125MHz(对应 RGMII 模式)
rx_en:有效数据指示信号
rx_data:并行 8 位接收数据总线
type_len:寄存器变量,用于存储协议类型或帧长信息
此段逻辑虽简化,但已涵盖基本帧解析流程,实际工程中还需加入 CRC 剥离、VLAN 标签识别等功能。
3.1.2 MAC 协议中的 CSMA/CD 机制与冲突检测规避 尽管千兆以太网普遍运行于全双工交换模式下,不再依赖传统 CSMA/CD(Carrier Sense Multiple Access with Collision Detection)进行介质竞争,但在半双工模式或早期共享式网络中仍具意义。CSMA/CD 机制主要包括三个步骤:
载波侦听(Carrier Sense) :发送前监听线路是否空闲;
多路访问(Multiple Access) :允许多个节点共享同一信道;
冲突检测(Collision Detection) :发送过程中监测回波信号是否异常。
当检测到冲突时,设备立即停止发送,并发出Jam Signal (持续 32~48 比特的随机模式),随后执行退避算法(Binary Exponential Backoff),等待随机时间后重试。
然而,在 FPGA 设计中,由于千兆以太网几乎全部采用点对点连接并通过交换机隔离冲突域,因此 CSMA/CD 通常被禁用。相反,现代设计更关注流量控制机制(Flow Control) ,即通过 PAUSE 帧实现反压调节。例如,当接收 FIFO 接近满载时,可向对端发送如下 PAUSE 帧:
Preamble (7 B) + SFD (1 B) + Dst: 01 -80 -C2-00 -00 -01 (Link Control) + Src: [Local MAC] + Type: 0 x8808 + OpCode: 0 x0001 + Pause Time: 0 xFFFF (无限暂停) + CRC (4 B)
该帧的目的地址为组播保留地址,表示这是链路层控制帧。OpCode 为 0x0001 表明是 PAUSE 指令,而 Pause Time 字段指定暂停发送的时间槽数量。
这种机制避免了因缓冲区溢出而导致的丢包问题,尤其适用于视频流或大数据量连续传输场景。在 eth_top.v 中可通过独立的状态机来生成此类特殊帧:
// 示例:PAUSE 帧生成逻辑
task send_pause_frame;
begin
tx_fifo_write(8'h55); // Preamble repeated via loop
repeat(7) @(posedge clk);
tx_fifo_write(8'hAB); // SFD
tx_fifo_write(8'h01); tx_fifo_write(8'h80); // Dst MAC
tx_fifo_write(8'hC2); tx_fifo_write(8'h00);
tx_fifo_write(8'h00); tx_fifo_write(8'h01); // ... 继续写入其余字段
end
endtask
上述任务可由主控状态机调用,结合当前 FIFO 水位判断是否触发流量控制动作。
3.2 核心控制器模块设计 MAC 控制器的实现依赖于高度协调的模块化设计,其中 eth_top.v 作为顶层控制中枢,统筹发送、接收、寄存器访问三大功能模块;而 eth_registers.v 则提供外部 CPU 访问接口,实现配置与状态监控能力。
3.2.1 eth_top.v 的整体状态机架构与数据通路规划 eth_top.v 采用多状态机协同工作模式,分别管理发送、接收、空闲及错误处理状态。其顶层结构如下图所示:
stateDiagram-v2
[*] --> IDLE
IDLE --> TX_START : tx_req & ready
TX_START --> TX_HEADER : gen_preamble
TX_HEADER --> TX_DATA : send_dst_src
TX_DATA --> TX_CRC : data_done
TX_CRC --> IDLE : crc_sent
IDLE --> RX_DETECT : rx_en && sfd_detected
RX_DETECT --> RX_ADDR_MATCH : check_mac
RX_ADDR_MATCH --> RX_PAYLOAD : match_ok
RX_PAYLOAD --> RX_FCS_CHECK : payload_done
RX_FCS_CHECK --> RX_COMPLETE : crc_valid
RX_COMPLETE --> IDLE : irq_raise
IDLE --> ERROR_STATE : crc_error || frame_too_short
ERROR_STATE --> IDLE : clear_error
该状态图清晰表达了发送与接收路径的关键跃迁条件。例如,仅当本地请求发送且 PHY 就绪时才启动 TX 流程;而在接收端,则需先确认 SFD 存在并完成 MAC 地址过滤。
在数据通路方面,eth_top.v 内部集成了双向 FIFO 接口,连接 Wishbone 总线与 MAC 引擎。发送路径典型流程如下:
CPU 通过 Wishbone 写入待发数据至 Tx FIFO;
当 FIFO 达到阈值或软件触发,tx_req 置高;
MAC 状态机拉取数据,添加帧头并计算 CRC;
数据经 GMII/RGMII 接口送往 PHY 芯片;
完成后产生中断通知 CPU。
PHY 送来数据帧,经串并转换后进入 Rx FIFO;
MAC 引擎解析帧头,执行地址匹配;
匹配成功则继续接收至 FCS 校验;
校验无误后向上层报告帧完成;
CPU 可通过 Wishbone 读取 Rx FIFO 内容。
为保障跨时钟域安全,Tx/Rx FIFO 均采用异步双口 RAM 结构,读写指针通过格雷码编码跨时钟同步。以下是典型的 FIFO 实例化代码:
async_fifo #(
.DATA_WIDTH(8), .ADDR_WIDTH(9) // 深度 512
) u_tx_fifo (
.wr_clk(wb_clk), .rd_clk(tx_clk), .wr_en(wb_we_i),
.rd_en(rx_dequeue), .din(wb_dat_i), .dout(tx_byte_out),
.full(fifo_full), .empty(fifo_empty)
);
.wr_clk 和 .rd_clk 分别接 Wishbone 系统时钟(如 100MHz)与发送时钟(125MHz),实现跨频操作。
写使能由总线写信号 wb_we_i 驱动,数据来自 wb_dat_i。
读使能 rx_dequeue 由 MAC 状态机控制,每次取出一字节送至 GMII 接口。
full 和 empty 标志用于总线侧判断可用空间或是否有待处理帧。
该结构确保了即使在突发流量下也能平滑传输,防止阻塞。
3.2.2 寄存器映射设计:eth_registers.v 中控制/状态寄存器配置 eth_registers.v 模块实现了内存映射 I/O 机制,允许外部处理器通过固定地址访问内部寄存器。典型的寄存器布局如下表所示:
地址偏移 名称 R/W 功能描述 0x00 CONTROL R/W 启用 TX/RX、设置全双工、软复位 0x04 STATUS R 链路状态、FIFO 状态、中断标志 0x08 MAC_ADDR_LOW R/W MAC 地址低 32 位 0x0C MAC_ADDR_HIGH R/W MAC 地址高 16 位 0x10 TX_STATUS R 发送完成、碰撞次数 0x14 RX_STATUS R 接收完成、CRC 错误计数 0x18 INT_ENABLE R/W 中断使能掩码 0x1C INT_PENDING R/W 中断挂起标志(写 1 清零)
这些寄存器通过 Wishbone 总线暴露给 CPU,例如 MicroBlaze 或 ARM 软核。以下是 eth_registers.v 的部分实现代码:
always @(posedge wb_clk or negedge rst_n) begin
if (!rst_n) begin
control_reg <= 0; mac_low <= 32'hC0A80101; mac_high <= 16'h000A; int_enable <= 0;
end else begin
if (wb_we_i && chip_select) begin
case (wb_addr[4:2])
3'd0: control_reg <= wb_dat_i;
3'd1: mac_low <= wb_dat_i;
3'd2: mac_high <= wb_dat_i;
3'd3: int_enable <= wb_dat_i[7:0];
default: ;
endcase
end
end
end
// 输出寄存器值
assign wb_dat_o = (wb_addr[4:2] == 3'd0) ? control_reg :
(wb_addr[4:2] == 3'd1) ? mac_low :
(wb_addr[4:2] == 3'd2) ? {16'd0, mac_high} :
(wb_addr[4:2] == 3'd4) ? {24'd0, status_reg} : 32'd0;
第 1–9 行:复位时初始化默认 MAC 地址(示例为 00:0A:C0:A8:01:01)和控制位。
第 10–20 行:当写使能有效且片选命中时,根据地址选择更新对应寄存器。
第 24–29 行:读操作时根据地址返回相应寄存器内容,未实现地址返回 0。
wb_addr[4:2]:地址解码位,支持最多 8 个 32 位寄存器(共 32 字节)
chip_select:由 eth_wishbone.v 译码生成,表示当前访问本设备
int_pending 需支持'写 1 清零'语义,常用于中断处理
该设计使得主机可通过标准内存读写指令完成网络配置,极大提升了系统集成灵活性。
3.2.3 发送与接收引擎的双缓冲机制实现 为了提高吞吐效率并降低 CPU 干预频率,MAC 控制器采用双缓冲 FIFO + DMA 风格访问 机制。发送方向配备独立 Tx FIFO(如 512 字节),接收方向同样配置 Rx FIFO,两者均由 Wishbone 接口驱动。
允许后台填充下一帧的同时发送当前帧;
减少中断频率,提升批量处理能力;
支持零拷贝传输(zero-copy)优化。
CPU 向 Tx FIFO 写入完整帧数据(含目标地址、协议类型等);
写入完成后设置 CONTROL[TX_START] 位;
MAC 引擎自动从 FIFO 读取数据并组帧发送;
发送完毕后置位 INT_PENDING[TX_DONE];
CPU 响应中断,检查状态并准备下一帧。
数据帧到达后由 MAC 引擎存入 Rx FIFO;
完整帧接收完毕触发 RX_DONE 中断;
CPU 读取长度寄存器,按字节读出数据;
清空中断标志,释放 FIFO 空间。
为防止 FIFO 溢出,建议设置合理阈值并启用中断预触发机制。例如:
assign tx_irq = (tx_fifo_count > 480); // 当剩余空间<32 字节时提醒
assign rx_irq = (rx_fifo_count > 400); // 接收超过 400 字节即上报
这样可在高负载下提前通知 CPU 介入,避免数据丢失。
3.3 数据流管理与中断响应机制 高效的数据流管理是确保千兆以太网稳定运行的关键,尤其是在面对突发流量或长时间连续传输时。本节重点讨论 FIFO 队列设计原则、中断生成逻辑及实际寄存器操作案例。
3.3.1 FIFO 队列设计:发送与接收缓存的深度与阈值设置 FIFO 深度的选择直接影响系统性能与资源占用。对于千兆以太网(1Gbps = 125MB/s),理想情况下每微秒可传输约 125 字节。考虑最坏情况下的背靠背帧传输(最小帧 64 字节),每帧耗时约 0.512μs。
因此,推荐 FIFO 深度至少为512 字节 ,以容纳多个小帧或单个大帧(1500B)。深度过浅会导致频繁中断或溢出;过深则浪费 BRAM 资源。
参数 推荐值 说明 Tx FIFO 深度 512 足够容纳 1~2 个完整帧 Rx FIFO 深度 1024 应对突发流量缓冲 写时钟域 WB_CLK (100MHz) 来自系统总线 读时钟域 TX_CLK/RX_CLK (125MHz) 来自 PHY 恢复时钟 复位策略 异步复位同步释放 防止亚稳态
localparam THRESHOLD_LOW = 64; // 低水位:可请求填充
localparam THRESHOLD_HIGH = 448; // 高水位:触发接收中断
wire tx_almost_empty = (tx_fifo_count < THRESHOLD_LOW);
wire rx_almost_full = (rx_fifo_count > THRESHOLD_HIGH);
这些信号可用于 DMA 控制器联动或主动轮询优化。
3.3.2 中断请求生成逻辑:帧完成、错误异常等事件触发 中断机制是连接硬件与软件的关键桥梁。eth_top.v 中通过组合逻辑汇总各类事件,最终输出给 CPU 的 IRQ 信号:
reg [7:0] int_status;
always @(*) begin
int_status = 8'd0;
if (tx_done) int_status[0] = 1;
if (rx_done) int_status[1] = 1;
if (crc_error) int_status[2] = 1;
if (frame_too_long) int_status[3] = 1;
if (rx_fifo_overrun) int_status[4] = 1;
end
assign irq = |(int_status & int_enable); // 任意使能中断激活即触发
int_status 记录所有事件状态;
int_enable 为寄存器可配置掩码;
最终 irq 为 OR 合并结果,符合多数中断控制器要求。
中断服务程序(ISR)应依次检查各标志位并做相应处理,完成后写 INT_PENDING 寄存器清零。
3.3.3 实践案例:通过寄存器读写实现 MAC 地址配置与使能控制 假设使用 MicroBlaze 处理器通过 Wishbone 访问 MAC 控制器,以下 C 代码演示如何配置 MAC 地址并启动接口:
#define ETH_BASE 0x40000000
#define REG_CTRL (ETH_BASE + 0x00)
#define REG_MAC_LO (ETH_BASE + 0x08)
#define REG_MAC_HI (ETH_BASE + 0x0C)
void eth_init () {
*(volatile uint32_t *)REG_MAC_LO = 0x1B0A0000 | 0x4E3D ;
*(volatile uint32_t *)REG_MAC_HI = 0x000A ;
uint32_t ctrl = *(volatile uint32_t *)REG_CTRL;
ctrl |= (1 << 0 ) | (1 << 1 );
ctrl |= (1 << 2 );
*(volatile uint32_t *)REG_CTRL = ctrl;
}
该代码成功将 MAC 地址写入寄存器,并开启收发功能。后续可通过轮询 STATUS 寄存器或等待中断来管理通信流程。
综上所述,MAC 控制器的设计不仅是逻辑功能的堆砌,更是时序、资源与接口协同的结果。通过精细的状态机设计、合理的 FIFO 规划与灵活的寄存器接口,FPGA 能够胜任复杂高速的以太网通信任务,为上层应用提供坚实支撑。
4. Wishbone 总线接口集成与系统互联(eth_wishbone.v) 在现代 FPGA 嵌入式系统设计中,模块化与可扩展性是构建高性能通信子系统的基石。以太网控制器作为核心外设,必须能够高效、稳定地与处理器核进行数据交换。为此,采用标准化的片上总线架构成为必然选择。Wishbone 总线因其简洁的协议定义、良好的可移植性和广泛的支持生态,被广泛应用于开源软核(如 MicroBlaze、VexRiscv)和自定义逻辑之间的互连场景。本章将深入探讨 eth_wishbone.v 模块的设计原理与实现细节,重点分析其如何作为以太网 MAC 控制器与 CPU 之间的桥梁,完成寄存器访问、数据搬运及中断响应等关键任务。
通过该模块的集成,不仅实现了控制平面的统一管理,还为后续系统级调试、性能监控和功能扩展提供了坚实基础。整个设计围绕低延迟、高可靠性以及跨时钟域安全交互展开,在满足 IEEE 802.3 千兆以太网标准的同时,兼顾了与主流嵌入式处理器的无缝对接能力。
4.1 Wishbone 总线协议理论基础 Wishbone 总线是由 OpenCores 组织提出的一种开放、免授权费的片上总线标准,专为 FPGA 和 ASIC 中的 IP 核互联而设计。其设计理念强调'简单即高效',通过精简信号集和清晰的状态机模型,使得开发者能够在短时间内完成复杂系统的搭建与验证。尤其在中小型 SoC(System-on-Chip)项目中,Wishbone 已成为事实上的通用互联方案之一。
4.1.1 Wishbone 架构特点:简洁性、可扩展性与跨平台兼容性 Wishbone 总线的核心优势在于其高度抽象化的接口定义。它不依赖于特定工艺或厂商,仅规定一组标准信号线即可实现主设备(Master)与从设备(Slave)之间的通信。这种跨平台特性使其非常适合用于多工具链协同开发环境,例如结合 Icarus Verilog 仿真、Yosys 综合与 NextPNR 布局布线的开源流程。
该总线支持多种拓扑结构,包括点对点、共享总线、交叉开关(Crossbar Switch)等,允许根据系统规模灵活配置。对于本设计中的千兆以太网控制器而言,采用典型的共享总线架构,其中 MicroBlaze 软核作为唯一主控,eth_wishbone.v 作为从设备接入。
以下是 Wishbone 基本信号列表及其功能说明:
信号名 方向 描述 wb_clk_i输入 主时钟,所有操作同步于此时钟上升沿 wb_rst_i输入 复位信号,低电平有效 wb_adr_i[N:0]输入 地址总线,指定访问的从设备内部地址 wb_dat_i[31:0]输入 数据输入总线,来自主设备的数据 wb_dat_o[31:0]输出 数据输出总线,送往主设备的数据 wb_we_i输入 写使能,高电平表示写操作 wb_cyc_i输入 周期有效,表示一次总线事务开始 wb_stb_i输入 选通使能,表示当前地址/数据有效 wb_ack_o输出 应答信号,表示从设备已完成操作 wb_sel_i[3:0]输入 字节使能,指示哪些字节参与传输
这些信号构成了最基础的'Classic'模式 Wishbone 接口。值得注意的是,Wishbone 并未强制要求固定的数据宽度——它可以支持 8、16、32 甚至 64 位数据总线,极大增强了其适应性。
微信扫一扫,关注极客日志 微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
相关免费在线工具 Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown 转 HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online
HTML 转 Markdown 将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML 转 Markdown在线工具,online
JSON 压缩 通过删除不必要的空白来缩小和压缩JSON。 在线工具,JSON 压缩在线工具,online
JSON美化和格式化 将JSON字符串修饰为友好的可读格式。 在线工具,JSON美化和格式化在线工具,online