XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)
一、XILINX几种IP核区别
传统系列芯片
| IP核名称 | 核心特点 | 用户接口 | 开发难度 | 适用场景 |
| 7 Series Integrated Block for PCI Express | 最基础的PCIe硬核,提供物理层和数据链路层 | AXI4-Stream TLP包 | 最高,需处理TLP包 | 需深度定制PCIe通信,对资源敏感的项目 |
| AXI Memory Mapped To PCI Express | 桥接IP,将PCIe接口转换为AXI接口 | AXI4内存映射 | 中等,类似操作总线 | FPGA需主动读写主机内存,平衡效率与灵活性 |
| DMA/Bridge Subsystem for PCI Express (XDMA) | 集成DMA引擎,提供"一站式"解决方案 | AXI4 (另有AXI-Lite等辅助接口) | 最低,官方提供驱动 | 高速数据批量传输(如采集卡),追求开发效率 |
注意:
1.硬件平台限制:不同系列的Xilinx FPGA(如7系列、UltraScale、Versal)支持的PCIe代数和通道数可能不同。在选择IP核前,请务必确认您的FPGA型号是否支持所需的PCIe配置(如Gen3 x8)。
2.资源与性能权衡:XDMA虽然易用,但会消耗更多的FPGA逻辑资源。在资源紧张的设计中需要仔细评估。
3.驱动与系统集成:使用XDMA或AXI Memory Mapped IP时,通常需要配合驱动。XDMA虽有官方驱动,但据反馈在某些版本下可能存在一些小问题,需要留意。
二、PCIE介绍及使用
(一)版本说明
工具:vivado2016.4
芯片:xc7vx690tffg1157-2
PCIE:Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3(前面介绍的7 Series Integrated Block for PCI Express比较老)
(二)数据信号区别
(1)哪几组
分为四组如下:
s_axis_rq_tdata
s_axis_rq_tuser
m_axis_rc_tdata
m_axis_rc_tuser
m_axis_cq_tdata
m_axis_cq_tuser
s_axis_cc_tdata
s_axis_cc_tuser
(2)都是啥
1)举例说明
举个例子,PC传输一组波形数据到fpga,并且告诉FPGA将波形数据从DAC发出去,同时将发出去的信号用ADC采集回来通过FPGA传输给PC。这个系统包含三个主要功能:
1. PC → FPGA:传输DAC波形数据
2. FPGA:控制DAC输出并同步ADC采集
3. FPGA → PC:上传ADC采集数据

阶段一:PC传输波形数据和命令到FPGA
使用接口: m_axis_cq_tdata, m_axis_cq_tuser
过程:
1.命令下发:
// PC写FPGA的命令寄存器 // m_axis_cq_tdata: MWr TLP,地址=命令寄存器,数据=START_DAC // m_axis_cq_tuser: bar_id=0, addr=0x1000(命令寄存器地址)2.波形数据传输:
// PC连续写FPGA的波形缓冲区 // m_axis_cq_tdata: MWr TLP,地址=波形缓冲区,数据=波形样本 // m_axis_cq_tuser: bar_id=1, addr=波形缓冲区偏移地址3.FPGA侧处理:
always @(posedge clk) begin if (m_axis_cq_tvalid && m_axis_cq_tready) begin // 解析TLP头,判断是命令还是数据 case (m_axis_cq_tuser[84:80]) // bar_id 5'b00000: cmd_reg <= m_axis_cq_tdata[31:0]; // 命令寄存器 5'b00001: wave_buffer[write_addr] <= m_axis_cq_tdata; // 波形数据 endcase end end阶段二:FPGA执行DAC输出和ADC采集
FPGA内部逻辑:
// DAC控制状态机 always @(posedge clk) begin case (state) IDLE: if (cmd_reg == START_DAC) state <= PLAY_WAVE; PLAY_WAVE: dac_data <= wave_buffer[read_addr]; read_addr <= read_addr + 1; if (read_addr == WAVE_LENGTH) state <= IDLE; endcase end // 同步ADC采集 always @(posedge clk) begin if (dac_valid) begin // 与DAC输出同步 adc_buffer[write_adc_addr] <= adc_data; write_adc_addr <= write_adc_addr + 1; end end阶段三:FPGA上传采集数据到PC
使用接口: s_axis_rq_tdata, s_axis_rq_tuser
过程:
1.DMA传输准备:
// PC预先通过配置寄存器告诉FPGA主机内存的物理地址 // m_axis_cq_tdata: MWr TLP,地址=DMA目标地址寄存器2.采集数据上传:
// FPGA发起存储器写请求 // s_axis_rq_tdata: MWr TLP,地址=主机内存,数据=ADC采集数据 // s_axis_rq_tuser: sop=1/0, eop=1/0, bar_id=03.FPGA侧DMA引擎:
// DMA状态机 always @(posedge clk) begin if (dma_start && s_axis_rq_tready) begin s_axis_rq_tvalid <= 1'b1; s_axis_rq_tdata <= {tlp_header, adc_buffer[dma_addr]}; s_axis_rq_tuser <= {sop, eop, 3'b000}; // bar_id=0 if (eop) dma_addr <= 0; else dma_addr <= dma_addr + 1; end end2)8个数据链路的使用分析



3)哪些是必要的
必须使用的4个核心链路:
m_axis_cq_tdata/user:下行通道,接收命令和波形数据
s_axis_rq_tdata/user:上行通道,上传采集数据
推荐使用的2个辅助链路:
s_axis_cc_tdata/user:状态查询响应
可以暂不使用的2个链路:
m_axis_rc_tdata/user:留作未来功能扩展
4)tuser到底是个啥
以下行通道为例:
当FPGA接收来自PC的命令和波形数据时,m_axis_cq_tuser提供了解析TLP包所需的全部元数据。
i. 主要字段详解:
// m_axis_cq_tuser 结构 (位宽因IP核版本而异,通常~180bit) { // 1. 包边界控制 (最重要的字段) sop, // [0] Start of Packet - TLP开始 eop, // [1] End of Packet - TLP结束 // 2. 地址空间识别 bar_id, // [5:0] 来自哪个BAR空间 bar_hit, // [6:0] BAR命中指示 // 3. 字节级控制 first_be, // [3:0] 第一个DW的字节使能 last_be, // [3:0] 最后一个DW的字节使能 // 4. 传输控制 discontinue, // 提前终止指示 tkeep, // 字节有效掩码 (独立信号,有时在tuser中) // 5. 事务信息 is_sop0_ptr, // SOP0指针 is_sop1_ptr, // SOP1指针 // 6. 错误和状态 err, // 错误指示 parity // 奇偶校验 }ii. 实际应用示例:
// 解析主机写请求的Verilog代码片段 always @(posedge clk) begin if (m_axis_cq_tvalid && m_axis_cq_tready) begin // 检查TLP包开始 if (m_axis_cq_tuser[0]) begin // sop=1 // 解析BAR空间,决定数据路由 case (m_axis_cq_tuser[5:3]) // bar_id部分位 3'b000: begin // BAR0 - 命令寄存器 cmd_address <= m_axis_cq_tdata[63:32]; current_transfer <= COMMAND; end 3'b001: begin // BAR1 - 波形数据缓冲区 wave_address <= m_axis_cq_tdata[63:32]; current_transfer <= WAVE_DATA; end endcase // 保存字节使能信息 first_byte_enable <= m_axis_cq_tuser[15:12]; end // 处理数据 if (current_transfer == WAVE_DATA) begin // 根据byte_enable处理数据 process_wave_data(m_axis_cq_tdata, m_axis_cq_tuser[15:12], // first_be m_axis_cq_tuser[19:16]);// last_be end // 检查TLP包结束 if (m_axis_cq_tuser[1]) begin // eop=1 current_transfer <= IDLE; generate_completion_if_needed(); end end endiii. 关键字段应用场景

iiii. 重要注意事项
1.位宽变化:不同Xilinx IP核版本和PCIe配置下,tuser信号的位宽和字段位置可能不同。
2.文档参考:必须查阅对应的PG195或PG213文档获取确切格式。
3.字节序:注意PCIe的小端字节序,数据在总线上可能需要重新排列。
4.对齐要求:first_be/last_be用于处理非双字对齐的访问。
三、IP如何配置
(一)配置参数
由于是仿真,基本都是默认。





(二)配置完成

四、仿真
Open IP Example design......Run Simulation......Run Behavioral Simulation,注意:180多us才出结果。

五、参考
7 Series FPGAs Integrated Block for PCI Express IP核基本模式配置详解
Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3 Product Guide (PG023)