FPGA自学笔记--VIVADO RAM IP核控制和使用

FPGA自学笔记--VIVADO RAM IP核控制和使用

      本文主要学习在VIVADO软件中如何生成所需要的RAM IP核,以及相关的配置定义,并搭建tb对生成的IP读写控制时序进行仿真和测试。

一、sram ip生成与配置

1.1 ram ip创建方法

  1. 新建工程:打开 Vivado,创建一个新的工程项目。
  2. 打开 IP Catalog:在 Vivado 主界面中,单击 IP Catalog
  3. 搜索 RAM:在右侧窗口的 Search 框中输入 ram,会出现相关 IP 条目。
  4. RAM IP 类型:在 Memories & Storage Elements 分类下,可以看到两种主要的 RAM 创建入口:
    • Distributed Memory Generator
    • Block Memory Generator
  5. 主要差别
    • Distributed Memory Generator:生成的 RAM/ROM 核心占用 FPGA 的 LUT(查找表) 资源。查找表本质上是一种小型 RAM,因此这种方式适合对存储容量要求不大但需要快速访问的场景。
    • Block Memory Generator:生成的 RAM/ROM 核心占用 FPGA 的 Block Memory(嵌入式硬件 RAM) 资源。适合需要较大容量存储、节省 LUT 资源的应用。

选择 Block Memory Generator 双击鼠标进入到 RAM IP 配置界面。

1.2 Xilinx RAM IP 配置选择说明

    • 常规接口(Native):原生端口,直接控制信号。
    • AXI 接口:用于与 AXI 总线系统集成。

全局summary ,点击OK

初始化设置 RAM IP 的初始化配置用于在 FPGA 上电或复位时为存储单元设置初始值,可以选择默认填充(如全 0 或全 1),也可以通过加载初始化文件(如 .mem.coe 文件)写入自定义数据。初始化可以在生成时包含初始内容,也可以通过逻辑模块在系统上电后写入,Vivado 常通过 COE 文件指定每个地址的初始数据。同时,可以配置是否在初始化时对输出端口进行寄存,以保证上电或复位期间读出的数据符合预期。这种初始化常用于存放查找表数据、系统默认值或测试仿真阶段的初始化数据。

端口 B 输出寄存器配置 端口 B 的输出寄存器配置主要用于控制读出数据是否经过寄存器缓存,以改善时序性能或满足设计需求。在简单双端口 RAM 中,虽然端口 B 只能进行读操作,但仍可以配置其输出寄存器,通常可以选择 无寄存器(直接输出)或 有寄存器(输出数据经过寄存器打一拍),这样可以根据系统时序要求优化读数据的稳定性和延迟。在真双端口 RAM 中,同样可以独立配置端口 B 的输出寄存器,实现更灵活的时序控制。

端口 B 输出置位/复位设置 这里不创建置位/复位端口,需注意这里置位/复位并不复位 RAM 中的数据而是只复位寄存器上的值。

端口 B 数据位宽和内存深度的设置 在简单双端口 RAM 中,端口 B 仅用于读操作,无法进行写操作,因此其操作模式不可修改。而在真双端口 RAM 中,端口 B 则可以进行操作模式设置。这里将端口 B 的使能设置为 Always Enable,确保该端口始终处于使能状态。

端口使能信号类型设置 端口使能信号类型设置,一个是一直使能,一个是通过一个 ENA 信号管脚控制,这里选择 Always Enable。

操作模式设置 在 RAM IP 的配置中,操作模式(Write Mode)提供三个选项,主要用于处理当同一地址在同一时钟周期同时发生读写操作时的行为。具体而言,这些选项决定了读出的数据是 写入的最新数据该地址原有的数据,还是 读数据保持不变。选择合适的操作模式可以确保在读写冲突情况下的逻辑行为符合设计需求。Write First 模式下的波形,同时对同一地址读写,读出数据刚写入该地址的数据。Read First 模式下的波形,同时对同一地址读写,读出数据刚上次写入该地址的数据。No Change 模式下波形,读出的数据只有在进行读操作但未进行写操作时更新数据,在同时读写数据时,读出数据保持不变。

RAM 数据位宽和深度设置(重要!!!)由于我们选择的是简单双端口ram,port A作为输入端口,我们这里配置数据位宽为16,数据深度1024,也就是最大存储1024个16bit数。

实现算法选择在 RAM IP 的配置中,算法类型提供了三种选择:最小面积(Minimum Area)、低功耗(Low Power)以及固定原语(Fixed Primitives)。这些选项会影响生成的 RAM 的实现方式和性能特性,例如占用资源和功耗等。具体的实现细节可以参考 IP 手册,从第 42 页开始有详细说明。在当前配置中,我们保持默认的 最小面积 选项即可,不做额外修改。

BYTE写使能在配置 RAM 时,如果勾选写数据字节使能(Write Enable),写使能信号会按字节生成对应的位,使每个字节对应一个写使能位。字节大小可以设置为 8 或 9 位,因此输入输出数据的位宽必须是 8 或 9 的整数倍。由于这里需要一个位宽为 8bit 的 RAM,因此选择勾选 Write Enable 并将字节大小设置为 8bit。   

ECC 选项ECC 全称是 Error Correction Capability,是在简单双端口 RAM 类型下的一种纠错功能,具体该功能的详细说明,可以查看 IP 手册,可以看到,只有在简单双端口RAM类型才是可以选择的,这里选择 NO ECC。ECC是FPGA和数字IC设计中一种经典数据校验和纠错的算法功能模块,以后单开一篇博客详细介绍其原理。

存储器类型(Memory Type)对于 RAM,有三种类型可选:

类型端口数量时钟数量读写特性
单端口 RAM11读写共享同一时钟,读写不能同时进行。
简单双端口 RAM2(PORTA/PORTB)2PORTA 用于写,PORTB 用于读,可同时进行操作。
真双端口 RAM22两个端口各自独立,可同时读写,支持双向操作。

端口类型(Interface Type)
Xilinx 的很多 IP 核提供两种接口类型:在本例中,选择 Native 接口

二、verilog例化模板

        1、点击Generate,生成对应IP相关的文件。

        2、点击IP SOURCE一栏,查看例化文件,可以复制例化模块到自己的工程中使用。

blk_mem_gen_0 your_instance_name ( .clka(clka), // input wire clka .ena(ena), // input wire ena .wea(wea), // input wire [0 : 0] wea .addra(addra), // input wire [9 : 0] addra .dina(dina), // input wire [15 : 0] dina .clkb(clkb), // input wire clkb .enb(enb), // input wire enb .addrb(addrb), // input wire [9 : 0] addrb .doutb(doutb) // output wire [15 : 0] doutb );

 三、仿真TESTBENCH搭建。

        由于本文中只会对ram ip 的行为进行测试,所以直接将模块例化到tb中仿真即可,添加tb文件如下。

`timescale 1ns/1ns `define clk_period 20 module dpram_tb; reg clock; reg [15:0]data; reg [9:0]rdaddress; reg [9:0]wraddress; reg wren; wire [9:0]q; integer i; dpram dpram0( .clock(clock), .data(data), .rdaddress(rdaddress), .wraddress(wraddress), .wren(wren), .q(q) ); initial clock = 1; always#(`clk_period/2)clock = ~clock; initial begin data = 0; rdaddress = 30; wraddress = 0; wren = 0; #(`clk_period*20 +1 ); for (i=0;i<=1023;i=i+1)begin wren = 1; data = 1024 - i; wraddress = i; #`clk_period; end wren = 0; #(`clk_period*20); for (i=0;i<=15;i=i+1)begin rdaddress = i; #`clk_period; end #(`clk_period*20); $stop; end endmodule 

 

  

Read more

昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽

昇腾NPU运行Llama模型全攻略:环境搭建、性能测试、问题解决一网打尽

背景 最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。 说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来跑大模型推理,理论上应该是个不错的选择。 为什么偏偏选了 Llama 来测试? 说到 Llama,这玩意儿现在可是开源界的"网红"。Meta 把它完全开源出来,社区生态搞得风生水起,各种优化和适配层出不穷。 其实选择 Llama 做测试,主要有这么几个考虑:

Ascend Whisper 高效部署实战:从模型优化到生产环境避坑指南

快速体验 在开始今天关于 Ascend Whisper 高效部署实战:从模型优化到生产环境避坑指南 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 Ascend Whisper 高效部署实战:从模型优化到生产环境避坑指南 背景痛点分析 语音识别模型在昇腾硬件上的部署常常面临几个关键挑战: * 计算图优化不足:原生PyTorch模型直接转换后,存在大量冗余计算节点,影响NPU执行效率

论文AI率多少算正常?各高校AIGC检测标准汇总解读

论文AI率多少算正常?各高校AIGC检测标准汇总解读

论文AI率多少算正常?各高校AIGC检测标准汇总解读 “我的论文AI率23%,能过吗?” 这可能是2026年毕业季被问得最多的一句话。问题在于,没有一个放之四海而皆准的答案——你在清华和在地方院校面临的标准完全不同,本科和硕士的要求也不一样,甚至同一所学校不同学院之间都可能存在差异。 本文将尽可能完整地梳理2026年各高校的AIGC检测标准,帮你准确判断自己的论文处于什么位置,以及需要达到什么水平。 一、先搞清楚一个前提:检测平台的差异 在讨论"多少算正常"之前,必须先明确一个经常被忽略的问题:不同检测平台对同一篇论文给出的AI率可能相差很大。 目前国内高校采用的AIGC检测平台主要有四家:知网、维普、万方、大雅。其中知网占据主导地位,大部分985/211院校和相当比例的普通本科院校都采用知网检测。 同一篇论文在不同平台上的检测结果可能差距悬殊。一篇文章在知网检测显示AI率28%,在维普上可能显示42%,在万方上又可能只有15%。这种差异源于各平台采用的检测算法和训练数据不同。 所以当你对照标准评估自己的论文时,一定要搞清楚你的学校用的是哪个平台,然后在对应平台上做检

AR交互设计新范式:虚拟按钮与手势控制在教育类应用中的创新融合

AR交互设计新范式:虚拟按钮与手势控制在教育类应用中的创新融合 当孩子们第一次用手指在空中旋转恐龙模型时,他们的眼睛会发光——这正是教育科技产品最珍贵的时刻。作为AR内容创作者,我们正站在交互设计革命的起点:虚拟按钮的精确性与手势控制的自然性正在教育场景中产生奇妙的化学反应。这种融合不仅改变了知识传递的方式,更重塑了学习体验的本质。 1. 教育场景下的AR交互设计原则 儿童教育类AR应用的特殊性在于,它需要同时满足两个看似矛盾的需求:交互必须足够简单直观,让孩子无需指导就能上手;同时又要具备足够的精确性,确保教学目标的准确达成。这就像设计一个既能让三岁孩童轻松玩耍,又能让专业钢琴家演奏交响乐的键盘。 认知负荷理论告诉我们,儿童的注意力资源有限。根据剑桥大学的研究,5-8岁儿童的平均专注时长仅为12-18分钟。因此,我们的交互设计必须遵循以下黄金法则: * 即时反馈原则:任何操作都应在300ms内给予明确响应 * 容错设计:错误操作不应导致系统崩溃或流程中断 * 多通道反馈:同时激活视觉、听觉和触觉反馈通道 * 渐进式复杂度:交互难度随学习进度动态调整 芝加哥儿童博