FPGA FFT缩放因子配置全解析

FPGA FFT缩放因子配置全解析

目录

前言

1.快速傅里叶变换(FFT)

1.1 FFT的来源    

1.2 FFT IP 缩放因子设置实例

缩放配置的底层含义:16'haaaa

每一级的计算与“减肥”过程

输入准备:24 位原始数据

Stage 1:第一次蝶形运算

Stage 2:第二次蝶形运算

Stage 3 & 4:持续压缩

Stage 5:最后一级(第 1024 个点对齐)

与MATLAB对比

缩放因子过大的后果

1.3 进阶探索:Block Floating Point (BFP) 模式

1.3.1 什么是块浮点?

1.3.2 BFP 的运行机制:逐级动态监测

1.3.3 BFP 模式的优势分析

1.3.4 工程实现要点


前言

        记录一下对在vivado FFT IP核中如何设置缩放因子的理解。

1.快速傅里叶变换(FFT)

1.1 FFT的来源    

         传感器的信号是数字信号,所以无法进行连续时间的傅里叶变换;离散时间傅里叶变换针对长度为无穷长的信号,其得到的频谱是连续的,与实际信号的情况也不一致; 离散时间傅里叶级数针对离散的信号,频谱的结果也是离散的,最有可能由计算机实现,但其针对周期信号。 实际上,计算机采用“离散傅里叶变换(DFT)”对信号开展分析—基本原理:将采集到的信号(信号长度为

N_0

看成周期为

N_0

的离散时间周期信号,并计算其DTFS。

        所以有离散傅里叶变换(DFT)的出现:对于长度为

N_0

的信号

x[n]

,将其看成周期为

N_0(\Omega = \frac{2\pi}{N_0})

的周期信号(这种做法是合理,结果会有误差,但不影响分析),其公式为:

正变换:

F(k\Omega_0) =\sum_{k=0}^{N_0-1} x[n] e^{-j k \Omega_0 n}

逆变换:

x[n] =\frac{1}{N_0} \sum_{k=0}^{N_0-1} F(k\Omega_0) e^{j k \Omega_0 n}

其物理含义为:将信号分解为一系列简单的复指数序列(

e^{0j\Omega n}

e^{j\Omega n}

e^{j2\Omega n}

,...,

e^{j(N_0-1)\Omega n}

).

        DFT的计算量:N个点直接计算DFT的总运算量为:

N^2

次复数乘法,

N(N-1)

次复数加法。分析1024个点的序列,需要进行百万次的复乘,消耗的资源比较多。

        因此有了快速傅里叶的诞生。FFT是其中一种常用的方法。它是快速实现DFT的一种算法,有效降低了计算量。

        FFT简单的理解就是2分法,因为将N个点分为两组

\frac{N}2{}

个点计算,仅需要

\frac{N^2}{4} + \frac{N^2}{4} =\frac{N^2}{2}

次复数乘法,相当于减少一半,依次类推,FFT复数乘法运算量

\frac{N}{2}log_2N

,两者对比:

        具体的计算就不阐述了。从 DFT 的定义式可见,由于计算过程中缺少

$1/N$

的归一化系数,其运算结果的幅值规模会随点数

$N$

呈线性增长。在基于 FPGA 的定点化实现中,这意味着动态范围的逐级扩张:基-2 架构的 FFT 每一级蝶形运算会导致数值放大 2 倍,共需进行

$\log_2 N$

级运算;相应地,基-4 架构每一级会放大 4 倍,共进行

$\log_4 N$

级。因此,必须在 IP 核中合理配置缩放因子(Scaling Factor),以抑制各级运算中的位宽增长,防止定点数溢出导致的结果失真。

1.2 FFT IP 缩放因子设置实例

 

        在代码中FFT IP配置是16384点 FFTRadix-4 架构、缩放系数 16'haaaa(这是因为FFT IP最大点数是65536(

4^8

),Radix-4 架构最大有8级,从而IP核预留的位数。因为设置的FFT IP核点数可配,因此可设置NFFT=1024。对于 1024点的 Radix-4 算法,计算一共分为 5 级,因为

$4^5 = 1024$


缩放配置的底层含义:16'haaaa

 config_SCALE_SCH = 16'haaaa 转换成二进制是:

[10] [10] [10] [10] [10] [10] [10] [10]

在 Xilinx FFT IP 中,每 2位控制一个计算级的缩放:

  • 00: 不移位(可能溢出,但精度最高)。
  • 01: 右移 1 位(数值除以 2)。
  • 10: 右移 2 位(数值除以 4)
  • 11: 右移 3 位(数值除以 8)。

每一级的计算与“减肥”过程

输入准备:24 位原始数据

ADC 数据进入 FFT 模块,实部和虚部各占 24 位。此时,数据的动态范围是

$2^{24}$

Stage 1:第一次蝶形运算
  • 计算:Radix-4 蝶形单元同时读取 4 个样点,乘以旋转因子并相加。
  • 位宽增长:4个数相加,理论最大值会变为原来的 4倍,即位宽增加 2位(从 24 位变成 26 位)。
  • 缩放(10:硬件执行 >> 2(右移 2 位)。
  • 结果:26 位 - 2 位 = 24 位。数据大小回到了安全范围,防止溢出。
Stage 2:第二次蝶形运算
  • 计算:处理 Stage 1 输出的中间结果。
  • 位宽增长:数值再次面临潜在的 $4$ 倍增长。
  • 缩放(10:再次执行 >> 2
  • 结果:维持在 24位}
Stage 3 & 4:持续压缩
  • 过程同上。每一级都允许数值翻 4$倍,但随即被 >> 2 砍掉。这两级完成后,已经处理了 4^4 = 256个点之间的相关性。
Stage 5:最后一级(第 1024 个点对齐)
  • 计算:完成最后的复数加减。
  • 缩放(10:执行最后一次 >> 2
  • 最终输出:输出的 data_out_Real 依然是 24 位

与MATLAB对比

        整个过程可以用一个公式来表达你的输出幅值

$X_{out}$

与理论真值

$X_{true}$

的关系:

$X_{out} = \frac{X_{true}}{2^{2 \times 5}} = \frac{X_{true}}{1024}$

        这意味着,你为了保证在 100% 满量程正弦波 输入时硬件不溢出,将最终的计算结果缩小了 1024倍。

维度输入 (Input)输出 (Output)损失 (Loss)
位宽24 bit24 bit0 bit
数值精度原生精度有效信息被右移了 10 位丢失了低 10 位的细节
动态范围~144 dB~144 dB约 60 dB 被推入噪声层

        这里需要区分MATLAB的FFT运算。尽管二者均涉及 1/N 的归一化处理,但 MATLAB 基于浮点运算,能够完整保留计算过程中的微弱细节;相比之下,FPGA 的定点运算在逐级缩放过程中不可避免地会引入量化损失。因此,缩放因子(Scaling Factor)的配置必须根据输入信号的动态范围进行‘动态适配’:针对满量程(Full-scale)信号,应优先采用保守的缩放策略以确保数值不溢出;而对于非满量程信号(如幅值减半),则可适当降低缩放比例(如每级仅缩小 2 倍),从而在动态范围与系统稳定性之间取得最优平衡。”举个例子:

        如果信号不是占满全量程(ADC 没爆表),可以尝试 “前松后紧” 的策略。修改 config_SCALE_SCH

  • 建议方案16'h5555(即 01 01 01 01 01 01 01 01
  • 效果:每一级只右移 1 位(除以 2)。这样总共只缩小了 2^5 = 32 倍。
  • 好处:能多找回 5 位  的精度,让 10Hz 附近的微弱扫频信号更加清晰。最后在MATLAB中处理的时候再做除以2^5即可。

缩放因子过大的后果

        信号太弱:如果你观测的扫频信号本身就很微弱,经过这 5 级 >> 2 的连续截断,信号的能量可能直接被移成了 0。这就是为什么有时候背景看起来非常干净(全是蓝色),因为微弱的噪声和信号都被“缩放”没了。

        量化噪声:每一级右移都会产生舍入误差。由于可能没有开启 Convergent Rounding(收敛舍入),这些误差会累积,导致频谱的底部并不平整。

在你的“星载数字系统”笔记中,Block Floating Point (BFP,块浮点) 模式可以作为解决“弱信号丢失”与“强干扰溢出”矛盾的高级方案。它在硬件开销与计算精度之间取得了一种近乎完美的平衡。

以下是为你整理的详细介绍,可直接填入你的笔记 1.3 章节


1.3 进阶探索:Block Floating Point (BFP) 模式

1.3.1 什么是块浮点?

        块浮点是一种特殊的定点运算模式。如果说手动缩放(Scaled)是每一步都“切掉”固定的位数,那么块浮点就是“按需剪裁”。

        在每一级蝶形运算开始前,硬件会实时扫描该块数据(Block)中的最大值,根据其量级动态决定本级是否需要右移缩放。

    • M(Mantissa):FFT 输出的尾数(即 24-bit 数据)。
    • E(Exponent):块阶码(BLK_EXP),记录了整帧数据总共缩放的位数。

核心公式

$X_{final} = M \times 2^{-E}$

1.3.2 BFP 的运行机制:逐级动态监测

        对于1024点(5 级)Radix-4 FFT:

  •  峰值检测:在 Stage 1 计算前,硬件检测输入数据的峰值。
  • 自适应缩放
    • 若信号极弱(如空间背景噪声):硬件检测到没有溢出风险,本级执行 00(不移位),保留全部 24 bit 精度。
    • 若信号极强(如强电磁干扰):硬件检测到峰值接近饱和,本级自动执行 10(右移 2 位) 防溢出。
  1. 阶码累加:每一级自动缩放的位数都会累加到 BLK_EXP 中。最终输出时,所有频点共享这一个阶码。

1.3.3 BFP 模式的优势分析

        在“波动探测”任务中,BFP 模式相比 16'haaaa 手动缩放具有显著优势:

  • 最大化信噪比 (SNR):它能在处理微弱扫频信号时,自动找回因手动缩放丢失的低 10 位精度,动态范围提升最高可达 60 dB.
$DR_{gain} = 20 \times \log_{10}(2^{10}) = 20 \times 3.01 = \mathbf{60.2\text{ dB}} $
  • 防止系统“致盲”:手动缩放(如 16'h5555)在遇到突发强干扰时会溢出导致数据错乱;BFP 则能瞬间收缩量程,保证系统不崩溃。
  • 数学归一化:它在输出时自动完成了类似 1/N 的量级调整,且该调整是基于信号实际功率动态进行的。

1.3.4 工程实现要点

  • 接口变化:没有了缩放因子,但需要监听 m_axis_data_tuser 总线,从中提取 BLK_EXP 字段。
  • 资源权衡:BFP 需要额外的逻辑进行峰值比较,可能会增加 Hold 违例 的修复难度。

后端还原:在 MATLAB 解析时,真实的幅值需补回阶码:

$X_{true} =\frac{ X_{parsed} \cdot 2^{BLK\_EXP}}{N}$

        以上就是本次的笔记记录。

Read more

OpenCowork 实测:支持本地文件、飞书机器人的 Windows AI 助手(只需配置 Token)

目的 找一款window 本地ai助手,但有如下要求 1)windows一键安装,带gui界面,操作简单 2)直接操作本地文件,能生成和写入本地文件内容 3)配置token 即可,无需绑定账号登陆 测试效果 OpenCowork 可直接操作本地电脑文件,并支持接入飞书机器人应用,实现类似 OpenClaw 的电脑操作能力; 但整体更适合本地文档生成、资料整理、代码或文本批量处理等场景。相比云端 AI,在生成速度、工具能力和复杂任务支持方面仍有差距,尤其在长文档生成和多工具协作时效率与稳定性较弱,因此更适合作为本地文件处理的辅助工具,而非替代云端 AI。 OpenCowork 很多自动化能力依赖python,你可以自己升级一下python,然后让OpenCowork 检测环境是不是最新的,并升级一下; 1 安装 OpenCowork 客户端 下载地址 https://github.com/AIDotNet/OpenCowork 找右侧侧

ComfyUI ControlNet Aux插件完全安装指南:从零开始掌握AI绘画神器

ControlNet Aux插件是AI绘画领域的全能工具,它集成了数十种图像预处理功能,能够将普通图片转化为AI模型能理解的格式。无论你是想要生成精确的线稿、深度图,还是想要控制人物的姿势,这个插件都能帮你实现。 【免费下载链接】comfyui_controlnet_aux 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 快速安装:一键部署完整环境 方法一:标准安装流程 首先,确保你已经安装了ComfyUI主程序。然后在ComfyUI的custom_nodes目录下执行: git clone https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 等待克隆完成后,重启ComfyUI,插件就会自动加载并开始下载必要的模型文件。 方法二:手动安装(适合网络环境不佳的用户) 如果自动下载遇到问题,可以采用手动安装方式: 1.

无人机地面站QGC的安装(ubuntu20.04)

无人机地面站QGC的安装(ubuntu20.04) 1.安装依赖 使用以下命令: sudo usermod -a -G dialout $USER sudo apt-get remove modemmanager -y sudo apt install gstreamer1.0-plugins-bad gstreamer1.0-libav gstreamer1.0-gl -y sudo apt install libfuse2 -y sudo apt install libxcb-xinerama0 libxkbcommon-x11-0 libxcb-cursor0 -y 2.下载安装包 可以直接去官网下载,链接地址:https://docs.qgroundcontrol.com/master/en/qgc-user-guide/

AIOps实践:基于 Dify+LangBot 实现飞书智能体对话机器人

AIOps实践:基于 Dify+LangBot 实现飞书智能体对话机器人

文章目录 * AIOps实践:Dify接入飞书实现与智能体对话 * 前言 * 环境搭建 * 1、Docker环境搭建 * 2、LangBot搭建 * 3、编辑流水线 * 4、配置飞书机器人 * 5、创建机器人 * 6、进行测试 * 附:遇到的问题 AIOps实践:Dify接入飞书实现与智能体对话 前言 前端时间把dify的智能体接入到了Prometheus和夜莺上,实现了与智能体的基本对话,并可以调取Prometheus数据进行分析,在那之后就开始深度研究AIOps实现原理于深度赋能运维的可能性,所以正在研究AIOps的核心:MCP Server;现在还并未成型,在研究的过程中,就想到了可否基于dify的agent,连接自建的mcp服务器,对接到飞书的机器人上,这样就可以和智能体进行对话,配合成型的mcp,就可以基本实现AIOps。 这里需要借助一个三方的开源工具LangBot,LangBot是一个生产级多平台 LLM 机器人开发平台。那么就开始实践吧: MCP Server开发的当前阶