摘要
虽然基于深度强化学习(DRL)的主动流动控制已经在低雷诺数仿真环境中得到了广泛的验证,但在真实实验条件下进行 DRL 控制仍存在很大挑战,其中之一便是数据采集和神经网络推理的强实时性(亚 ms 量级)。本研究提出了一种基于 FPGA 的高速实验深度强化学习框架(缩写:FeDRL),控制频率最高可 10 kHz,比传统基于 CPU 的框架(100 Hz 以下)高出两个数量级。以 Mach 2 的超音速后台阶流动为例,对 FeDRL 增强流动掺混的有效性进行测试。结果表明,仅需 10 秒的风洞运行时间,就能训练出比最佳定频控制还要优越的闭环控制律,将剪切层速度脉动增加 21.2%。如此高的控制律优化效率在以前的闭环流动控制实验中还从未报道过(典型风洞测试时间:数小时至数天)。
正文
复杂流动控制研究受限于缺乏低阶显示表达的流体动力学模型,所以长期以来多采用试探、观察和分析三步走'马后炮'式研究模式。无模型自适应控制、强化学习和流场预解分析技术的发展,为打破这类研究模式提供了强有力的方法基础。相比低速、低 Re 流动,高速流动的频谱更宽、流动结构尺度更丰富、系统复杂性更强,这对硬件响应和算法实时性提出了更大的挑战。
图 1 现有 DRL 流动控制研究所对应的速度和雷诺数
主动流动控制(AFC)通过在流场中引入局部可控扰动来改善绕流物体的宏观特性,有望大幅改善飞行器的气动性能,其核心是控制律。深度强化学习作为一种解决博弈和决策问题的最佳机器学习方法,为主动流动控制提供了一个全新思路。总体来看,大部分的研究都在低雷诺数条件下开展,对象包括圆柱、翼型等。相比之下,实验研究较少,尤其是高速高雷诺数航空流动的深度强化学习实验研究,目前还是一片空白。这其中的主要难度在于航空流动速度高、湍流结构演化快,典型特征频率在 kHz 量级。为了能够实现实时在线控制,要求深度强化学习必须在μs 量级实现流场感知、神经网络推理以及激励输出。基于 CPU 的 DRL 框架受数据通信、采集等环节的限制,控制频率通常在 100Hz 以下。
图 2 基于 DRL 和 RBF 神经网络的高速实验 DRL 控制框架
本研究通过对硬件和算法的高度整合,提出了一种基于 FPGA(现场可编程逻辑门阵列)的高速实验 DRL 控制框架(FeDRL)。数据采集模块直接挂载在 FPGA 上,能够在一个时钟周期内抓取和输出数据,同时神经网络的计算也能够利用 FPGA 进行加速,省去了传统框架中硬件间的通信时间。该框架包含了两个并行执行的循环:在 FPGA 控制器中高速执行的实时控制循环(1-10kHz)和在 CPU 上的低速训练循环 (10Hz)。神经网络控制律采用了结构简单、参数量少的径向基函数进行表达,典型控制频率可以达到 1kHz 量级以上。前期,该框架的有效性已在低速后台阶流动和翼型分离流动中得到了验证。本研究的重点旨在进一步将其拓展到超音速流动。
图 3 (a)- (b) 平板实验模型的示意图;(c) 等离子体激励器结构
超音速后台阶流动控制实验在空军工程大学的超音速风洞中进行,马赫数为 2。等离子体合成射流激励器作为主动控制装置对流场施加扰动,下游剪切层中的热线传感器提供流场的反馈信息,目标是最大化剪切层内的速度脉动。结果表明,仅需 10 秒的训练时间,FeDRL 框架就能找到有效的闭环控制策略,使瞬时奖励 rt 从 0 上升至 0.2 左右,同时训练损失也在 10 秒内迅速收敛。对比基于策略的 DRL 算法(如 PPO),FeDRL 框架的优化效率高出一个数量级。从功率谱密度对比也可验证 DRL 控制的有效性,最佳案例下的的速度脉动增加量可达 21.2%。通过控制律可视化可以发现,DRL 控制策略可以进一步简化为二维的阈值触发控制策略:即当剪切层的瞬时位置高于基准平均位置时,应开启等离子体激励施加一次脉冲扰动。
图 4 (a) 瞬时奖励和损失的变化;(b) 激励概率变化;(c) 功率谱;(d) 控制指令分布



图 5 (a) 功率谱密度和 (b) 电压脉动值的相对增加