JFM | 空军工程大学宗豪华、吴云等：基于FPGA的深度强化学习框架实现超音速闭环智能流动控制实验

优质文章学习记录

08 Apr 2026 — 8 min read

基于高速实验深度强化学习框架的超音速闭环流动控制

Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework

宗豪华¹，吴云¹，李金平²，苏志²，梁华²

引用格式：H. Zong, Y. Wu, J. Li, Z. Su, and H. Liang. Closed-loop supersonic flow control with a high-speed experimental deep reinforcement learning framework[J], Journal of Fluid Mechanics, 2025, 1009: A3.

编者按

复杂流动控制研究受限于缺乏低阶显示表达的流体动力学模型，所以长期以来多采用试探、观察和分析三步走“马后炮”式研究模式。无模型自适应控制、强化学习和流场预解分析技术的发展，为打破这类研究模式提供了强有力的方法基础。此文就是一篇深度强化学习解决复杂高速流动闭环控制的杰作。相比低速、低Re流动，高速流动的频谱更宽、流动结构尺度更丰富、系统复杂性更强，这对硬件响应和算法实时性提出了更大的挑战。该文以Ma=2的后台阶流动为例（Re和速度在公开文献中，皆创纪录），采用提出的FeDRL框架，通过仅需10s的风洞运行，就能设计出性能碾压传统遍历试凑法（最佳定频控制，数小时/数天）获得的控制律。

摘要：

虽然基于深度强化学习（DRL）的主动流动控制已经在低雷诺数仿真环境中得到了广泛的验证，但在真实实验条件下进行DRL控制仍存在很大挑战，其中之一便是数据采集和神经网络推理的强实时性（亚ms量级）。本研究提出了一种基于FPGA的高速实验深度强化学习框架（缩写：FeDRL），控制频率最高可10 kHz，比传统基于CPU的框架（100 Hz以下）高出两个数量级。以Mach 2的超音速后台阶流动为例，对FeDRL增强流动掺混的有效性进行测试。结果表明，仅需10秒的风洞运行时间，就能训练出比最佳定频控制还要优越的闭环控制律，将剪切层速度脉动增加21.2%。如此高的控制律优化效率在以前的闭环流动控制实验中还从未报道过（典型风洞测试时间：数小时至数天）。

正文：

主动流动控制（AFC）通过在流场中引入局部可控扰动来改善绕流物体的宏观特性，有望大幅改善飞行器的气动性能，其核心是控制律。深度强化学习作为一种解决博弈和决策问题的最佳机器学习方法，为主动流动控制提供了一个全新思路。图1总结了目前基于DRL的流动控制研究。总体来看，大部分的研究都在低雷诺数条件下开展，对象包括圆柱、翼型等。相比之下，实验研究较少，尤其是高速高雷诺数航空流动的深度强化学习实验研究，目前还是一片空白（图1绿色区域）。这其中的主要难度在于航空流动速度高、湍流结构演化快，典型特征频率在kHz量级。为了能够实现实时在线控制，要求深度强化学习必须在μs量级实现流场感知、神经网络推理以及激励输出。基于CPU的DRL框架受数据通信、采集等环节的限制，控制频率通常在100Hz以下。

本研究通过对硬件和算法的高度整合，提出了一种基于FPGA（现场可编程逻辑门阵列）的高速实验DRL控制框架（FeDRL）。数据采集模块直接挂载在FPGA上，能够在一个时钟周期内抓取和输出数据，同时神经网络的计算也能够利用FPGA进行加速，省去了传统框架中硬件间的通信时间。图2以经典的DQN算法为例进行了示意。该框架包含了两个并行执行的循环：在FPGA控制器中高速执行的实时控制循环（1-10kHz）和在CPU上的低速训练循环(10Hz)。神经网络控制律采用了结构简单、参数量少的径向基函数进行表达，典型控制频率可以达到1kHz量级以上。前期，该框架的有效性已在低速后台阶流动（POF, 2024, 36:105102）和翼型分离流动（POF, 2024, 36:091708）中得到了验证。本研究的重点旨在进一步将其拓展到超音速流动。

超音速后台阶流动控制实验在空军工程大学的超音速风洞中进行，马赫数为2。等离子体合成射流激励器作为主动控制装置对流场施加扰动，下游剪切层中的热线传感器提供流场的反馈信息，目标是最大化剪切层内的速度脉动。结果表明，仅需10秒的训练时间，FeDRL框架就能找到有效的闭环控制策略，使瞬时奖励rt从0上升至0.2左右，同时训练损失也在10秒内迅速收敛。对比基于策略的DRL算法（如PPO），FeDRL框架的优化效率高出一个数量级。从功率谱密度对比也可验证DRL控制的有效性，最佳案例下的的速度脉动增加量可达21.2%。通过控制律可视化可以发现，DRL控制策略可以进一步简化为二维的阈值触发控制策略：即当剪切层的瞬时位置高于基准平均位置时，应开启等离子体激励施加一次脉冲扰动。

图4 (a)瞬时奖励和损失的变化；(b)激励概率变化；(c)功率谱；(d)控制指令分布

将这种DRL控制策略与开环控制方法进行比较。结果表明，大部分放电频率下等离子体合成射流都能使功率谱峰值和低频波动幅度升高。随着放电频率的增加，热线速度脉动先增大后减小，最大值出现在放电频率为5 kHz时，与DRL中的动作更新频率一致。但定量来看，定频控制所获得的控制收益（10.5%）仅为最佳DRL控制（21.2%，案例2）的一半。

公众号原文链接（文末附论文资源）：

https://mp.weixin.qq.com/s/lGFg7WxLUo5q8RNsXnQZPA

如何使用Dify搭建合同审查平台-法律文书机器人Agent？

在 Windows 系统中，基于 Dify 这个低代码 LLM 应用开发平台，从零搭建一个能解析合同、识别法律风险、给出修改建议的智能 Agent，全程覆盖环境部署、知识库构建、Agent 配置、功能测试的全流程。第一阶段：Windows 环境准备（基础依赖安装）步骤 1：安装 Python（Dify 运行基础） 1. 下载 Python：访问Python 官网，下载Python 3.10+ 版本（推荐 3.10.11，兼容性最好）。 2. 安装注意： * 勾选「Add Python 3.10 to PATH」

混合知识库搭建：本地Docker部署Neo4j图数据库与Milvus向量库

混合知识库搭建：本地Docker部署Neo4j图数据库与Milvus向量库前言在多代理混合RAG系统中，知识库是“知识储备核心”，直接决定了代理检索的精准度与响应质量。上一篇我们解析了5个子代理的执行逻辑，而这些代理能高效完成知识检索任务，背后依赖“Neo4j图知识库+Milvus向量库”的混合支撑——图知识库擅长挖掘实体关系，向量库精准匹配语义细节，二者互补形成全场景知识覆盖。本文作为系列博客的第三篇，将聚焦混合知识库的落地实现：从本地Docker部署、数据建模、索引构建，到双库协同逻辑，手把手带你搭建高可用的混合知识库，让你掌握“关系型知识+语义型知识”的全链路管理技巧。 1 混合知识库的设计逻辑：为什么需要“图+向量”双引擎？ 1.1 单一知识库的局限性 * 纯图数据库：擅长实体关系查询（如“小米的合作品牌”），但无法高效处理细粒度文本检索（如“苹果的环保目标细节”）； * 纯向量数据库：擅长语义相似性检索（如“查找与5G技术相关的内容”），但难以挖掘实体间的复杂关联（如“华为-开发-鸿蒙-适配-智能设备”

（3-2）机器人身体结构与人体仿生学：人形机器人躯干系统

3.2 人形机器人躯干系统躯干是人形机器人的核心支撑与功能集成单元，承担连接四肢、容纳核心部件（电池、控制器、传感器）、传递运动力矩及维持动态平衡的多重使命。其设计需在人体仿生学（如脊柱运动特性、躯干质量分布）与工程实现（结构刚度、驱动效率、空间利用率）之间找到最优平衡，直接决定机器人的运动协调性、负载能力与运行稳定性。 3.2.1 躯干结构方案人形机器人躯干结构如图3-6所示，躯干是连接四肢、承载核心部件（电池、控制器、传感器）并传递运动力矩的关键载体，其结构设计的核心矛盾是刚度与灵活性的平衡、集成效率与维护便捷性的取舍。图3-6 人形机器人躯干的结构当前工程领域形成了三类主流方案，均围绕“仿生适配+工程落地”展开，具体设计特性与适用场景如下。 1. 一体化结构方案（1）设计逻辑：以“极致刚性与结构稳定性”为核心，采用整体式无拆分框架，通过高性能复合材料一体成型工艺，

从阿基米德螺旋到智能搜索：协作机器人轴孔装配的轨迹优化革命

从阿基米德螺旋到智能搜索：协作机器人轴孔装配的轨迹优化革命在精密装配领域，轴孔配合是最基础也最考验工艺水平的操作之一。传统工业机器人依靠刚性位置控制进行装配，当轴孔间隙小于0.1mm时，极易因微小偏差产生卡阻甚至损坏工件。UR5e等协作机器人通过引入力反馈和智能轨迹规划，将装配效率提升300%以上，同时将接触力波动控制在±0.3N以内。这场技术革命的核心，是从固定参数的阿基米德螺旋搜索升级为自适应轨迹规划系统。 1. 轴孔装配的技术演进与挑战上世纪80年代，汽车制造中广泛采用的矩形搜索法平均需要20秒完成一个轴孔的定位，成功率不足80%。阿基米德螺旋搜索的引入将时间缩短到18秒，但固定螺距设计导致"漏孔"率仍达15%。2015年后，随着UR系列协作机器人配备六维力传感器，实时力反馈使搜索过程发生了质变。典型轴孔装配包含四个关键阶段： * 搜孔阶段：末端执行器以螺旋轨迹探索孔位 * 接触阶段：检测到0.5N力突变时切换控制模式 * 插孔阶段：以5±0.3N恒力完成插入 * 到位检测：力值突增2N或达到预设深度时停止当前主要技术瓶颈体现在： 1. 传统阻抗