高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

「强化学习高速避障新范式」

目录

01  主要方法

 1. 训练阶段:基于物理先验的奖励塑形

1. Dijkstra全局引导奖励

2. 基于控制障碍函数的安全惩罚

 2. 部署阶段:基于高阶控制障碍函数的实时滤波

02  实验结果

 1.仿真训练与消融实验

 2.基准测试

 3.实机飞行验证

03  总结


在无人机高速避障领域,Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟,往往难以兼顾高速与安全;而RL等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。

浙江大学高飞老师团队的这项工作,最令人振奋之处在于巧妙地构建了一套混合架构。

  • 在训练阶段,利用 Dijkstra 势场 引导 RL 智能体跳出局部极小值陷阱 ,实现了全局可达性;
  • 在部署阶段,则引入了基于 高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。

这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s 的丛林穿越速度。

这不仅是AI+控制的一次漂亮落地,更为具身智能在复杂非结构化环境中的安全应用提供了范式级的参考。

本文通讯作者:浙江大学长聘副教授、博导高飞;浙江大学控制科学与工程学院博士研究生韩志超。

01  主要方法

在训练阶段,论文采用PPO强化学习算法,并构建了一个基于特权学习的非对称Actor-Critic网络。在实机部署阶段,论文引入了一个基于HOCBF的实时安全滤波器。

图片

图1| Actor-Critic网络架构与训练-部署整体控制流程。

 1. 训练阶段:基于物理先验的奖励塑形

传统的强化学习通常使用到目标的欧式距离作为奖励,这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解(例如U型死胡同)。为此,作者在训练阶段引入了两种基于物理模型的奖励:

1. Dijkstra全局引导奖励

作者提前用Dijkstra算法计算出考虑了障碍物的全局最短距离代价图,并以此构建势场。无人机在势场中前进所获得的奖励计算如下:

$ r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C) $

其中

$\Phi_g$

是势场,通过三线性插值

$\text{Interp}()$

获取连续坐标的代价差值,并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识,作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数

$h(x_t)$

,并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向,就能避免惩罚:

$ r_{\text{safe}} = \text{clip}(\dot{h}(x_t) + \gamma h(x_t), \delta_{\text{min}}, 0) $

 2. 部署阶段:基于高阶控制障碍函数的实时滤波

通过奖励塑形通常无法在现实中提供100%的不撞机保证。因此,在实机部署阶段,作者引入了一个基于高阶控制障碍函数(HOCBF)的实时安全滤波器。

它的核心思想是求解一个二次规划(QP)问题:在严格满足安全物理边界的前提下,寻找一个与神经网络输出的原始动作

$a_{\text{raw}}$

偏差最小的安全动作$a^{*}$。QP优化目标公式如下:

$ a^* = \underset{a}{\operatorname{argmin}} \frac{1}{2} \|a - a_{\text{raw}}\|^2 \text{ s.t. } C(r_t, a) \geq 0 $

考虑到四旋翼无人机是二阶动力学系统(具有惯性,刹车需要时间和距离),作者采用HOCBF提取了关于控制输入的线性不等式约束:

$ 2r_t^\top a_t \geq -2\|v_t\|^2 - \alpha_1 \dot{h}_i(r_t) - \alpha_0 h_i(r_t) $

其中

$r_t$

是距障碍物的相对位置向量,

$v_t$

是速度。这个约束确保了即使在高速飞行下,无人机仍然可以保证安全无碰撞。

此外,高速飞行会导致深度图出现大量的失真、噪点和空洞。作者在实机端部署了基于纳维-斯托克斯(Navier-Stokes)方程的图像修复算法,利用周围像素的梯度填补深度空洞,极大提高了系统的视觉鲁棒性。

图片

图2| 深度观测结果可视化。(a) D435i 深度相机采集的原始深度图像;(b) 经Navier-Stokes图像修复算法处理后的图像;(c) 仿真传感器生成的合成深度图像。

02  实验结果

论文在仿真环境和真实世界中进行了广泛的验证,不仅在大型仿真环境中进行了严格的消融实验,还在室内和复杂的室外森林中完成了高速的实机测试。

 1.仿真训练与消融实验

作者在Isaac Lab中部署了上千台四旋翼无人机进行大规模并行强化学习训练,场景包含随机生成的复杂几何障碍物。实验重点评估了不同奖励函数设计对训练成功率的影响。

结果表明,仅仅依靠传统的欧氏距离作为引导,无人机在复杂非凸环境中极易陷入局部死胡同,导致成功率低下。

当引入基于Dijkstra的全局势场引导后,算法的收敛速度和最终成功率都有了显著提升。而进一步加入控制障碍函数也就是CBF的安全惩罚项后,智能体学会了更安全的探索策略,达到了最高的训练成功率。

此外,消融实验证明了高阶控制障碍函数安全滤波器在高速飞行时的决定性作用。在目标速度达到9 m/s的极限情况下,纯软性奖励机制的成功率明显下降,而加入了硬性约束滤波器的完整框架依然能保持最佳的鲁棒性。

图片

图3| 训练表现对比图。图a展示了不同奖励配置下的训练成功率曲线,基于Dijkstra势场与CBF安全约束融合的方法收敛最快且成功率最高。图b展示了包含密集障碍物的典型并行训练场景。

 2.基准测试

为了体现算法的先进性,作者将该方法与两种主流前沿技术进行了全面对比,分别是基于传统轨迹优化的Ego-Planner和基于可微物理引擎的纯学习方案DiffPhys。

在四个不同难度的随机障碍物测试场景中,Ego-Planner仅在3 m/s的低速下表现尚可,一旦速度提升至5 m/s及以上,由于迭代重规划带来的计算延迟无法跟上环境变化,其成功率直接跌至零。

纯学习基线DiffPhys虽然在低速下表现优于传统方法,但在高速区间同样遭遇挑战,主要原因是其固定的偏航策略在急加速或急减速时会导致机身大幅俯仰,进而让相机视野完全朝向天空或地面,丢失环境感知。

相比之下,本文提出的混合框架在各个速度下都保持了绝对的成功率优势,且实际飞行速度最贴近设定的目标速度。

图片

图4| 算法基准测试结果对比。图a直观展示了三种算法在不同目标速度下的实际平均飞行速度,本方法在极速追踪上占据绝对优势。图b可视化了三种算法在几何障碍物和柏林噪声生成的复杂地形中的实际飞行轨迹。

 3.实机飞行验证

实机测试环节分为室内密集障碍场与室外真实丛林两部分。

在室内测试中,无人机需要在每次飞行前都随机重排的15米长障碍阵列中穿梭。在3 m/s到7 m/s的不同目标速度下,本方法不仅成功率极高,而且飞行姿态非常平稳。对比之下,采用传统规划算法的Ego-PlannerV2在高速时出现了大量的撞机事故。

图片

图5| 室内实机高速避障对比测试。图中标红圈处为碰撞事故点,随着目标速度从低到高递增,传统Ego-Planner算法的撞机频率大幅增加,而本方法在各种随机障碍物排列下均保持了极高的安全通过率。

在室外丛林这类非结构化且充满细碎树枝的环境中,容错率较低。无人机仅凭机载算力和视觉深度图,在超过35米的距离内保持了惊人的7 m/s平均时速,成功穿越树林抵达终点,这充分证明了深度强化学习与物理安全边界结合所迸发出的巨大潜能。

图片

图6| 室外丛林高速飞行实测。图a展示了由全局点云构建的飞行轨迹及其对应的速度热力图。图b和图c呈现了无人机的感知画面与飞行状态,证明了无人机在高达7 m/s的高速下依然能有效规避复杂的真实树干与枝叶。

03  总结

本文提出了一种混合强化学习框架,旨在解决四旋翼无人机在复杂环境中高速飞行时敏捷性与计算延迟及安全性之间的冲突。

该系统在训练阶段融合了基于Dijkstra算法的全局路径引导与控制障碍函数软性奖励,帮助智能体有效克服局部最优陷阱并提升探索过程的安全性 ;而在部署阶段则串联了高阶控制障碍函数作为实时安全滤波器,对神经网络输出进行硬性约束,从而提供严格的防碰撞数学保证。

大量的基准测试与实机实验表明,这种结合了物理先验的端到端学习方法成功跨越了仿真到现实的鸿沟,使得无人机能够在高达7.5 m/s的极速下,于密集的室内障碍阵列和复杂的室外森林环境中实现稳健且敏捷的自主避障飞行,其综合表现全面超越了主流的传统规划器与纯学习基线算法。

论文题目:High-Speed Vision-Based Flight in Clutter with Safety-Shielded Reinforcement Learning

论文作者:Jiarui Zhang, Chengyong Lei, Chengjiang Dai, Lijie Wang, Zhichao Han, Fei Gao

论文地址:https://arxiv.org/html/2602.08653v1

Read more

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)(原命名为时间证明公式算法(TCC)) 本共识算法以「时间长河」为核心设计理念,通过时间节点服务器按固定最小时间间隔打包区块,构建不可篡改的历史数据链,兼顾区块链的金融属性与信用属性,所有优化机制形成完整闭环,无核心逻辑漏洞,具体总结如下: 一、核心机制(闭环无漏洞) 1. 节点准入与初始化:候选时间节点需先完成全链质押,首个时间节点由所有质押节点投票选举产生,彻底杜绝系统指定带来的初始中心化问题,实现去中心化初始化。 2. 时间节点推导与防作弊:下一任时间节点通过共同随机数算法从上一区块推导(输入参数:上一区块哈希、时间戳、固定数据顺序),推导规则公开可验证;时间节点需对数据顺序签名,任一节点发现作弊(篡改签名、操控随机数等),该节点立即失去时间节点资格并扣除全部质押。质押的核心目的是防止节点为持续获取区块打包奖励作弊,作弊损失远大于收益,确保共同随机数推导百分百不可作弊。 3. 节点容错机制:每个时间节点均配置一组合规质押节点构成的左侧顺邻节点队列(队列长度可随全网节点规

终极指南:如何为小爱音箱打造自定义固件——解锁开源智能家居新体验

终极指南:如何为小爱音箱打造自定义固件——解锁开源智能家居新体验 🚀 【免费下载链接】xiaoai-patchPatching for XiaoAi Speakers, add custom binaries and open source software. Tested on LX06, LX01, LX05, L09A 项目地址: https://gitcode.com/gh_mirrors/xia/xiaoai-patch 小爱音箱自定义固件(xiaoai-patch) 是一个专为小米小爱音箱设计的开源项目,通过补丁和自定义二进制文件,让你彻底摆脱原厂限制,自由安装开源软件,打造专属智能语音助手。支持LX06、LX01、LX05、L09A等多款音箱型号,轻松实现智能家居控制、音乐播放等个性化功能。 📋 为什么选择小爱音箱自定义固件? 原厂音箱往往受限于封闭系统,无法安装第三方应用或优化功能。而xiaoai-patch项目通过以下特性为你的音箱注入新活力: * 100%开源组件:所有代码基于开源许可,从底层补丁到应用层工具完全透明可修改

【机器人数值优化】数值优化基础(一)从理论到实战全方位指南 | 解锁机器人技术的核心技能

【机器人数值优化】数值优化基础(一)从理论到实战全方位指南 | 解锁机器人技术的核心技能

💯 欢迎光临清流君的博客小天地,这里是我分享技术与心得的温馨角落 💯 🔥 个人主页:【清流君】🔥📚 系列专栏: 运动控制 | 决策规划 | 机器人数值优化 📚🌟始终保持好奇心,探索未知可能性🌟 文章目录 * 引言 * 一、参考书籍推荐 * 二、数值优化的定义与组成 * 2.1 数值优化组成部分 * (1) 优化变量 * (2) 目标函数 * (3) 不等式约束 * (4) 等式约束 * 2.2 数值优化前提假设 * 三、数值优化在机器人中的应用 * 3.1 平滑与映射:非线性最小二乘法 * 3.2 轨迹规划: 非线性问题 * 3.3 点云配置:半定规划 * 3.4 时间最优路径参数化:二阶锥规划 * 四、数值优化基础

保姆级教程!零基础解锁大疆无人机开发:MSDK/PSDK/ 上云 API 实战指南[特殊字符]

保姆级教程!零基础解锁大疆无人机开发:MSDK/PSDK/ 上云 API 实战指南[特殊字符]

保姆级教程!零基础解锁大疆无人机开发:MSDK/PSDK/上云API实战指南🚁 摘要 作为无人机领域的「苹果生态」,大疆行业开发体系自2014年开放SDK以来,已吸引超10万开发者构建3000+行业解决方案。本文基于官方最新《行业生态入门指南》,深度解析MSDK移动端开发、PSDK负载硬件开发、上云API云端集成三大核心能力,附全流程资源清单与生态认证攻略,助你从「无人机小白」变身行业开发高手! 目录 * 一、大疆开发生态全景:为什么选择大疆二次开发? * 二、MSDK实战:5分钟开发你的首个无人机控制App * 三、PSDK硬核:让无人机秒变「万能挂载平台」 * 四、上云API进阶:构建无人机云端大脑 * 五、开发者必备:技术支持与生态认证全流程 一、大疆开发生态全景:为什么选择大疆二次开发? 🌟 生态优势 * 低门槛:无需自研飞控算法,直接调用大疆底层能力(如飞行稳定、图传通信); * 高兼容:支持Matrice 350 RTK、