高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈

「强化学习高速避障新范式」

目录

01  主要方法

 1. 训练阶段:基于物理先验的奖励塑形

1. Dijkstra全局引导奖励

2. 基于控制障碍函数的安全惩罚

 2. 部署阶段:基于高阶控制障碍函数的实时滤波

02  实验结果

 1.仿真训练与消融实验

 2.基准测试

 3.实机飞行验证

03  总结


在无人机高速避障领域,Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟,往往难以兼顾高速与安全;而RL等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。

浙江大学高飞老师团队的这项工作,最令人振奋之处在于巧妙地构建了一套混合架构。

  • 在训练阶段,利用 Dijkstra 势场 引导 RL 智能体跳出局部极小值陷阱 ,实现了全局可达性;
  • 在部署阶段,则引入了基于 高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。

这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s 的丛林穿越速度。

这不仅是AI+控制的一次漂亮落地,更为具身智能在复杂非结构化环境中的安全应用提供了范式级的参考。

本文通讯作者:浙江大学长聘副教授、博导高飞;浙江大学控制科学与工程学院博士研究生韩志超。

01  主要方法

在训练阶段,论文采用PPO强化学习算法,并构建了一个基于特权学习的非对称Actor-Critic网络。在实机部署阶段,论文引入了一个基于HOCBF的实时安全滤波器。

图片

图1| Actor-Critic网络架构与训练-部署整体控制流程。

 1. 训练阶段:基于物理先验的奖励塑形

传统的强化学习通常使用到目标的欧式距离作为奖励,这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解(例如U型死胡同)。为此,作者在训练阶段引入了两种基于物理模型的奖励:

1. Dijkstra全局引导奖励

作者提前用Dijkstra算法计算出考虑了障碍物的全局最短距离代价图,并以此构建势场。无人机在势场中前进所获得的奖励计算如下:

$ r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C) $

其中

$\Phi_g$

是势场,通过三线性插值

$\text{Interp}()$

获取连续坐标的代价差值,并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识,作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数

$h(x_t)$

,并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向,就能避免惩罚:

$ r_{\text{safe}} = \text{clip}(\dot{h}(x_t) + \gamma h(x_t), \delta_{\text{min}}, 0) $

 2. 部署阶段:基于高阶控制障碍函数的实时滤波

通过奖励塑形通常无法在现实中提供100%的不撞机保证。因此,在实机部署阶段,作者引入了一个基于高阶控制障碍函数(HOCBF)的实时安全滤波器。

它的核心思想是求解一个二次规划(QP)问题:在严格满足安全物理边界的前提下,寻找一个与神经网络输出的原始动作

$a_{\text{raw}}$

偏差最小的安全动作$a^{*}$。QP优化目标公式如下:

$ a^* = \underset{a}{\operatorname{argmin}} \frac{1}{2} \|a - a_{\text{raw}}\|^2 \text{ s.t. } C(r_t, a) \geq 0 $

考虑到四旋翼无人机是二阶动力学系统(具有惯性,刹车需要时间和距离),作者采用HOCBF提取了关于控制输入的线性不等式约束:

$ 2r_t^\top a_t \geq -2\|v_t\|^2 - \alpha_1 \dot{h}_i(r_t) - \alpha_0 h_i(r_t) $

其中

$r_t$

是距障碍物的相对位置向量,

$v_t$

是速度。这个约束确保了即使在高速飞行下,无人机仍然可以保证安全无碰撞。

此外,高速飞行会导致深度图出现大量的失真、噪点和空洞。作者在实机端部署了基于纳维-斯托克斯(Navier-Stokes)方程的图像修复算法,利用周围像素的梯度填补深度空洞,极大提高了系统的视觉鲁棒性。

图片

图2| 深度观测结果可视化。(a) D435i 深度相机采集的原始深度图像;(b) 经Navier-Stokes图像修复算法处理后的图像;(c) 仿真传感器生成的合成深度图像。

02  实验结果

论文在仿真环境和真实世界中进行了广泛的验证,不仅在大型仿真环境中进行了严格的消融实验,还在室内和复杂的室外森林中完成了高速的实机测试。

 1.仿真训练与消融实验

作者在Isaac Lab中部署了上千台四旋翼无人机进行大规模并行强化学习训练,场景包含随机生成的复杂几何障碍物。实验重点评估了不同奖励函数设计对训练成功率的影响。

结果表明,仅仅依靠传统的欧氏距离作为引导,无人机在复杂非凸环境中极易陷入局部死胡同,导致成功率低下。

当引入基于Dijkstra的全局势场引导后,算法的收敛速度和最终成功率都有了显著提升。而进一步加入控制障碍函数也就是CBF的安全惩罚项后,智能体学会了更安全的探索策略,达到了最高的训练成功率。

此外,消融实验证明了高阶控制障碍函数安全滤波器在高速飞行时的决定性作用。在目标速度达到9 m/s的极限情况下,纯软性奖励机制的成功率明显下降,而加入了硬性约束滤波器的完整框架依然能保持最佳的鲁棒性。

图片

图3| 训练表现对比图。图a展示了不同奖励配置下的训练成功率曲线,基于Dijkstra势场与CBF安全约束融合的方法收敛最快且成功率最高。图b展示了包含密集障碍物的典型并行训练场景。

 2.基准测试

为了体现算法的先进性,作者将该方法与两种主流前沿技术进行了全面对比,分别是基于传统轨迹优化的Ego-Planner和基于可微物理引擎的纯学习方案DiffPhys。

在四个不同难度的随机障碍物测试场景中,Ego-Planner仅在3 m/s的低速下表现尚可,一旦速度提升至5 m/s及以上,由于迭代重规划带来的计算延迟无法跟上环境变化,其成功率直接跌至零。

纯学习基线DiffPhys虽然在低速下表现优于传统方法,但在高速区间同样遭遇挑战,主要原因是其固定的偏航策略在急加速或急减速时会导致机身大幅俯仰,进而让相机视野完全朝向天空或地面,丢失环境感知。

相比之下,本文提出的混合框架在各个速度下都保持了绝对的成功率优势,且实际飞行速度最贴近设定的目标速度。

图片

图4| 算法基准测试结果对比。图a直观展示了三种算法在不同目标速度下的实际平均飞行速度,本方法在极速追踪上占据绝对优势。图b可视化了三种算法在几何障碍物和柏林噪声生成的复杂地形中的实际飞行轨迹。

 3.实机飞行验证

实机测试环节分为室内密集障碍场与室外真实丛林两部分。

在室内测试中,无人机需要在每次飞行前都随机重排的15米长障碍阵列中穿梭。在3 m/s到7 m/s的不同目标速度下,本方法不仅成功率极高,而且飞行姿态非常平稳。对比之下,采用传统规划算法的Ego-PlannerV2在高速时出现了大量的撞机事故。

图片

图5| 室内实机高速避障对比测试。图中标红圈处为碰撞事故点,随着目标速度从低到高递增,传统Ego-Planner算法的撞机频率大幅增加,而本方法在各种随机障碍物排列下均保持了极高的安全通过率。

在室外丛林这类非结构化且充满细碎树枝的环境中,容错率较低。无人机仅凭机载算力和视觉深度图,在超过35米的距离内保持了惊人的7 m/s平均时速,成功穿越树林抵达终点,这充分证明了深度强化学习与物理安全边界结合所迸发出的巨大潜能。

图片

图6| 室外丛林高速飞行实测。图a展示了由全局点云构建的飞行轨迹及其对应的速度热力图。图b和图c呈现了无人机的感知画面与飞行状态,证明了无人机在高达7 m/s的高速下依然能有效规避复杂的真实树干与枝叶。

03  总结

本文提出了一种混合强化学习框架,旨在解决四旋翼无人机在复杂环境中高速飞行时敏捷性与计算延迟及安全性之间的冲突。

该系统在训练阶段融合了基于Dijkstra算法的全局路径引导与控制障碍函数软性奖励,帮助智能体有效克服局部最优陷阱并提升探索过程的安全性 ;而在部署阶段则串联了高阶控制障碍函数作为实时安全滤波器,对神经网络输出进行硬性约束,从而提供严格的防碰撞数学保证。

大量的基准测试与实机实验表明,这种结合了物理先验的端到端学习方法成功跨越了仿真到现实的鸿沟,使得无人机能够在高达7.5 m/s的极速下,于密集的室内障碍阵列和复杂的室外森林环境中实现稳健且敏捷的自主避障飞行,其综合表现全面超越了主流的传统规划器与纯学习基线算法。

论文题目:High-Speed Vision-Based Flight in Clutter with Safety-Shielded Reinforcement Learning

论文作者:Jiarui Zhang, Chengyong Lei, Chengjiang Dai, Lijie Wang, Zhichao Han, Fei Gao

论文地址:https://arxiv.org/html/2602.08653v1

Read more

AI Agent 面试八股文100问:大模型智能体高频考点全解析(附分类指南和简历模板)

AI Agent 面试八股文100问:大模型智能体高频考点全解析(附分类指南和简历模板)

AI Agent 面试八股文100问:大模型智能体高频考点全解析(附分类指南和简历模板) 如果你对学成归来的简历没有概念,可以看看以下的模板先,毕竟先看清眼前的路,比奔跑更重要: 最终的AI Agent简历模板,点我跳转! 适用人群:LLM Agent、RAG、AutoGPT、LangChain、Function Calling 等方向的求职者与开发者 随着大模型技术的飞速演进,AI Agent(智能体) 已成为工业界和学术界共同关注的焦点。无论是 AutoGPT、LangChain 还是 LlamaIndex,背后都离不开对 Agent 架构、推理机制、工具调用等核心能力的深入理解。 本文系统整理了 AI Agent 方向的 100 道高频面试问题,覆盖 基础概念、架构设计、推理决策、工具调用、记忆管理、评估方法、安全对齐、

AI 办公成职场标配,别再用错拖后腿!7 套书教你精准用 AI 提效

AI 办公成职场标配,别再用错拖后腿!7 套书教你精准用 AI 提效

2026三掌柜赠书活动第十八期 AI 办公成职场标配,别再用错拖后腿!7 套书教你精准用 AI 提效 目录 Part.0 前言 Part.1 开会汇报没重点?AI当“嘴替” Part.2 不想加班,还不知道搭个智能体帮你干? Part.3 主业涨薪难,想抓AI风口做副业? Part.4 DeepSeek总get不到你的点? Part.5 Office内置AI不会用? Part.6 不想被“职场体力活”耗空? Part.7 对抗工具墒增,实现职场进阶! Part.8 彩蛋:赠书! Part.9 结束语 Part.0 前言

OpenClaw 实操指南 07:飞书 CLI 开源:让 AI 真正接管你的飞书全流程

OpenClaw 实操指南 07:飞书 CLI 开源:让 AI 真正接管你的飞书全流程

2026年3月28日,飞书官方开源larksuite/cli(v1.0.0),以200+命令、19个AI Agent Skills,将飞书2500+开放API封装为命令行接口,面向人类开发者与AI Agent双用户,重构办公协作的操作范式。这不仅是工具升级,更是飞书从“GUI服务人”到“GUI+CLI双态并行”的战略跃迁——GUI给人交互,CLI给AI执行,让AI真正成为办公的“执行者”而非“旁观者”。 一、飞书CLI是什么:从API到命令行的能力跃迁 1. 核心定位与架构 飞书CLI是官方开源、MIT协议、免费商用的命令行工具,核心定位是让AI Agent直接操控飞书全量数据与业务,而非仅做信息查询。其三层架构清晰划分能力边界: * Shortcuts层:高频快捷命令(如lark-cli calendar +agenda查今日日程),降低人类使用门槛。 * API Commands层:200+

内存暴涨700%背后的惊天真相:AI正在吞噬一切!能源·隐私·绿色三大维度深度拆解

内存暴涨700%背后的惊天真相:AI正在吞噬一切!能源·隐私·绿色三大维度深度拆解

🔥作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生,研究方向无线联邦学习 🎬擅长领域:驱动开发,嵌入式软件开发,BSP开发 ❄️作者主页:一个平凡而乐于分享的小比特的个人主页 ✨收录专栏:未来思考,本专栏结合当前国家战略和实时政治,对未来行业发展的思考 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖💖 🔥内存暴涨700%背后的惊天真相:AI正在吞噬一切!能源·隐私·绿色三大维度深度拆解 |前言| 最近装机的小伙伴们欲哭无泪:DDR5内存价格一路狂飙,部分DRAM现货价格在过去一年暴涨近700% 。大家习惯性吐槽“厂商放火”、“产能不足”,但很少有人看到,这场涨价风暴的真正推手,是那只名为“AI”的巨兽。 当你还在为多花几百块钱买内存心疼时,国家正在西部荒漠建起一座座数据中心,科技巨头正在为“吃电怪兽”抢购每一颗芯片。2026年,大型科技公司的AI相关投资预计将达到6500亿美元,较去年增长约80% 。 今天,我们从能源供应、隐私安全、绿色AI 三个维度,结合东数西算、算电协同、