基于高阶 CBF 的端到端无人机高速避障：7.5m/s 丛林穿越与 RL 安全突破

针对四旋翼无人机在复杂非结构化环境中的高速避障难题，该研究提出了一种融合强化学习与物理安全约束的混合架构。训练阶段利用 Dijkstra 势场引导策略跳出局部最优，结合控制障碍函数（CBF）进行安全惩罚；部署阶段引入高阶控制障碍函数（HOCBF）实时滤波器，确保动作满足动力学边界。实验表明，该方法在仿真及实机测试中均实现了 7.5m/s 的高速稳定飞行，显著优于传统规划器与纯学习方案，为具身智能的安全落地提供了新范式。

橘子海发布于 2026/4/5更新于 2026/4/251 浏览

在无人机高速避障领域，Ego-Planner 等传统的模块化规划方法受限于感知 - 规划 - 控制的累积延迟，往往难以兼顾高速与安全；而强化学习（RL）等纯端到端方案虽然敏捷，却因缺乏理论上的安全保障而被视为黑盒。浙江大学高飞老师团队提出的这项混合架构工作，巧妙地结合了两者优势。

训练阶段利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱，实现全局可达性；部署阶段则引入基于高阶控制障碍函数（HOCBF）的安全滤波器，将神经网络输出的动作实时投影到可行域内。这种设计不仅在数学上给出了碰撞避免的严谨证明，更在实测中实现了高达 7.5m/s 的丛林穿越速度。

主要方法

系统采用 PPO 强化学习算法，构建了一个基于特权学习的非对称 Actor-Critic 网络。实机部署阶段引入了一个基于 HOCBF 的实时安全滤波器。

训练阶段：基于物理先验的奖励塑形

传统的强化学习通常使用到目标的欧式距离作为奖励，这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解（例如 U 型死胡同）。为此，作者在训练阶段引入了两种基于物理模型的奖励：

1. Dijkstra 全局引导奖励

作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图，并以此构建势场。无人机在势场中前进所获得的奖励计算如下：

$$ r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C) $$

其中 $\Phi_g$ 是势场，通过三线性插值 $\text{Interp}()$ 获取连续坐标的代价差值，并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识，作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数 $h(x_t)$，并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向，就能避免惩罚：

$$ r_{\text{safe}} = \text{clip}(\dot{h}(x_t) + \gamma h(x_t), \delta_{\text{min}}, 0) $$

部署阶段：基于高阶控制障碍函数的实时滤波

通过奖励塑形通常无法在现实中提供 100% 的不撞机保证。因此，在实机部署阶段，作者引入了一个基于高阶控制障碍函数（HOCBF）的实时安全滤波器。

它的核心思想是求解一个二次规划（QP）问题：在严格满足安全物理边界的前提下，寻找一个与神经网络输出的原始动作 $a_{\text{raw}}$ 偏差最小的安全动作 $a^*$。QP 优化目标公式如下：

$$ a^* = \underset{a}{\operatorname{argmin}} \frac{1}{2} |a - a_{\text{raw}}|^2 \quad \text{s.t.} \quad C(r_t, a) \geq 0 $$

考虑到四旋翼无人机是二阶动力学系统（具有惯性，刹车需要时间和距离），作者采用 HOCBF 提取了关于控制输入的线性不等式约束：

$$ 2r_t^\top a_t \geq -2|v_t|^2 - \alpha_1 \dot{h}_i(r_t) - \alpha_0 h_i(r_t) $$

其中 $r_t$ 是距障碍物的相对位置向量，$v_t$ 是速度。这个约束确保了即使在高速飞行下，无人机仍然可以保证安全无碰撞。

此外，高速飞行会导致深度图出现大量的失真、噪点和空洞。作者在实机端部署了基于纳维 - 斯托克斯（Navier-Stokes）方程的图像修复算法，利用周围像素的梯度填补深度空洞，极大提高了系统的视觉鲁棒性。

深度观测结果可视化

图 2| 深度观测结果可视化。(a) D435i 深度相机采集的原始深度图像；(b) 经 Navier-Stokes 图像修复算法处理后的图像；(c) 仿真传感器生成的合成深度图像。

实验结果

论文在仿真环境和真实世界中进行了广泛的验证，不仅在大型仿真环境中进行了严格的消融实验，还在室内和复杂的室外森林中完成了高速的实机测试。

仿真训练与消融实验

作者在 Isaac Lab 中部署了上千台四旋翼无人机进行大规模并行强化学习训练，场景包含随机生成的复杂几何障碍物。实验重点评估了不同奖励函数设计对训练成功率的影响。

结果表明，仅仅依靠传统的欧氏距离作为引导，无人机在复杂非凸环境中极易陷入局部死胡同，导致成功率低下。当引入基于 Dijkstra 的全局势场引导后，算法的收敛速度和最终成功率都有了显著提升。而进一步加入控制障碍函数也就是 CBF 的安全惩罚项后，智能体学会了更安全的探索策略，达到了最高的训练成功率。

基于高阶 CBF 的端到端无人机高速避障：7.5m/s 丛林穿越与 RL 安全突破

主要方法

训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

部署阶段：基于高阶控制障碍函数的实时滤波

实验结果

仿真训练与消融实验

更多推荐文章

相关免费在线工具

基准测试

实机飞行验证

总结

更多推荐文章

相关免费在线工具

基于高阶 CBF 的端到端无人机高速避障：7.5m/s 丛林穿越与 RL 安全突破

主要方法

训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

部署阶段：基于高阶控制障碍函数的实时滤波

实验结果

仿真训练与消融实验

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基准测试

实机飞行验证

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具