基于高阶控制障碍函数的端到端无人机高速避障强化学习框架

「强化学习高速避障新范式」

在无人机高速避障领域，Ego-Planner 等传统的模块化规划方法受限于感知 - 规划 - 控制的累积延迟，往往难以兼顾高速与安全；而 RL 等纯端到端的强化学习虽然敏捷，却因缺乏理论上的安全保障而被视为黑盒。

浙江大学高飞老师团队的这项工作，最令人振奋之处在于巧妙地构建了一套混合架构。

这种设计不仅在数学上给出了碰撞避免的严谨证明，更在实测中实现了高达 7.5m/s 的丛林穿越速度。

这不仅是 AI+ 控制的一次漂亮落地，更为具身智能在复杂非结构化环境中的安全应用提供了范式级的参考。

在训练阶段，论文采用 PPO 强化学习算法，并构建了一个基于特权学习的非对称 Actor-Critic 网络。在实机部署阶段，论文引入了一个基于 HOCBF 的实时安全滤波器。

图 1| Actor-Critic 网络架构与训练 - 部署整体控制流程。

传统的强化学习通常使用到目标的欧式距离作为奖励，这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解（例如 U 型死胡同）。为此，作者在训练阶段引入了两种基于物理模型的奖励：

作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图，并以此构建势场。无人机在势场中前进所获得的奖励计算如下：

$r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C)$

其中

$\Phi_g$

是势场，通过三线性插值

$\text{Interp}()$

获取连续坐标的代价差值，并进行裁剪防止数值爆炸。

为了让策略具备前瞻性的避障意识，作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数

$h(x_t)$

，并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向，就能避免惩罚：

$r_{\text{safe}} = \text{clip}(\dot{h}(x_t) + \gamma h(x_t), \delta_{\text{min}}, 0)$

通过奖励塑形通常无法在现实中提供 100% 的不撞机保证。因此，在实机部署阶段，作者引入了一个基于高阶控制障碍函数（HOCBF）的实时安全滤波器。

它的核心思想是求解一个二次规划（QP）问题：在严格满足安全物理边界的前提下，寻找一个与神经网络输出的原始动作

$a_{\text{raw}}$

偏差最小的安全动作 $a^*$。QP 优化目标公式如下：

$a^* = \underset{a}{\operatorname{argmin}} \frac{1}{2} |a - a_{\text{raw}}|^2 \text{ s.t. } C(r_t, a) \geq 0$

考虑到四旋翼无人机是二阶动力学系统（具有惯性，刹车需要时间和距离），作者采用 HOCBF 提取了关于控制输入的线性不等式约束：