跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
|注册
博客列表

目录

  1. 01 主要方法
  2. 1. 训练阶段:基于物理先验的奖励塑形
  3. 1. Dijkstra 全局引导奖励
  4. 2. 基于控制障碍函数的安全惩罚
  5. 2. 部署阶段:基于高阶控制障碍函数的实时滤波
  6. 02 实验结果
  7. 1. 仿真训练与消融实验
  8. 2. 基准测试
  9. 3. 实机飞行验证
  10. 03 总结
PythonAI算法

基于高阶 CBF 的端到端无人机实现 7.5m/s 丛林穿越

一种混合强化学习框架,用于解决四旋翼无人机在复杂环境中的高速避障问题。训练阶段利用 Dijkstra 势场引导智能体跳出局部最优,并结合控制障碍函数(CBF)进行安全奖励塑形;部署阶段引入高阶控制障碍函数(HOCBF)实时滤波器,对神经网络动作进行硬性约束以确保数学上的碰撞避免。实验表明,该方法在仿真及实机测试中均表现优异,在室内障碍阵列和室外丛林环境中实现了高达 7.5m/s 的高速自主飞行,综合性能超越传统规划器与纯学习基线。

草莓泡芙发布于 2026/4/5更新于 2026/4/165 浏览
基于高阶 CBF 的端到端无人机实现 7.5m/s 丛林穿越

强化学习高速避障新范式

在无人机高速避障领域,Ego-Planner 等传统的模块化规划方法受限于感知 - 规划 - 控制的累积延迟,往往难以兼顾高速与安全;而 RL 等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。

这项工作最令人振奋之处在于巧妙地构建了一套混合架构:

  • 在训练阶段,利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱,实现了全局可达性;
  • 在部署阶段,则引入了基于高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。

这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s 的丛林穿越速度。

01 主要方法

在训练阶段,论文采用 PPO 强化学习算法,并构建了一个基于特权学习的非对称 Actor-Critic 网络。在实机部署阶段,论文引入了一个基于 HOCBF 的实时安全滤波器。

图片

图 1 | Actor-Critic 网络架构与训练 - 部署整体控制流程。

1. 训练阶段:基于物理先验的奖励塑形

传统的强化学习通常使用到目标的欧式距离作为奖励,这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解(例如 U 型死胡同)。为此,作者在训练阶段引入了两种基于物理模型的奖励:

1. Dijkstra 全局引导奖励

作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图,并以此构建势场。无人机在势场中前进所获得的奖励计算如下:

$$ r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C) $$

其中 $\Phi_g$ 是势场,通过三线性插值 $\text{Interp}()$ 获取连续坐标的代价差值,并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识,作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数 $h(x_t)$,并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向,就能避免惩罚:

$$ r_{\text{safe}} = \text{clip}(\dot{h}(x_t) + \gamma h(x_t), \delta_{\text{min}}, 0) $$

2. 部署阶段:基于高阶控制障碍函数的实时滤波

通过奖励塑形通常无法在现实中提供 100% 的不撞机保证。因此,在实机部署阶段,作者引入了一个基于高阶控制障碍函数(HOCBF)的实时安全滤波器。

它的核心思想是求解一个二次规划(QP)问题:在严格满足安全物理边界的前提下,寻找一个与神经网络输出的原始动作 $a_{\text{raw}}$ 偏差最小的安全动作 $a^*$。QP 优化目标公式如下:

$$ a^* = \underset{a}{\operatorname{argmin}} \frac{1}{2} |a - a_{\text{raw}}|^2 \text{ s.t. } C(r_t, a) \geq 0 $$

考虑到四旋翼无人机是二阶动力学系统(具有惯性,刹车需要时间和距离),作者采用 HOCBF 提取了关于控制输入的线性不等式约束:

$$ 2r_t^\top a_t \geq -2|v_t|^2 - \alpha_1 \dot{h}_i(r_t) - \alpha_0 h_i(r_t) $$

其中 $r_t$ 是距障碍物的相对位置向量,$v_t$ 是速度。这个约束确保了即使在高速飞行下,无人机仍然可以保证安全无碰撞。

此外,高速飞行会导致深度图出现大量的失真、噪点和空洞。作者在实机端部署了基于纳维 - 斯托克斯(Navier-Stokes)方程的图像修复算法,利用周围像素的梯度填补深度空洞,极大提高了系统的视觉鲁棒性。

图片

极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • 爱普生 SGPM01 陀螺仪模块在智能割草机与泳池机器人中的应用
  • 基于高阶控制障碍函数的端到端无人机高速避障方法
  • Neo4j Windows 安装与配置教程
  • 基于高阶控制障碍函数的端到端无人机高速避障强化学习框架
  • Claude Code 效率提升指南:Superpower 与 Mem 插件实战
  • 深入理解 C++ STL list 底层实现与模拟实现
  • Claude Code 提升效率的 Superpower 与记忆插件实战指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

图 2 | 深度观测结果可视化。(a) D435i 深度相机采集的原始深度图像;(b) 经 Navier-Stokes 图像修复算法处理后的图像;(c) 仿真传感器生成的合成深度图像。

02 实验结果

论文在仿真环境和真实世界中进行了广泛的验证,不仅在大型仿真环境中进行了严格的消融实验,还在室内和复杂的室外森林中完成了高速的实机测试。

1. 仿真训练与消融实验

作者在 Isaac Lab 中部署了上千台四旋翼无人机进行大规模并行强化学习训练,场景包含随机生成的复杂几何障碍物。实验重点评估了不同奖励函数设计对训练成功率的影响。

结果表明,仅仅依靠传统的欧氏距离作为引导,无人机在复杂非凸环境中极易陷入局部死胡同,导致成功率低下。

当引入基于 Dijkstra 的全局势场引导后,算法的收敛速度和最终成功率都有了显著提升。而进一步加入控制障碍函数也就是 CBF 的安全惩罚项后,智能体学会了更安全的探索策略,达到了最高的训练成功率。

此外,消融实验证明了高阶控制障碍函数安全滤波器在高速飞行时的决定性作用。在目标速度达到 9 m/s 的极限情况下,纯软性奖励机制的成功率明显下降,而加入了硬性约束滤波器的完整框架依然能保持最佳的鲁棒性。

图片

图 3 | 训练表现对比图。图 a 展示了不同奖励配置下的训练成功率曲线,基于 Dijkstra 势场与 CBF 安全约束融合的方法收敛最快且成功率最高。图 b 展示了包含密集障碍物的典型并行训练场景。

2. 基准测试

为了体现算法的先进性,作者将该方法与两种主流前沿技术进行了全面对比,分别是基于传统轨迹优化的 Ego-Planner 和基于可微物理引擎的纯学习方案 DiffPhys。

在四个不同难度的随机障碍物测试场景中,Ego-Planner 仅在 3 m/s 的低速下表现尚可,一旦速度提升至 5 m/s 及以上,由于迭代重规划带来的计算延迟无法跟上环境变化,其成功率直接跌至零。

纯学习基线 DiffPhys 虽然在低速下表现优于传统方法,但在高速区间同样遭遇挑战,主要原因是其固定的偏航策略在急加速或急减速时会导致机身大幅俯仰,进而让相机视野完全朝向天空或地面,丢失环境感知。

相比之下,本文提出的混合框架在各个速度下都保持了绝对的成功率优势,且实际飞行速度最贴近设定的目标速度。

图片

图 4 | 算法基准测试结果对比。图 a 直观展示了三种算法在不同目标速度下的实际平均飞行速度,本方法在极速追踪上占据绝对优势。图 b 可视化了三种算法在几何障碍物和柏林噪声生成的复杂地形中的实际飞行轨迹。

3. 实机飞行验证

实机测试环节分为室内密集障碍场与室外真实丛林两部分。

在室内测试中,无人机需要在每次飞行前都随机重排的 15 米长障碍阵列中穿梭。在 3 m/s 到 7 m/s 的不同目标速度下,本方法不仅成功率极高,而且飞行姿态非常平稳。对比之下,采用传统规划算法的 Ego-PlannerV2 在高速时出现了大量的撞机事故。

图片

图 5 | 室内实机高速避障对比测试。图中标红圈处为碰撞事故点,随着目标速度从低到高递增,传统 Ego-Planner 算法的撞机频率大幅增加,而本方法在各种随机障碍物排列下均保持了极高的安全通过率。

在室外丛林这类非结构化且充满细碎树枝的环境中,容错率较低。无人机仅凭机载算力和视觉深度图,在超过 35 米的距离内保持了惊人的 7 m/s 平均时速,成功穿越树林抵达终点,这充分证明了深度强化学习与物理安全边界结合所迸发出的巨大潜能。

图片

图 6 | 室外丛林高速飞行实测。图 a 展示了由全局点云构建的飞行轨迹及其对应的速度热力图。图 b 和图 c 呈现了无人机的感知画面与飞行状态,证明了无人机在高达 7 m/s 的高速下依然能有效规避复杂的真实树干与枝叶。

03 总结

本文提出了一种混合强化学习框架,旨在解决四旋翼无人机在复杂环境中高速飞行时敏捷性与计算延迟及安全性之间的冲突。

该系统在训练阶段融合了基于 Dijkstra 算法的全局路径引导与控制障碍函数软性奖励,帮助智能体有效克服局部最优陷阱并提升探索过程的安全性;而在部署阶段则串联了高阶控制障碍函数作为实时安全滤波器,对神经网络输出进行硬性约束,从而提供严格的防碰撞数学保证。

大量的基准测试与实机实验表明,这种结合了物理先验的端到端学习方法成功跨越了仿真到现实的鸿沟,使得无人机能够在高达 7.5 m/s 的极速下,于密集的室内障碍阵列和复杂的室外森林环境中实现稳健且敏捷的自主避障飞行,其综合表现全面超越了主流的传统规划器与纯学习基线算法。

C# 调用豆包 AI 模型实现首尾帧视频生成
  • Claude Code 效率提升实战:Superpower 与 Mem 插件指南
  • IntelliJ IDEA 无法识别 JDK:环境变量配置排查与解决
  • 二次元 AI 绘画工具实战指南:从入门到进阶
  • Web 虚拟卡销售店铺实现方案
  • Web 虚拟卡销售店铺实现方案
  • Xilinx 7 Series FPGA I/O引脚分配优化策略:从SSN分析到PCB布局
  • Arduino BLDC 机器人 IMU 角度读取与 PID 互补滤波控制
  • YOLO12 应用于无人机倾斜摄影密集楼宇窗户识别
  • 动态规划算法详解:从基础概念到经典例题
  • ChatTTS 语速优化实战:从算法调优到生产环境部署
  • C++ 函数模板
  • 零成本实现 Web 实时推送:轻量级 SSE 方案解析