手把手用ROS实现Ego-Planner动态避障：无人机撞树问题终结方案

优质文章学习记录

10 Apr 2026 — 5 min read

手把手用ROS实现Ego-Planner动态避障：无人机撞树问题终结方案

你是否曾满怀期待地启动无人机，看着它在仿真环境中流畅起飞，却在下一秒“砰”地一声撞上突然出现的障碍物，仿真画面定格，留下一串令人沮丧的报错信息？在复杂、非结构化的真实飞行场景中，比如在枝叶交错的林间穿行，或在有行人、车辆移动的城区执行任务，传统的全局规划器往往显得力不从心。它们规划的路径可能全局最优，但面对瞬息万变的局部环境，反应速度跟不上变化，导致“撞树”成了家常便饭。今天，我们不谈空洞的理论对比，而是聚焦于一个能真正解决这个痛点的方案——Ego-Planner，并带你一步步在ROS和Gazebo搭建的仿真世界里，亲手实现一个能“眼观六路、随机应变”的无人机大脑。

本文面向的是已经具备一定ROS和无人机仿真基础，正被动态避障问题困扰的开发者、研究者或高级爱好者。我们将彻底抛开宏观的算法优劣论述，直接深入到代码配置、参数调优和实战排错层面。你将看到的不是“Ego-Planner实时性更好”这样的结论，而是“如何设置距离场梯度计算的网格分辨率”、“碰撞反作用力系数调到多少能让无人机既灵活又稳定”的具体操作。我们将从零开始，搭建一个包含动态障碍物的Gazebo仿真环境，集成Ego-Planner，并通过一系列渐进式的实验，让你直观感受其避障能力，并掌握调试它的核心技巧。我们的目标很明确：让你手中的无人机，在面对突如其来的障碍时，能像经验丰富的飞行员一样，优雅地绕开，而不是直挺挺地撞上去。

1. 环境搭建与Ego-Planner核心思想解析

在开始敲代码之前，我们需要先理解Ego-Planner解决问题的独特思路。与那些依赖高精度、高计算成本的全局距离场（如ESDF）的规划器不同，Ego-Planner选择了一条更“务实”的路径。它的核心思想是基于梯度的局部优化。想象一下，你在一个充满家具的房间里蒙眼走路，如果每走一步都要在脑海里构建整个房间的完整三维地图并计算最优路径，那将极其缓慢。更高效的做法是，伸出手（传感器）感知前方一小块区域，如果碰到障碍物，手会感受到一个推力，你自然就会调整方向避开。Ego-Planner的优化器就在做类似的事情：它不需要知道整个世界的精确几何，只需要在轨迹点附近，快速估算出障碍物的梯度方向（即“推力”的方向和大小），然后将轨迹点沿着梯度下降的方向“推离”障碍物。

这种思想带来了两个直接优势：极高的计算速度和对动态环境的天然适应性。因为计算只围绕当前轨迹进行，不涉及全局地图更新，所以延迟极低。同时，任何新出现的障碍物，只要被传感器捕获，其梯度信息就能立刻被纳入下一次优化迭代中，实现真正的实时反应。

1.1 搭建ROS与Gazebo仿真测试场

为了验证这一思想，我们首先需要一个能模拟复杂动态环境的“试飞场”。这里我们使用ROS Melodic或Noetic，搭配Gazebo。假设你已经配置好了基础的ROS环境，我们重点部署无人机模型和动态障碍物。

1. 创建工作空间与安装必要功能包：

mkdir -p ~/ego_planner_ws/src cd ~/ego_planner_ws/src catkin_init_workspace # 克隆Ego-Planner的核心代码库（这里以某个开源实现为例，请注意实际仓库地址可能不同） git clone https://github.com/ZJU-FAST-Lab/ego-planner.git # 安装无人机仿真模型包，例如hector_quadrotor或iris模型 git clone https://github.com/PX4/PX4-Autopilot.git --recursive # 注意：PX4是一个庞大的项目，我们可能只需要其Gazebo模型。更轻量的选择是使用rotors_simulator git clone https://github.com/ethz-asl/rotors_simulator.git cd .. catkin_make source devel/setup.bash

2. 创建带动态障碍物的Gazebo世界文件： 我们创建一个简单的森林场景，并加入移动的树干（模拟行人或车辆）。在 ~/ego_planner_ws/src 下新建一个 worlds 文件夹，创建 dynamic_forest.world：

<?xml version="1.0"?> <sdf version="1.6"> <world name="dynamic_forest"> <!-- 光照与地面 --> <include><uri>model://sun</uri></include> <include><uri>model://ground_plane</uri></include> <!-- 静态树木 --> <model name="tree1"> <pose>2 0 0 0 0 0</pose> <include><uri>model://tree1</uri></include> </model> <model name="tree2"> <pose>-1 3 0 0 0 0</pose> <include><uri>model://tree2</uri></include> </model> <!-- 动态障碍物：一个来回移动的圆柱体 --> <model name="moving_pole"> <pose>0 0 0.5 0 0 0</pose> <link name="link"> <collision name="collision"> <geometry><cylinder><radius>0.2</radius><length>1.0</length></cylinder></geometry> </collision> <visual name="visual"> <geometry><cylinder><radius>0.2</radius><length>1.0</length></cylinder

Qt 配置Webassemble环境

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 * 前言 * 一、Webassemble是什么？ * 二、下载并配置emsdk * 1.下载源代码 * 2.配置环境 * 1.用户变量 * 2.PATH路径 * 三、配置Qt环境 * 1.设置SDKS * 2.查看构建套件 * 四、测试Demo * 五、部署 * 1.部署nginx环境 * 2.部署Webassemble程序 * 总结前言之前一直知道有一个神奇的东西Webassemble，好几次都是由于环境配置不对导致不能正常使用，而且我也对于它的真正能力表示有兴趣。所以经过深入研究，终于在5.15.2和6.8.3两个版本上配置成功并使用。一、Webassemble是什么？ WebAssembly 是一种新的编码方式，可以在现代的 Web 浏览器中运行—

Phi-4-mini-reasoning Chainlit性能优化：前端懒加载与缓存策略

Phi-4-mini-reasoning Chainlit性能优化：前端懒加载与缓存策略 1. 项目背景与挑战 Phi-4-mini-reasoning是一个基于合成数据构建的轻量级开源模型，专注于高质量、密集推理的数据处理。作为Phi-4模型家族成员，它支持128K令牌的超长上下文处理能力，特别适合需要复杂逻辑推理的应用场景。在实际部署中，我们使用vLLM作为推理引擎，并通过Chainlit构建交互式前端界面。但随着用户量增长，我们遇到了两个核心性能问题： 1. 前端加载缓慢：模型初始化时需要加载大量资源，导致首屏响应时间过长 2. 重复请求开销：用户频繁进行相似查询时，系统无法有效复用已有计算结果 2. 懒加载优化方案 2.1 基本原理与实现懒加载(Lazy Loading)的核心思想是延迟非关键资源的加载，直到它们真正需要时才进行请求。在我们的Chainlit前端中，主要优化点包括： # 前端懒加载实现示例 async def load_model_resources(): # 先加载基础UI框架 await load_core_components(

30天CTF入门：Web+Misc速成计划

30 天网络安全入门学习计划（Web+Misc 方向，适配 CTF 刷题）适配零基础入门，全程围绕 Burp Suite 实操 + CTF 基础刷题，聚焦 Web 安全（核心）+ 杂项（Misc）入门，使用平台为CTFHub（主打）+Bugku CTF（辅）+ 攻防世界（进阶），每天任务控制在1.5-2 小时，分基础打牢（1-10 天）、漏洞进阶 + Misc 入门（11-20 天）、综合刷题 + 能力提升（21-30 天）三个阶段，核心任务必做、拓展任务可选，贴合学生党时间安排。通用要求 1.

DeepSeek-OCR-WEBUI开源！一键部署网页端OCR神器

DeepSeek-OCR-WEBUI开源！一键部署网页端OCR神器上周，DeepSeek正式开源其高性能OCR大模型，凭借在中文识别精度、多语言支持与复杂场景鲁棒性上的卓越表现，迅速引发开发者社区广泛关注。作为国产自研OCR技术的重要突破，DeepSeek-OCR不仅具备强大的文本识别能力，更融合了多模态理解与结构化解析能力，正逐步成为企业文档自动化、教育数字化、金融票据处理等场景的关键基础设施。而今天，我们迎来一个重磅消息：DeepSeek-OCR-WEBUI项目已正式开源！这是一个专为开发者和非技术用户设计的网页版交互式OCR工具，真正实现“零代码、一键部署、开箱即用”。无论你是AI工程师、产品经理，还是普通办公人员，只需三步即可在本地或服务器上搭建属于自己的智能OCR系统。 01 为什么需要 DeepSeek-OCR-WEBUI？尽管DeepSeek-OCR原生模型性能强大，但其部署过程涉及环境配置、依赖安装、权重下载等多个环节，对新手不够友好。此外，缺乏直观的可视化界面也让模型调试与结果查看变得繁琐。为此，我们团队开发了 DeepSeek-OCR-WEBUI