跳到主要内容2025 无人机四大顶会精选:16 篇 IROS、ICRA、RSS 与 CoRL 核心论文 | 极客日志编程语言AI算法
2025 无人机四大顶会精选:16 篇 IROS、ICRA、RSS 与 CoRL 核心论文
本文梳理了 2025 年 IROS、ICRA、RSS 及 CoRL 四大机器人领域顶会的 16 篇无人机相关论文。内容涵盖扩散模型轨迹生成、点云强化学习避障、感知规划协同、物理信息神经网络、多机协同追踪、空中操作框架、视觉安全避撞及 VLM 导航等方向。重点分析了从自动化飞行向具身智能体进化的技术脉络,包括世界模型引入、去中心化协作及零样本导航等新范式。
机器人0 浏览
过去几年,无人机研究的重心正在悄然转移:从'能飞'走向'会飞',再迈向'敢飞'。今年的趋势更加明显,大多数工作不再满足于单一模块的精度提升,而是转向更系统的追问:能否用世界模型引入驾驶级预测?能否用 VLM 直接点出航路点?能否用去中心化强化学习实现无通信协作?
本文精选了IROS、ICRA、RSS 和 CoRL四大顶会的16 篇代表性工作,梳理无人机如何从自动化机器进化为具身智能体。
01 IROS(4 篇)
Automatic Generation of Aerobatic Flight in Complex Environments via Diffusion Models

**机构/团队:**浙江大学——高飞团队
**核心思路:**针对复杂环境下花式飞行轨迹设计耗时且易失败的问题,提出利用扩散模型自动生成长时域轨迹。不同于直接生成整段轨迹,该方法将动作拆解为'原语积木',从历史数据中学习动态先验以保证衔接自然。系统支持条件输入(如目标航点),结合 classifier guidance 进行避障优化,并经过时空轨迹后处理确保动力学可执行。
**链接:**https://arxiv.org/pdf/2504.15138
Flying on Point Clouds with Reinforcement Learning

**机构/团队:**浙江大学湖州研究院;浙江大学控制科学与工程学院;华北电力大学自动化系
**核心思路:**面向室外杂乱环境,提出基于机载激光雷达和强化学习的四旋翼高速自主避障方法。通过轻量化点云替代表示压缩原始稠密点云,保留关键几何特征的同时适配 RL 训练。策略以 50Hz 频率直接输出控制指令,实现感知到控制的端到端映射,成功完成 sim-to-real 迁移部署。
**链接:**https://arxiv.org/pdf/2503.00496
Perception-aware Planning for Quadrotor Flight in Unknown and Feature-limited Environments

**机构/团队:**哈尔滨工业大学;南方科技大学;微分智飞
**核心思路:**解决视觉特征稀疏退化环境下的导航难题。提出感知 - 规划协同框架,引导无人机主动维持自身可定位性。通过构建视点转换图选择中间视点,联合优化偏航角朝向,权衡探索未知区域与保持特征观测的需求,构建'可定位走廊',在未知环境中有效降低定位误差。
**链接:**https://arxiv.org/pdf/2503.15273
PI-WAN: A Physics-Informed Wind-Adaptive Network for Quadrotor Dynamics Prediction in Unknown Environments
**核心思路:**针对真实环境中风扰等扰动导致轨迹跟踪精度不足的问题,提出结合物理知识与数据驱动的 PI-WAN 模型。使用时序卷积网络(TCN)学习动力学,并在损失函数中注入物理约束,提升泛化能力。将在线学习的动力学模型实时嵌入 MPC 控制器,实现了从模型学习到控制提升的闭环。
02 ICRA(4 篇)
A Cooperative Bearing-Rate Approach for Observability-Enhanced Target Motion Estimation
**机构/团队:**浙江大学;西湖大学 WINDY Lab
**核心思路:**针对高速机动目标追踪中的估计滞后问题,创新性地利用了长期被忽视的方位角变化率(bearing rate)。设计了 STT-R 估计器,融合空间三角测量与时间动态信息,通过分布式递归最小二乘实现节点在线更新,无需复杂感知模型即可提升对剧烈机动目标的追踪响应能力。
Whole-Body Control Through Narrow Gaps From Pixels To Action
**核心思路:**研究无人机穿越极端狭窄缝隙的高难度全身协调控制。采用纯数据驱动思路,训练端到端神经网络实现从像素画面到底层控制指令的直接映射。创新在于高效的训练流水线:先在仿真中利用虚拟点云训练穿缝策略,再通过在线观测空间蒸馏迁移至高维像素输入,结合模型轨迹优化大幅提升学习效率。
A Hierarchical Graph-Based Terrain-Aware Autonomous Navigation Approach for Complementary Multimodal Ground-Aerial Exploration
**核心思路:**解决地空机器人在未知复杂环境中的协同探索问题。提出基于分层环境图的表示方法,统一编码几何可达性与语义信息。通过综合信息增益、地形可通过性与碰撞风险的'通行信心'指标,当地面平台受阻时自动触发无人机接力,显著提升了复杂障碍环境下的整体探索覆盖能力。
Dynamic Perception-Enhanced Motion Planning and Control for UAVs Flights in Challenging Dynamic Environments
**核心思路:**解决传统静态规划在动态场景中失效的问题。提出集成的感知 - 规划 - 控制系统,分离处理静态与动态障碍物。利用深度图实时分割跟踪动态目标,构建 3D 动态 ESDF 地图表征静态环境。采用两段式策略:先基于静态地图生成全局参考路径,再通过结合动态控制屏障函数的 MPC 实时规避移动障碍物。
How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework
**机构/团队:**伊利诺伊大学芝加哥分校;美国陆军研究实验室
**核心思路:**针对异构机器人团队协同效率低的问题,提出基于深度强化学习的可扩展协同框架。核心创新是引入'按飞行架次决策'机制,将连续时空决策分解为离散调度。采用编码器 - 解码器 Transformer 架构,动态选择执行主体并依据实时状态输出动作,展现出对任务动态变化的良好适应能力。
Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning
**机构/团队:**卡内基梅隆大学;宾夕法尼亚州立大学
**核心思路:**推动空中操作向标准化发展,提出'Flying Hand'框架。核心是采用以末端执行器为中心的统一抽象,解耦高层任务决策与底层全身控制。上层策略只需输出末端位姿,底层通过末端中心的全局 MPC 驱动平台协同运动。该设计使遥操作更直观,并为跨任务迁移的学习策略提供了标准化接口。
Demonstrating ViSafe: Vision-enabled Safety for High-speed Detect and Avoid
**核心思路:**研究不依赖外部基础设施的高速自主避撞问题。提出 ViSafe 纯视觉端到端避撞系统,集成基于学习的多相机目标检测与跟踪算法,将安全间隔建模为严格的实时控制约束。实验表明该系统能在高速逼近场景下稳定触发避让机动,推进了高速空中避撞的工程化应用。
RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation
**核心思路:**解决端到端方法中行为克隆误差累积与强化学习奖励设计难的矛盾。提出 RAPID 方法,采用逆强化学习框架从专家轨迹反向推导隐式奖励函数。利用特权信息和规划器生成丰富专家数据,实现'一次训练、直接迁移'。真实森林环境实验验证了其在高速视觉导航任务中的有效性与泛化能力。
04 CoRL(4 篇)
AT-Drone: Benchmarking Adaptive Teaming in Multi-Drone Pursuit
**机构/团队:**曼彻斯特大学;上海交通大学;中山大学;南京大学
**核心思路:**针对多无人机协同追捕中缺乏系统性评测基准的问题,提出 AT-Drone 基准平台。包含可配置仿真环境、仿真到真机部署流程、多智能体算法库及标准化评估协议。该平台将'临时自适应协同'转化为可复现、可对比的研究对象,为鲁棒的多智能体协同系统提供基础设施。
Decentralized Aerial Manipulation of a Cable-Suspended Load using Multi-Agent Reinforcement Learning
**核心思路:**解决强耦合载荷吊运任务中集中式控制通信依赖强的问题。提出完全去中心化的多智能体强化学习方案,每架无人机仅依赖本地观测决策,通过载荷动态间接协调。策略输出高层指令由鲁棒底层控制器跟踪,在模型不确定甚至机体失效情况下仍能保持稳定的协同控制性能。
See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
**机构/团队:**国立阳明交通大学;国立台湾大学
**核心思路:**提出无需任务特定训练的 SPF 框架,解决传统方法需大量数据训练的问题。核心是将导航决策重新定义为视觉空间指向问题,利用 VLM 直接分析图像与指令,预测下一步应前往的 2D 路标点。该零样本方法实现了仅利用通用 VLM 的空间理解能力进行鲁棒的视觉语言导航。
Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learnin
**核心思路:**研究多无人机对抗性体育任务中的协同控制。提出 HCSP 方法,采用分层协同自博弈学习框架,解耦高层团队策略与低层飞行动作技能。通过三阶段训练流程(生成技能库、高层战术自博弈、联合微调),使策略与技能相互适应,在对抗中自然涌现角色分工与阵型协同。
总结
无人机领域正形成清晰的上升路线:底层控制与安全边界工程化,中层规划实时处理动态不确定性,高层决策像'理解任务再行动'。多机系统也从'预先约定队形'走向'临时组队协作',从'集中式指挥'走向'独立决策但整体配合'。未来真实应用中,系统的鲁棒性、扩展性和部署成本比单次 Demo 更重要。能长期稳定运行、能迁移到不同平台、能在不可控环境里保持安全,才是无人机具身智能真正要爬的那座山。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online