近半年无人机与大模型结合的 8 项硬核研究

文章配图

近期在梳理无人机与大模型结合的研究时，发现了一个明显的趋势：越来越多工作开始把'大模型'当成标配往系统里塞。以前大家更习惯卷感知、卷规划、卷控制，现在则多了一条新主线——让无人机听得懂人话、看得懂开放世界，还能在复杂场景里做更聪明的决策。

于是'大模型 + 无人机'这条线一下子热起来，paper 也肉眼可见地密集。这期我们干脆做一个盘点，把近期有代表性的研究集中列出来，给大家一张'现在到底在做什么'的地图，方便各位读者按方向继续深挖。

这次盘点选到的几篇论文，主要是为了把'大模型怎么和无人机结合'这件事讲清楚，所以我们更关注它们展示的思路和系统做法，而不是追求把所有相关工作一网打尽。受限于篇幅和检索范围，这份清单难免有遗漏，也不代表我们认为'没被选到的就不重要'，更不等同于任何形式的排名或好坏评价。

来自浙江大学微分智飞团队提出的 VLA-AN，核心是把'视觉 - 语言 - 动作（VLA）'这套大模型能力，真正塞进一台资源紧张的无人机里，让它在复杂环境里闭环自主导航，而不是停留在'能看懂、能说对，但飞不稳/跑不动'的阶段。

它的核心思路是：大模型负责理解与推理（看场景、对齐语言、做长期决策），但动作输出不完全交给生成式策略，而是加了一套轻量实时的动作模块，并用几何层面的安全校正把'可能很聪明但偶尔乱来'的生成动作拉回可执行、可避障的范围。为了让大模型不被真实飞行数据稀缺卡死，他们还用 3D Gaussian Splatting（3D-GS）构建高保真数据来补齐'仿真/数据域差'，再用一个三阶段渐进训练，从'看懂场景'到'掌握飞行基础技能'再到'长时序复杂导航'，一步步把能力堆上去。最终在机载算力受限条件下，仍能做到 2–3 Hz 的实时推理，把 VLA 做成可落地的航行系统。

相关论文：arxiv.org/pdf/2512.15258

南方科技大学周博宇团队的 AirHunt 解决的是'大模型无人机落地'里最典型、也最致命的矛盾：VLM 很慢，飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器，而不是实时控制器，并用一个能持续读写的 3D 语义 - 几何记忆（3D value map）把'慢推理'变成'可持续利用的语义势场'。

具体做法是一个双通路异步架构：推理通路（低频）由 VLM 根据语言指令提取语义先验，异步写入并更新 3D value map；规划通路（高频）路径规划器以高频持续运行，实时从这个 value map'取语义'，生成连续轨迹。这样两边都能按各自的天然频率工作，不会互相卡住，还能做到'飞行不中断、语义引导会随运动逐步演化'。为了进一步省掉不必要的 VLM 调用，AirHunt 还做了一个主动双任务推理模块，利用几何与语义的冗余关系进行选择性查询；同时在规划层引入语义 - 几何一致的统一优化，在不同环境异质性下动态平衡'语义优先级'和'运动效率'。

近半年无人机与大模型结合的 8 项硬核研究

VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

更多推荐文章

相关免费在线工具

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Chat with UAV – Human-UAV Interaction Based on Large Language Models

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

总结

更多推荐文章

相关免费在线工具

近半年无人机与大模型结合的 8 项硬核研究

VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Chat with UAV – Human-UAV Interaction Based on Large Language Models

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具