
最近刷无人机相关论文,能明显感觉到一个趋势:越来越多工作开始把'大模型'当成标配往系统里塞。
以前大家更习惯卷感知、卷规划、卷控制,现在则多了一条新主线:让无人机听得懂人话、看得懂开放世界,还能在复杂场景里做更聪明的决策。于是'大模型 + 无人机'这条线一下子热起来,paper 也肉眼可见地密集。
所以这期我们干脆做一个大模型无人机盘点,把近期有代表性的研究集中列出来,给大家一张'现在到底在做什么'的地图,方便各位读者按方向继续深挖。
这次盘点选到的几篇论文,主要是为了把'大模型怎么和无人机结合'这件事讲清楚,所以我们更关注它们展示的思路和系统做法,而不是追求把所有相关工作一网打尽。受限于篇幅和检索范围,这份清单难免有遗漏,也不代表我们认为没被选到的就不重要,更不等同于任何形式的排名或好坏评价。
VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

来自浙江大学和微分智飞的研究提出了 VLA-AN,核心是把'视觉 - 语言 - 动作(VLA)'这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在'能看懂、能说对,但飞不稳/跑不动'的阶段。
它的核心思路是大模型负责理解与推理,看场景、对齐语言、做长期决策,但动作输出不完全交给生成式策略,而是加了一套轻量实时的动作模块,并用几何层面的安全校正把可能很聪明但偶尔乱来的生成动作拉回可执行、可避障的范围。
为了让大模型不被真实飞行数据稀缺卡死,他们还用 3D Gaussian Splatting 构建高保真数据来补齐仿真和数据域差,再用一个三阶段渐进训练,从看懂场景到掌握飞行基础技能再到长时序复杂导航,一步步把能力堆上去。最终在机载算力受限条件下,仍能做到 2–3 Hz 的实时推理,把 VLA 做成可落地的航行系统。
论文链接:https://arxiv.org/pdf/2512.15258
AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

南方科技大学周博宇团队的 AirHunt 解决的是大模型无人机落地里最典型、也最致命的矛盾:VLM 很慢,飞行规划很快。
AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器,而不是实时控制器,并用一个能持续读写的 3D 语义 - 几何记忆把慢推理变成可持续利用的语义势场。具体做法是一个双通路异步架构:
- 推理通路(低频):VLM 根据语言指令提取语义先验,异步写入并更新 3D value map;
- 规划通路(高频):路径规划器以高频持续运行,实时从这个 value map 取语义,生成连续轨迹。
这样两边都能按各自的天然频率工作,不会互相卡住,还能做到飞行不中断、语义引导会随运动逐步演化。为了进一步省掉不必要的 VLM 调用,AirHunt 还做了一个主动双任务推理模块,利用几何与语义的冗余关系进行选择性查询;同时在规划层引入语义 - 几何一致的统一优化,在不同环境异质性下动态平衡语义优先级和运动效率。








