
近期在梳理无人机与大模型结合的研究时,发现了一个明显的趋势:越来越多工作开始把'大模型'当成标配往系统里塞。以前大家更习惯卷感知、卷规划、卷控制,现在则多了一条新主线——让无人机听得懂人话、看得懂开放世界,还能在复杂场景里做更聪明的决策。
于是'大模型 + 无人机'这条线一下子热起来,paper 也肉眼可见地密集。这期我们干脆做一个盘点,把近期有代表性的研究集中列出来,给大家一张'现在到底在做什么'的地图,方便各位读者按方向继续深挖。
这次盘点选到的几篇论文,主要是为了把'大模型怎么和无人机结合'这件事讲清楚,所以我们更关注它们展示的思路和系统做法,而不是追求把所有相关工作一网打尽。受限于篇幅和检索范围,这份清单难免有遗漏,也不代表我们认为'没被选到的就不重要',更不等同于任何形式的排名或好坏评价。
VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

来自浙江大学微分智飞团队提出的 VLA-AN,核心是把'视觉 - 语言 - 动作(VLA)'这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在'能看懂、能说对,但飞不稳/跑不动'的阶段。
它的核心思路是:大模型负责理解与推理(看场景、对齐语言、做长期决策),但动作输出不完全交给生成式策略,而是加了一套轻量实时的动作模块,并用几何层面的安全校正把'可能很聪明但偶尔乱来'的生成动作拉回可执行、可避障的范围。为了让大模型不被真实飞行数据稀缺卡死,他们还用 3D Gaussian Splatting(3D-GS)构建高保真数据来补齐'仿真/数据域差',再用一个三阶段渐进训练,从'看懂场景'到'掌握飞行基础技能'再到'长时序复杂导航',一步步把能力堆上去。最终在机载算力受限条件下,仍能做到 2–3 Hz 的实时推理,把 VLA 做成可落地的航行系统。
AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

南方科技大学周博宇团队的 AirHunt 解决的是'大模型无人机落地'里最典型、也最致命的矛盾:VLM 很慢,飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器,而不是实时控制器,并用一个能持续读写的 3D 语义 - 几何记忆(3D value map)把'慢推理'变成'可持续利用的语义势场'。
具体做法是一个双通路异步架构:推理通路(低频)由 VLM 根据语言指令提取语义先验,异步写入并更新 3D value map;规划通路(高频)路径规划器以高频持续运行,实时从这个 value map'取语义',生成连续轨迹。这样两边都能按各自的天然频率工作,不会互相卡住,还能做到'飞行不中断、语义引导会随运动逐步演化'。为了进一步省掉不必要的 VLM 调用,AirHunt 还做了一个主动双任务推理模块,利用几何与语义的冗余关系进行选择性查询;同时在规划层引入语义 - 几何一致的统一优化,在不同环境异质性下动态平衡'语义优先级'和'运动效率'。








