近期,'大模型 + 无人机'成为热门研究方向。越来越多工作将大模型能力融入无人机系统,使其具备理解自然语言、感知开放世界及复杂场景决策的能力。以下盘点近期具有代表性的 8 项研究,展示大模型与无人机结合的思路与系统实践。
VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

机构:浙江大学,微分智飞
主要内容:这篇工作提出 VLA-AN,把'视觉 - 语言 - 动作(VLA)'这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在'能看懂、能说对,但飞不稳/跑不动'的阶段。
它的核心思路是:大模型负责理解与推理(看场景、对齐语言、做长期决策),但动作输出不完全交给生成式策略,而是加了一套轻量实时的动作模块,并用几何层面的安全校正把'可能很聪明但偶尔乱来'的生成动作拉回可执行、可避障的范围。
为了让大模型不被真实飞行数据稀缺卡死,他们还用 3D Gaussian Splatting(3D-GS)构建高保真数据来补齐'仿真/数据域差',再用一个三阶段渐进训练,从'看懂场景'到'掌握飞行基础技能'再到'长时序复杂导航',一步步把能力堆上去。最终在机载算力受限条件下,仍能做到 2–3 Hz 的实时推理,把 VLA 做成可落地的航行系统。
参考链接:https://arxiv.org/pdf/2512.15258
AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

机构:南方科技大学(周博宇团队)
主要内容:这篇 AirHunt 解决的是'大模型无人机落地'里最典型、也最致命的矛盾:VLM 很慢,飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器,而不是实时控制器,并用一个能持续读写的 3D 语义 - 几何记忆(3D value map)把'慢推理'变成'可持续利用的语义势场'。具体做法是一个双通路异步架构:
- 推理通路(低频):VLM 根据语言指令提取语义先验,异步写入并更新 3D value map;
- 规划通路(高频):路径规划器以高频持续运行,实时从这个 value map'取语义',生成连续轨迹。
这样两边都能按各自的天然频率工作,不会互相卡住,还能做到'飞行不中断、语义引导会随运动逐步演化'。为了进一步省掉不必要的 VLM 调用,AirHunt 还做了一个主动双任务推理模块,利用几何与语义的冗余关系进行选择性查询;同时在规划层引入语义 - 几何一致的统一优化,在不同环境异质性下动态平衡'语义优先级'和'运动效率'。
参考链接:https://arxiv.org/pdf/2601.12742








