近半年无人机与大模型结合的 8 项核心研究

近期，'大模型 + 无人机'成为热门研究方向。越来越多工作将大模型能力融入无人机系统，使其具备理解自然语言、感知开放世界及复杂场景决策的能力。以下盘点近期具有代表性的 8 项研究，展示大模型与无人机结合的思路与系统实践。

机构：浙江大学，微分智飞

主要内容：这篇工作提出 VLA-AN，把'视觉 - 语言 - 动作（VLA）'这套大模型能力，真正塞进一台资源紧张的无人机里，让它在复杂环境里闭环自主导航，而不是停留在'能看懂、能说对，但飞不稳/跑不动'的阶段。

它的核心思路是：大模型负责理解与推理（看场景、对齐语言、做长期决策），但动作输出不完全交给生成式策略，而是加了一套轻量实时的动作模块，并用几何层面的安全校正把'可能很聪明但偶尔乱来'的生成动作拉回可执行、可避障的范围。

为了让大模型不被真实飞行数据稀缺卡死，他们还用 3D Gaussian Splatting（3D-GS）构建高保真数据来补齐'仿真/数据域差'，再用一个三阶段渐进训练，从'看懂场景'到'掌握飞行基础技能'再到'长时序复杂导航'，一步步把能力堆上去。最终在机载算力受限条件下，仍能做到 2–3 Hz 的实时推理，把 VLA 做成可落地的航行系统。

参考链接：https://arxiv.org/pdf/2512.15258

机构：南方科技大学（周博宇团队）

主要内容：这篇 AirHunt 解决的是'大模型无人机落地'里最典型、也最致命的矛盾：VLM 很慢，飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器，而不是实时控制器，并用一个能持续读写的 3D 语义 - 几何记忆（3D value map）把'慢推理'变成'可持续利用的语义势场'。具体做法是一个双通路异步架构：

推理通路（低频）：VLM 根据语言指令提取语义先验，异步写入并更新 3D value map；
规划通路（高频）：路径规划器以高频持续运行，实时从这个 value map'取语义'，生成连续轨迹。

这样两边都能按各自的天然频率工作，不会互相卡住，还能做到'飞行不中断、语义引导会随运动逐步演化'。为了进一步省掉不必要的 VLM 调用，AirHunt 还做了一个主动双任务推理模块，利用几何与语义的冗余关系进行选择性查询；同时在规划层引入语义 - 几何一致的统一优化，在不同环境异质性下动态平衡'语义优先级'和'运动效率'。

参考链接：https://arxiv.org/pdf/2601.12742

近半年无人机与大模型结合的 8 项核心研究

VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

更多推荐文章

相关免费在线工具

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Chat with UAV – Human-UAV Interaction Based on Large Language Models

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

总结

更多推荐文章

相关免费在线工具

近半年无人机与大模型结合的 8 项核心研究

VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Chat with UAV – Human-UAV Interaction Based on Large Language Models

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具