跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

近半年无人机与大模型结合的 8 项核心研究

综述由AI生成盘点了近半年无人机与大模型结合的 8 项核心研究。涵盖视觉 - 语言 - 动作(VLA)机载导航、语义规划、三维扫描、多模态评测基准、人机交互及端边云协同等方向。研究重点在于解决大模型推理频率与飞行实时性的矛盾、数据稀缺问题及资源受限下的适配策略,旨在推动无人机向开放式智能体演进。

晚风告白发布于 2026/4/6更新于 2026/5/2331 浏览
近半年无人机与大模型结合的 8 项核心研究

近期,'大模型 + 无人机'成为热门研究方向。越来越多工作将大模型能力融入无人机系统,使其具备理解自然语言、感知开放世界及复杂场景决策的能力。以下盘点近期具有代表性的 8 项研究,展示大模型与无人机结合的思路与系统实践。

VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments

图片

机构:浙江大学,微分智飞

主要内容:这篇工作提出 VLA-AN,把'视觉 - 语言 - 动作(VLA)'这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在'能看懂、能说对,但飞不稳/跑不动'的阶段。

它的核心思路是:大模型负责理解与推理(看场景、对齐语言、做长期决策),但动作输出不完全交给生成式策略,而是加了一套轻量实时的动作模块,并用几何层面的安全校正把'可能很聪明但偶尔乱来'的生成动作拉回可执行、可避障的范围。

为了让大模型不被真实飞行数据稀缺卡死,他们还用 3D Gaussian Splatting(3D-GS)构建高保真数据来补齐'仿真/数据域差',再用一个三阶段渐进训练,从'看懂场景'到'掌握飞行基础技能'再到'长时序复杂导航',一步步把能力堆上去。最终在机载算力受限条件下,仍能做到 2–3 Hz 的实时推理,把 VLA 做成可落地的航行系统。

参考链接:https://arxiv.org/pdf/2512.15258

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

图片

机构:南方科技大学(周博宇团队)

主要内容:这篇 AirHunt 解决的是'大模型无人机落地'里最典型、也最致命的矛盾:VLM 很慢,飞行规划很快。AirHunt 的核心突破是把 VLM 的角色重新定位为高层语义生成器,而不是实时控制器,并用一个能持续读写的 3D 语义 - 几何记忆(3D value map)把'慢推理'变成'可持续利用的语义势场'。具体做法是一个双通路异步架构:

  • 推理通路(低频):VLM 根据语言指令提取语义先验,异步写入并更新 3D value map;
  • 规划通路(高频):路径规划器以高频持续运行,实时从这个 value map'取语义',生成连续轨迹。

这样两边都能按各自的天然频率工作,不会互相卡住,还能做到'飞行不中断、语义引导会随运动逐步演化'。为了进一步省掉不必要的 VLM 调用,AirHunt 还做了一个主动双任务推理模块,利用几何与语义的冗余关系进行选择性查询;同时在规划层引入语义 - 几何一致的统一优化,在不同环境异质性下动态平衡'语义优先级'和'运动效率'。

参考链接:https://arxiv.org/pdf/2601.12742

FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments

图片

机构:香港科技大学,南方科技大学

主要内容:在野外让无人机做 3D 扫描,真正难的不是'飞起来',而是'飞得像个懂事的人'。你说一句'扫那座山谷里的城堡',人类飞手会立刻找对目标、脑子里补出它没被看到的背面轮廓,然后边飞边绕开树和障碍,把该扫的地方一遍到位。现有系统往往做不到这么省心:要么依赖很重的人工先验(例如框 3D 范围、手工分割、预设飞行样式),要么在复杂几何和遮挡面前效率和完整性一起掉线。

香港科技大学沈劭劼团队、南方科技大学周博宇团队、中山大学等机构联合发布 FlyCo:把基础模型(Foundation Models)的'常识'和'语义理解'真正接进无人机系统里,形成一个感知 - 预测 - 规划的闭环,让无人机从'按模板飞'变成'边理解边推演边规划',实现仅靠文本 + 少量 2D 标注就能在未知开放环境里完成目标结构的自动三维扫描。

参考链接:https://arxiv.org/pdf/2601.07558

MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

图片

机构:清华大学,南开大学

主要内容:这篇 MM-UAVBENCH 也是'基准/评测'路线,但它盯得更准:不是泛泛测大模型会不会答题,而是专门针对低空无人机视角的那堆麻烦事,系统性评估多模态大模型(MLLM)的'通用智能'到底够不够用。

现有 MLLM benchmark 很少覆盖低空场景的独特视觉挑战(俯视、小目标、视角变化、遮挡密集、尺度极不稳定),而 UAV 相关评测又常常只测某个单点任务(定位/导航),缺少一个能同时覆盖'看懂 + 想明白 + 做决策'的统一框架。于是他们做了一个三维度评测体系,把 MLLM 在低空 UAV 场景里的能力拆成 感知(Perception)- 认知(Cognition)- 规划(Planning)三大块,并设计了 19 个子任务、5700+ 人工标注问题,全部来自真实无人机数据(公开数据集)。

这里的大模型不是直接开飞控,而是作为空中视角的通用理解与决策引擎,需要从真实航拍图中完成理解、推理、到任务规划的链路。评测结果显示:当前 16 个开源/闭源 MLLM 在低空复杂视觉与认知需求上依然吃力,作者还点名了两类关键瓶颈:空间偏置(spatial bias)和多视角/多视图理解能力不足,这两点会直接卡住 MLLM 在真实 UAV 场景里的可用性。

参考链接:https://arxiv.org/pdf/2512.23219v1

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

图片

机构:哈利法科学技术大学

主要内容:这篇 UAVBench 走的不是'再提一个更强的飞行策略',而是先给'大模型无人机'补上一把统一的标尺。现在越来越多无人机系统开始把 LLM 用在任务规划、感知解释和决策上,但大家评测各用各的场景、各写各的任务描述,缺少'物理上站得住'的标准化基准,导致很难系统比较模型到底会不会'懂飞行'。

于是他们做了两件事:一是用 taxonomy 引导的提示词让 LLM 批量生成 5 万条可验证的飞行场景,并通过多阶段安全校验把不合理、不安全、不物理的场景筛掉;二是把每个场景都编码成统一的 JSON 结构,里面包含任务目标、机型配置、环境条件,以及量化的风险标签。基于这套场景库,作者又扩展了 UAVBench_MCQ,把场景变成 5 万道多选题,覆盖从空气动力学、导航到多机协同、混合推理,甚至伦理相关的推理风格,用'可解释、可机检'的方式去测 LLM 的 UAV 专用推理能力。最后他们对 32 个主流大模型做了评测,整体结论是:在感知与策略推理上表现不错,但在伦理约束和资源受限条件下的取舍决策上仍然容易翻车。

参考链接:https://arxiv.org/pdf/2511.11252

Chat with UAV – Human-UAV Interaction Based on Large Language Models

图片

机构:浙江工商大学,英国萨塞克斯大学工程与信息学院

主要内容:这篇工作瞄准的是'让普通用户用自然语言就能指挥无人机'这件事。作者认为未来的人机交互会从工程师预设的固定流程,走向用户驱动的个性化任务设计,但现实卡点也很直白:用户说的是自然语言,无人机懂的是动作与约束,两者缺一套'共同语言',所以复杂任务经常落到'要么说不清,要么执行跑偏'。

他们的解法是把大模型'拆开用',提出一个双智能体(dual-agent)HUI 框架:

  • 一个任务规划智能体 专门负责'理解用户意图 + 生成可执行的任务步骤/子任务顺序';
  • 一个执行智能体 专门负责'把步骤落到飞行行为上',在执行过程中结合状态反馈去处理混合任务(比如既要巡航拍照又要避障、再返航)。

关键点不在'换个更大模型',而在用不同的 Prompt Engineering 把理解/规划/执行分工隔离,避免一个 LLM 又要想全局又要管细节,结果在复杂场景里容易卡在'混合任务规划与执行'上。为了验证效果,作者还搭了一个覆盖四类典型无人机应用的任务库,用三项指标量化表现,并对不同 LLM 作为控制核心的表现做了对比;用户研究显示这种分工能让交互更顺、执行更灵活,更贴近'用户想要的那种无人机'。

参考链接:https://arxiv.org/pdf/2512.08145

AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

图片

机构:华南理工大学,桂林电子科技大学

主要内容:这篇 AdaptFly 走的是'低空无人机网络'的务实路线:不是让无人机更会聊天、更会规划,而是先把一个更底层的能力做稳,语义分割。它把'自适应'从'改权重'改成'改提示(prompt)',提出一个无权重更新(weight-free)、由 prompt 驱动的 TTA 框架。也就是:分割模型本体不动,靠提示去把模型在当前环境里'拨回正轨'。并且它专门考虑网络里异构无人机的现实,设计了两种互补模式:

  • 资源受限 UAV:不做优化,只做轻量 token prompt 检索,从一个共享的全局记忆里取回'在类似天气/光照/视角下有效的提示';
  • 资源充足 UAV:用一种梯度无关的稀疏视觉 prompt 优化方法(CMA-ES 进化策略)在线搜索更合适的 prompt,但仍然不改模型权重。

系统还配了一个激活统计检测器,当检测到性能可能在掉(分布漂移信号)才触发适配;更关键的是它搞了一个跨 UAV 知识池,把各机学到的 prompt 经验汇总成'共享提示库',让整个机群协作适配,而且带宽开销很小。整体看,这篇把'大模型'用在一个非常落地的方式上:模型不动,prompt 作为可交换、可共享的适配参数,让低空网络的感知鲁棒性变得可维护、可协作。

参考链接:https://arxiv.org/pdf/2511.11720

CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models

图片

机构:中山大学,鹏城实验室

主要内容:无人机机载算力有限,很多时候只能跑'瘦身版网络',一进复杂环境就不够聪明;但把任务全扔到云端/边缘又会遇到网络延迟,决策变慢甚至失控,于是系统设计天然卡在'算力 vs 时延'的跷跷板上。CoDrone 提出一个 端 - 边 - 云协同(end-edge-cloud)的计算框架,目标是在不把无人机拖死的前提下,把 foundation model 的能力引进来,专门服务于无人机的巡航导航场景。

它把'大模型怎么用'拆成了几块非常具体的落点:

  • 机载端尽量轻:为了降低计算与传输开销,导航模型只用灰度图作为输入,先保证'能实时飞'。
  • 需要更强理解时再叫外援:当环境更复杂、需要更精细的几何感知时,系统会调用边缘端的基础模型 Depth Anything V2 做深度估计,把'重活'放到边缘算力上。
  • 把深度变成更易用的导航表示:他们提出一种一维占据栅格(1D occupancy grid)的导航方法,用更简单的表示承接深度信息,既提升理解的细粒度,又让表示更省、更适合导航决策。
  • 用 DRL 做调度与融合:核心还有一个 DRL 神经调度器,负责在不同网络条件、不同动态环境下,决定何时需要深度增强、如何把深度与导航动作决策融合起来,实现实时自适应。
  • VLM 做开放集推理的'交互层':更进一步,它引入了一个 UAV 领域的视觉语言交互模块,把'云端 foundation model / VLM 的推理结果'对接到无人机可执行的低层飞行原语上,让系统在未知场景下具备更强的开放集推理与应对能力。

参考链接:https://arxiv.org/pdf/2512.19083

总结

无人机正在从'工程师预设的自动化设备',走向'面向用户意图的开放式智能体',而大模型是推动这件事的关键语言接口与认知引擎。

但真正决定能不能落地的,不是模型能答对多少题,而是系统能不能把大模型的能力变成可持续、可实时、可安全的飞行闭环。于是我们看到越来越多'正确的姿势':用异步架构和语义记忆消化推理频率差,用结构化场景与基准把能力测准,用提示/轻量适配提升鲁棒性,用端 - 边 - 云协同把算力延迟的跷跷板压到可用范围,用双智能体或工具链把自然语言意图稳稳落到飞行原语。

下一阶段的竞争点也会更清晰:谁能在真实低空环境里长时间稳定运行,谁能把不确定性、资源约束与安全边界纳入决策,谁就更接近'把大模型真正装进无人机'这件事。

目录

  1. VLA-AN: An Efficient and Onboard Vision Language-Action Framework for Aerial Navigation in Complex Environments
  2. AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation
  3. FlyCo: Foundation Model-Empowered Drones for Autonomous 3D Structure Scanning in Open-World Environments
  4. MM-UAVBENCH: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?
  5. UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios
  6. Chat with UAV – Human-UAV Interaction Based on Large Language Models
  7. AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks
  8. CoDrone: Autonomous Drone Navigation Assisted by Edge and Cloud Foundation Models
  9. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 领域必读精选:6 部名家名作
  • cxx-qt 底层机制:实现 C++ 与 Rust 无缝通信及开发效率提升
  • 在 Windows 10/11 上使用 VMware 17 Pro 安装 macOS 官方镜像虚拟机
  • 阿里云发布通义听悟:音视频内容 AI 处理新工具评测
  • 网络安全行业现状、薪资前景及学习路径规划
  • 微信小程序 AR 开发:5 步实现增强现实应用
  • GitHub 黑客成长技术清单与安全工具资源汇总
  • 10 个 Python 自动化探索性数据分析库推荐
  • 中文类 LLaMA 大语言模型资源整理与对比
  • Python 实现 Markdown 转 Word(docx)文档转换方案
  • 前端面试高频场景题汇总
  • libgo C++ 协程库使用指南
  • One API 统一调用 ChatGLM/文心一言等 20+ 大模型
  • Rust 实战:从零构建二维码艺术生成器
  • 前缀和算法详解:连续数组与矩阵区域和
  • AIGC 时代技术创作者如何守护数字作品价值
  • 基于 Python 和 Flask 的黑龙江旅游景点数据分析系统实现
  • IsaacLab 快速搭建机器人训练环境入门指南
  • Python 入门与进阶指南:从零开始掌握核心技能
  • 数据结构——图:遍历、最小生成树与最短路径

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online