具身智能(Embodied AI)中的视觉语言导航(VLN)是连接感知与决策的关键任务。本文梳理了 2023 至 2026 年间该领域的核心论文,涵盖从传统强化学习到基于大模型的端到端导航方案。收录内容来自 CVPR、ICRA、RSS 等顶会及 arXiv,旨在帮助研究人员快速追踪最新进展。
2026 年
- SeqWalker:基于分层规划的时序视野视觉语言导航方法 论文 | 代码
- UrbanNav:从网络规模人类轨迹中学习语言引导的城市导航方法 论文 | 代码
- VLN-MME:面向语言引导视觉导航智能体的多模态大语言模型诊断基准 论文 | 代码
- ASCENT:实现楼层感知的零样本物体目标导航 论文 | 代码


