跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

具身导航 VLN 最新论文汇总:Vision-and-Language Navigation

2023 至 2026 年具身导航(Embodied Navigation)及视觉语言导航(VLN)领域的最新研究论文,涵盖 CVPR、ICRA、RSS 等顶会。内容涉及基于分层规划、强化学习、大语言模型(LLM)、世界模型及多模态融合等多种技术路线,包括连续环境导航、零样本目标导航、跨房间导航及空中导航等任务。旨在为研究人员提供全面的文献参考与技术趋势概览。

路由之心发布于 2026/4/6更新于 2026/5/2227 浏览
具身导航 VLN 最新论文汇总:Vision-and-Language Navigation

2026

  • SeqWalker:基于分层规划的时序视野视觉语言导航方法 论文 GitHub
  • UrbanNav:从网络规模人类轨迹中学习语言引导的城市导航方法 论文 GitHub
  • VLN-MME:面向语言引导视觉导航智能体的多模态大语言模型诊断基准 论文 GitHub
  • ASCENT:实现楼层感知的零样本物体目标导航 论文 GitHub

2025

  • ETP-R1:面向连续环境 VLN 的进化拓扑规划与强化微调方法 论文 GitHub
  • NaviTrace:评估视觉语言模型在真实世界场景中的导航能力 论文 GitHub
  • AstraNav-World:面向具身导航的物理一致性世界模型 论文 GitHub
  • OneMap:面向零样本多目标导航的实时开放词汇建图方法 论文 GitHub
  • VLNVerse:面向视觉语言导航的通用化具身真实仿真与评估基准 论文 GitHub
  • Nav-R2:面向开放词汇目标导航的双关系推理框架 论文
GitHub
  • DualVLN:面向泛化视觉语言导航的双系统基础模型 论文 GitHub
  • SeeNav-Agent:基于视觉提示与步级策略优化 RL 微调的 VLN 论文 GitHub
  • NeuPAN:基于端到端模型化学习的机器人直接点位导航方法 论文 GitHub
  • i2Nav-Robot:面向多传感器融合导航与建图的大规模室内外机器人数据集 论文 GitHub
  • CE-Nav:基于流引导强化学习的跨实体局部导航优化 论文 GitHub
  • VLN-R1:使用大型视觉语言模型 LVLM,结合微调和强化训练,实现连续环境导航 论文 GitHub
  • StreamVLN:连续导航,通过在线、多轮对话的方式,输入连续视频,输出动作序列 论文 GitHub
  • REGNav:'先学房间风格,再学导航决策'的分层思路,解决跨房间导航的视觉关联难题 论文 GitHub
  • ForesightNav:基于场景想象的探索策略,用于机器人在未知环境中高效导航 论文 GitHub
  • DualMap:在线开放词汇制图系统,使用自然语言理解和导航动态 3D 环境 论文 GitHub
  • WMNav:将视觉语言模型集成到世界模型中以实现对象目标导航 论文 项目 GitHub
  • UniGoal:迈向通用零样本目标导向导航 论文 项目 GitHub
  • CityNavAgent:具有分层语义规划和全局记忆的空中视觉和语言导航 论文 GitHub
  • VL-Nav:基于空间推理的实时视觉语言导航 论文
  • HA-VLN:具有动态多人交互、真实世界验证和开放排行榜的离散 - 连续环境中人机感知导航基准 论文 项目 GitHub
  • FlexVLN:灵活适应多样化视觉和语言导航任务 论文
  • 3D-Mem:用于具身探索和推理的 3D 场景记忆 论文 项目 GitHub
  • EfficientEQA:一种高效的开放词汇具体化问答方法 论文
  • Learned Perceptive Forward Dynamics Model:用于安全和平台感知机器人导航的学习感知前向动力学模型 论文 GitHub
  • Semantic Mapping in Indoor Embodied AI:室内体现人工智能中的语义映射——全面综述及未来方向 论文
  • TRAVEL:用于视觉和语言导航的免训练检索与对齐 论文
  • VR-Robo:用于视觉机器人导航和运动的真实到模拟到真实的框架 论文
  • NavigateDiff:视觉预测器是零样本导航助手 论文
  • MapNav:一种通过带注释的语义图实现的新型记忆表征,用于基于 VLM 的视觉和语言导航 论文
  • OpenFly:用于空中视觉语言导航的多功能工具链和大规模基准测试 论文
  • Ground-level Viewpoint Vision-and-Language Navigation:连续环境中的地面视点视觉和语言导航 论文
  • Dynamic Path Navigation for Motion Agents with LLM Reasoning:基于 LLM 推理的运动代理动态路径导航 论文
  • SmartWay:增强型航点预测和回溯,用于零样本视觉和语言导航 论文
  • Vi-LAD:视觉语言注意力蒸馏在动态环境中实现社交感知机器人导航 论文
  • PanoGen++:面向视觉和语言导航的领域自适应文本引导全景环境生成 论文
  • Do Visual Imaginations Improve Vision-and-Language Navigation Agents?:视觉想象能改善视觉和语言导航代理吗?论文 项目
  • P3Nav:集成感知、规划和预测的体现导航统一框架 论文
  • Unseen from Seen:从所见到未见:使用基础模型重写观察 - 指令以增强视觉 - 语言导航 论文 GitHub
  • COSMO:结合选择性记忆实现低成本视觉和语言导航 论文
  • NavDP:利用特权信息引导学习模拟到现实的导航扩散策略 论文
  • VISTA:视觉和语言导航的生成视觉想象 论文
  • Dynam3D:动态分层 3D 令牌赋能 VLM 实现视觉和语言导航 论文 GitHub
  • Aux-Think:探索数据高效视觉语言导航的推理策略 论文
  • 2024

    • E2Map:基于语言模型的自反思机器人导航体验与情感地图 论文 GitHub
    • Autonomous Exploration and Semantic Updating:移动机器人对大规模室内环境的自主探索和语义更新 论文 GitHub
    • Pixel-Guided Navigation Skill:通过像素引导导航技能连接零样本目标导航和基础模型 论文 GitHub
    • InstructNav:未探索环境中通用指令导航的零样本系统 论文 GitHub
    • NaVILA:用于导航的腿式机器人视觉 - 语言 - 行动模型 论文 项目
    • ReMEmbR:用于机器人导航的长视界时空记忆构建与推理 论文 GitHub
    • Aim My Robot:对任何物体的精准局部导航 论文
    • Tag Map:基于文本的地图用于空间推理和导航与大型语言模型 论文 项目
    • MapGPT:用于视觉 - 语言导航的基于地图引导的提示与自适应路径规划 论文 GitHub
    • CANVAS:用于直观人机交互的常识感知导航系统 论文 GitHub
    • VLFM:用于零样本语义导航的视觉 - 语言前沿地图 论文 GitHub
    • Mind the Error!:检测和定位视觉 - 语言导航中的指令错误 论文 GitHub
    • Planning from Imagination:从想象中规划:用于视觉 - 语言导航的情景模拟和情景记忆 论文
    • MC-GPT:通过记忆地图和推理链增强的视觉 - 语言导航 论文
    • Continual Vision-and-Language Navigation:持续的视觉 - 语言导航 论文
    • Open-Nav:使用开源大型语言模型在连续环境中探索零样本视觉 - 语言导航 论文
    • Find Everything:查找一切:多目标搜索的通用视觉语言模型方法 论文 项目
    • NavGPT:在视觉 - 语言导航中使用大型语言模型进行显式推理 论文 GitHub
    • NavGPT-2:释放大型视觉 - 语言模型的导航推理能力 论文 GitHub
    • Lookahead Exploration:带有神经辐射表示的前瞻探索用于连续视觉 - 语言导航 论文 GitHub
    • Sim-to-Real Transfer via 3D Feature Fields:通过 3D 特征场实现视觉 - 语言导航的仿真到现实转移 论文 GitHub
    • LangNav:将语言作为导航的感知表示 论文 GitHub
    • Building Cooperative Embodied Agents Modularly:使用大型语言模型模块化构建协作具身智能体 论文 GitHub
    • Navid:基于视频的 VLM 规划视觉和语言导航的下一步 论文
    • The One RING:机器人室内导航通才 论文
    • Mobility VLA:基于长上下文 VLM 和拓扑图的多模态指令导航 论文

    2023

    • Pixel-Guided Navigation Skill:通过像素引导导航技能连接零样本对象导航和基础模型 论文
    • Frontier semantic exploration:视觉目标导航的前沿语义探索 论文 GitHub
    • GrASPE:基于图形的多模态融合,用于户外环境中的机器人导航 论文
    • LANA:用于指令跟踪和生成的语言导航器 论文 GitHub
    • Dreamwalker:持续视觉语言导航的心理规划 论文 GitHub
    • A2Nav:利用基础模型的视觉和语言能力实现动作感知零样本机器人导航 论文
    • Training-free Embodied Object Goal Navigation:基于语义前沿的无训练具体化对象目标导航 论文

    目录

    1. 2026
    2. 2025
    3. 2024
    4. 2023
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • Java 调用高德地图 SIG 签名报错 10007 解决方案
    • ClawdBot 平滑迁移至 OpenClaw:飞书 AI 助理部署实战
    • Python 批量将 Excel 图片链接转为单元格图片
    • 知识图谱基础概念详解:实体、关系与属性构建指南
    • Python 绘图工具详解:使用 Matplotlib、Seaborn 和 Pyecharts 绘制散点图
    • C++ STL list 双向链表实现与迭代器详解
    • 前端 Cookie 无法存储获取及跨域携带问题的解决方案
    • 大模型选型指南:基于 AI Ping 的 20+ 供应商与 220+ 模型性能评测
    • 9 款降低论文 AIGC 检测率的工具推荐
    • NAT 配置实战:静态、动态、NAPT 与 EasyIP 详解
    • 具身智能:机器人训练核心流程与关键技术
    • Windows 安装 OpenClaw 并配置 Qwen 及 Ollama 模型接入飞书机器人
    • Actix-web 性能优化技巧:从原理到实践
    • Java 对象属性批量复制实战:BeanUtils 使用指南
    • C++ 模板与 String 类详解
    • 搜索 C++ 引擎回归能力建设:从人工自测到工程化准出
    • C++26 反射驱动类型检查重塑代码质量
    • 算法基础:贪心算法入门 (上)
    • 生成式大模型安全评估白皮书:核心观点与技术框架解析
    • 大模型前沿:13 篇必读论文精选

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online