跳到主要内容

首页博客 AI提示词 GitHub精选代理工具

具身导航 VLN 前沿论文综述：2023-2026 核心研究汇总 | 极客日志

编程语言AI算法

具身导航 VLN 前沿论文综述：2023-2026 核心研究汇总

具身视觉语言导航（VLN）领域的关键论文，涵盖 2023 至 2026 年的研究成果。内容涉及分层规划、世界模型、零样本导航及多模态大模型应用等方向。收录了 CVPR、ICRA、RSS 等顶会及 arXiv 上的代表性工作，提供论文链接与开源代码地址，旨在帮助研究人员快速追踪该领域最新进展与技术趋势。

心动瞬间发布于 2026/3/21更新于 2026/4/251 浏览

具身导航 VLN 前沿论文综述：2023-2026 核心研究汇总

具身智能（Embodied AI）中的视觉语言导航（VLN）是连接感知与决策的关键任务。本文梳理了 2023 至 2026 年间该领域的核心论文，涵盖从传统强化学习到基于大模型的端到端导航方案。收录内容来自 CVPR、ICRA、RSS 等顶会及 arXiv，旨在帮助研究人员快速追踪最新进展。

2026 年

SeqWalker：基于分层规划的时序视野视觉语言导航方法论文 | 代码
UrbanNav：从网络规模人类轨迹中学习语言引导的城市导航方法论文 | 代码
VLN-MME：面向语言引导视觉导航智能体的多模态大语言模型诊断基准论文 | 代码
ASCENT：实现楼层感知的零样本物体目标导航论文 | 代码

2025 年

ETP-R1：面向连续环境 VLN 的进化拓扑规划与强化微调方法论文 | 代码
NaviTrace：评估视觉语言模型在真实世界场景中的导航能力论文 | 代码
AstraNav-World：面向具身导航的物理一致性世界模型论文 | 代码
OneMap：面向零样本多目标导航的实时开放词汇建图方法论文 | 代码
VLNVerse：面向视觉语言导航的通用化具身真实仿真与评估基准论文 | 代码
：面向开放词汇目标导航的双关系推理框架 |

Nav-R2

DualVLN：面向泛化视觉语言导航的双系统基础模型论文 | 代码

SeeNav-Agent：基于视觉提示与步级策略优化 RL 微调的 VLN 论文 | 代码

NeuPAN：基于端到端模型化学习的机器人直接点位导航方法论文 | 代码

i2Nav-Robot：面向多传感器融合导航与建图的大规模室内外机器人数据集论文 | 代码

CE-Nav：基于流引导强化学习的跨实体局部导航优化论文 | 代码

VLN-R1：使用大型视觉语言模型 LVLM，结合微调和强化训练，实现连续环境导航论文 | 代码

StreamVLN：连续导航，通过在线、多轮对话的方式，输入连续视频，输出动作序列论文 | 代码

REGNav：'先学房间风格，再学导航决策'的分层思路，解决跨房间导航的视觉关联难题论文 | 代码

ForesightNav：基于场景想象的探索策略，用于机器人在未知环境中高效导航论文 | 代码

DualMap：在线开放词汇制图系统，使用自然语言理解和导航动态 3D 环境论文 | 代码

WMNav：将视觉语言模型集成到世界模型中以实现对象目标导航论文 | 项目 | 代码

UniGoal：迈向通用零样本目标导向导航论文 | 项目 | 代码

CityNavAgent：具有分层语义规划和全局记忆的空中视觉和语言导航论文 | 代码

VL-Nav：基于空间推理的实时视觉语言导航论文

HA-VLN：具有动态多人交互、真实世界验证和开放排行榜的离散 - 连续环境中人机感知导航基准论文 | 项目 | 代码

FlexVLN：灵活适应多样化视觉和语言导航任务论文

3D-Mem：用于具身探索和推理的 3D 场景记忆论文 | 项目 | 代码

EfficientEQA：一种高效的开放词汇具体化问答方法论文

安全平台感知导航模型：用于安全和平台感知机器人导航的学习感知前向动力学模型论文 | 代码

室内体现人工智能综述：室内体现人工智能中的语义映射——全面综述及未来方向论文

TRAVEL：用于视觉和语言导航的免训练检索与对齐论文

VR-Robo：用于视觉机器人导航和运动的真实到模拟到真实的框架论文

NavigateDiff：视觉预测器是零样本导航助手论文

MapNav：一种通过带注释的语义图实现的新型记忆表征，用于基于 VLM 的视觉和语言导航论文

OpenFly：用于空中视觉语言导航的多功能工具链和大规模基准测试论文

地面视点导航：连续环境中的地面视点视觉和语言导航论文

LLM 路径导航：基于 LLM 推理的运动代理动态路径导航论文

SmartWay：增强型航点预测和回溯，用于零样本视觉和语言导航论文

Vi-LAD：视觉语言注意力蒸馏在动态环境中实现社交感知机器人导航论文

PanoGen++：面向视觉和语言导航的领域自适应文本引导全景环境生成论文

视觉想象改进导航：视觉想象能改善视觉和语言导航代理吗？论文 | 项目

P3Nav：集成感知、规划和预测的体现导航统一框架论文

Seen-Unseen：从所见到未见：使用基础模型重写观察 - 指令以增强视觉 - 语言导航论文 | 代码

COSMO：结合选择性记忆实现低成本视觉和语言导航论文

NavDP：利用特权信息引导学习模拟到现实的导航扩散策略论文

VISTA：视觉和语言导航的生成视觉想象论文

Dynam3D：动态分层 3D 令牌赋能 VLM 实现视觉和语言导航论文 | 代码

Aux-Think：探索数据高效视觉语言导航的推理策略论文

2024 年

E2Map：基于语言模型的自反思机器人导航体验与情感地图论文 | 代码
AutoX-SemMap：移动机器人对大规模室内环境的自主探索和语义更新论文 | 代码
Pixel-Navigator：通过像素引导导航技能连接零样本目标导航和基础模型论文 | 代码
InstructNav：未探索环境中通用指令导航的零样本系统论文 | 代码
NaVILA：用于导航的腿式机器人视觉 - 语言 - 行动模型论文 | 项目
ReMEmbR：用于机器人导航的长视界时空记忆构建与推理论文 | 代码
Aim My Robot：对任何物体的精准局部导航论文
Tag Map：基于文本的地图用于空间推理和导航与大型语言模型论文 | 项目
MapGPT：用于视觉 - 语言导航的基于地图引导的提示与自适应路径规划论文 | 代码
CANVAS：用于直观人机交互的常识感知导航系统论文 | 代码
VLFM：用于零样本语义导航的视觉 - 语言前沿地图论文 | 代码
指令错误检测：注意错误！检测和定位视觉 - 语言导航中的指令错误论文 | 代码
情景模拟记忆：从想象中规划：用于视觉 - 语言导航的情景模拟和情景记忆论文
MC-GPT：通过记忆地图和推理链增强的视觉 - 语言导航论文
持续导航：持续的视觉 - 语言导航论文
Open-Nav：使用开源大型语言模型在连续环境中探索零样本视觉 - 语言导航论文
Find Everything：查找一切：多目标搜索的通用视觉语言模型方法论文 | 项目
NavGPT：在视觉 - 语言导航中使用大型语言模型进行显式推理论文 | 代码
NavGPT-2：释放大型视觉 - 语言模型的导航推理能力论文 | 代码
HNR-VLN：带有神经辐射表示的前瞻探索用于连续视觉 - 语言导航论文 | 代码
Sim2Real-VLN-3DFF：通过 3D 特征场实现视觉 - 语言导航的仿真到现实转移论文 | 代码
LangNav：将语言作为导航的感知表示论文 | 代码
Co-LLM-Agents：使用大型语言模型模块化构建协作具身智能体论文 | 代码
Navid：基于视频的 VLM 规划视觉和语言导航的下一步论文
The One RING：机器人室内导航通才论文
Mobility VLA：基于长上下文 VLM 和拓扑图的多模态指令导航论文

2023 年

Pixel-Guided Skill：通过像素引导导航技能连接零样本对象导航和基础模型论文
Frontier-Semantic：视觉目标导航的前沿语义探索论文 | 代码
GrASPE：基于图形的多模态融合，用于户外环境中的机器人导航论文
LANA：用于指令跟踪和生成的语言导航器论文 | 代码
Dreamwalker：持续视觉语言导航的心理规划论文 | 代码
A2Nav：利用基础模型的视觉和语言能力实现动作感知零样本机器人导航论文
Training-free Navigation：基于语义前沿的无训练具体化对象目标导航论文

目录

2026 年
2025 年
2024 年
2023 年

💰 8折买阿里云服务器限时8折了解详情

💰 8折买阿里云服务器限时8折购买
🦞 5分钟部署阿里云小龙虾了解详情
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志」，在微信中扫描左侧二维码关注。展示文案：极客日志 zeeklog

更多推荐文章

Git 代码上传 Gitee 实战指南
使用 OpenClaw 集成飞书构建专属 AI 机器人指南
Spring Cloud Sentinel 熔断降级核心原理与实战指南
变分量子分类器在医疗诊断中的 Python 实现与原理分析
GLM-5 全栈实战：从本地部署到多 Agent 架构应用
OpenClaw 结合 iMessage 私有 API 实现本地 AI 短信中枢
OpenClaw 开源桌面 Agent 部署与飞书钉钉集成实战指南
Matlab/Simulink 平台 FPGA 开发与代码生成实战
Spring Boot 微服务架构设计与实现
前端面试核心考点梳理：从基础原理到框架实战
Layui 框架下 Unity WebGL Tab 切换黑屏问题解决方案
C++ 异常处理机制：捕获、自定义与实战
JDK 23 详细安装与环境变量配置指南
OpenClaw 安装配置与多平台接入实战
基于 7 系列 FPGA 实现万兆以太网通信
System Verilog 从基础到高级验证实战指南
基于 Rokid 灵珠平台的旅游 AR 智能体搭建指南
Spring 事务管理与传播机制详解
二分算法实战：查找元素首尾位置与区间查询
二分算法实战：A-B 数对与高考志愿问题解析

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online