Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN
摘要
现有 VLN 框架存在端到端范式局限、物理表现劣势及动态环境适应性差等问题。本文提出 DualVLN 双系统架构,借鉴认知心理学双系统理论,将导航任务解耦为'高层认知理解'与'低层物理执行',实现了宏观规划与微观控制的分离。
1. INTRODUCTION
1.1 现有端到端 VLN 架构的本质缺陷
- 计算与控制的失配:现有方法让庞大的 VLM 直接输出高频的底层控制指令,大模型推理耗时极高,导致机器人动作产生严重延迟。
- 执行轨迹碎片化:直接输出短视距的离散动作(如每次移动 0.25 米),使得物理运动不够平滑,缺乏连贯性。
- 层级耦合导致决策僵化:认知推理、全局路线规划和局部避障被混杂在单一网络中,无法应对突发动态障碍物。
1.2 DualVLN 双系统架构
- 系统 2(慢系统):采用大型基础 VLM,负责'看和想'。其输出是显式的中间像素目标,为整个导航提供阶段性的宏观指引。
- 系统 1(快系统):采用轻量级扩散策略模型,高频运行,接收系统 2 的指引,将其转化为连续平滑的物理移动轨迹,专门负责动态避障与精准执行。
1.3 解耦顺序训练
- 保护 VLM 知识不被遗忘:通过冻结系统 2 的权重,规避灾难性遗忘。
- 数据需求差异化:系统 2 利用海量跨领域推理数据;系统 1 专注于小规模高精度局部运动数据。
- 异步运行优势:系统 1 独立接收高频相机图像并快速推理,极大提升了控制频率。
1.4 显隐式双目标引导机制
- 显式像素目标:系统 2 直接在图像上标出目标点,保证规划过程的可解释性。
- 隐式潜在目标:通过可学习的潜在查询从 VLM 深层网络提取丰富的隐语义特征,使系统 1 不仅知道去哪,还能感知周围环境的语义细节。
1.5 实验验证与基准创新
- 双域验证:在连续仿真环境(VLN-CE)和物理写实环境(VLN-PE)中均达 SOTA,并在跨平台实机部署中证实了有效性。
- 提出 Social-VLN:针对现有基准缺乏动态行人干扰的问题,首创了测试机器人在遭遇移动人类时的社会意识及任务恢复能力的基准。
2. RELATED WORK
2.1 Vision-Language-Action Model for Navigation
- Text-based Actions:高维度的语义预测难以直接转化为平滑的底层连续物理运动。
- Pixel Grounding:缺乏执行能力,必须外挂传统导航模块。
- End-to-End Trajectories:同步框架下大模型的高延迟限制了高频决策能力。
- Existing Dual-systems:大多局限于桌面级机械臂操作,无法处理长视距规划。
- DualVLN 的突破定位:首个异步双系统架构,针对长视距指令跟随、精确路径规划及未见环境中的导航任务设计。
2.2 Visual Navigation Policy Learning
- 传统模块化方法:依赖显式建图和定位,易产生累计误差且调优繁复。





