Ground Slow, Move Fast: 一种通用可泛化的双系统视觉 - 语言导航基础模型
摘要
现有的视觉 - 语言导航(VLN)框架主要面临三大痛点:端到端范式导致大模型计算负荷拖慢控制频率;输出离散动作造成运动轨迹碎片化且不连贯;面对动态环境时,高延迟使得系统无法实时避障。针对这些问题,本文提出了 DualVLN 架构,借鉴认知心理学中的双系统理论,将导航任务解耦为'高层认知理解'与'低层物理执行'。宏观规划大脑(System 2)负责慢速锚定,预测中期路点;微观执行小脑(System 1)负责快速移动,生成平滑轨迹。这种解耦设计不仅保护了 VLM 的泛化能力,还显著提升了系统的可解释性与真实世界鲁棒性。
引言
现有端到端 VLN 架构的本质缺陷
现有的方法往往让庞大的视觉 - 语言模型(VLM)直接输出高频的底层控制指令。这种设计存在明显的计算与控制失配:大模型的推理耗时极高,导致机器人动作产生严重延迟。同时,直接输出短视距的离散动作(如每次移动 0.25 米),使得物理运动不够平滑,缺乏连贯性。更关键的是,层级耦合导致决策僵化,认知推理、全局路线规划和局部避障被混杂在单一网络中,系统在面临突发动态障碍物时,无法做出敏捷的局部修正。
DualVLN 双系统架构
为了解决上述问题,我们引入了 DualVLN 双系统架构:
- 系统 2(慢系统):采用大型基础 VLM。它不负责具体运动,只负责'看和想'。其输出是显式的中间像素目标,为整个导航提供阶段性的宏观指引。
- 系统 1(快系统):采用轻量级扩散策略模型。它高频运行,接收系统 2 的指引,并将其转化为连续平滑的物理移动轨迹,专门负责动态避障与精准执行。
解耦顺序训练
若进行端到端微调,底层物理控制数据会破坏 VLM 原有的语言与视觉泛化能力。解耦训练通过冻结系统 2 的权重,完美规避了灾难性遗忘。此外,系统 2 可以利用海量的跨领域推理数据进行训练,而系统 1 只需专注于小规模、高精度的局部运动数据。异步运行优势使得系统 1 可以独立接收高频相机图像并快速推理,极大提升了控制频率。
显隐式双目标引导机制
为了保证规划过程的可解释性,系统 2 直接在图像上标出目标点(显式像素目标)。然而仅靠一个二维像素点传递的信息太少,因此本文通过可学习的潜在查询(Learnable latent queries),从 VLM 深层网络中提取出丰富的隐语义特征(隐式潜在目标)。这种机制使系统 1 不仅知道去哪,还能感知周围环境的语义细节,避免双系统退化为简单的串联模块。
相关工作
Vision-Language-Action Model for Navigation
现有研究主要分为几类:基于文本的动作预测难以转化为平滑物理运动;纯像素接地缺乏执行能力;端到端轨迹尝试映射潜在特征但受限于同步框架的高延迟。近期虽有提出'快 - 慢'推理结合的双系统架构,但大多局限于桌面级机械臂操作,无法处理长视距规划或大尺度跨空间导航。DualVLN 的突破定位在于提出了首个异步双系统架构,专门针对长视距指令跟随、精确路径规划以及未见环境中的导航任务而设计。
Visual Navigation Policy Learning
传统模块化方法高度依赖显式的环境建图和自我定位,容易产生累计误差且调优繁琐。基于深度学习的导航策略成为主流,分为泛化分支和迁移分支。本文的 System-1 汲取了上述学习策略的优势,是一个纯 RGB 视觉输入的导航策略网络,核心创新在于以 VLM 输出的潜在隐式目标作为条件触发并引导。
方法
概述
系统 2 是一个基于 VLM 的规划器,通过在图像像素空间中预测中期路点来进行全局规划,从而提供空间锚定的目标。系统 1 是一个多模态目标条件化的扩散策略,它以当前观测和来自系统 2 的异步潜在特征为条件生成连续轨迹,从而在复杂环境中实现鲁棒的实时控制。

System 2: 基于 VLM 的像素目标锚定与自主视角调整
系统 2 的核心模块结合了高层像素目标锚定与自主视角调整。在每个导航步,智能体观察当前的 RGB 图像帧和历史信息,决定是调整视角还是输出像素目标。




