Ground Slow, Move Fast: 一种通用可泛化的双系统视觉 - 语言导航基础模型

摘要

现有的视觉 - 语言导航（VLN）框架主要面临三大痛点：端到端范式导致大模型计算负荷拖慢控制频率；输出离散动作造成运动轨迹碎片化且不连贯；面对动态环境时，高延迟使得系统无法实时避障。针对这些问题，本文提出了 DualVLN 架构，借鉴认知心理学中的双系统理论，将导航任务解耦为'高层认知理解'与'低层物理执行'。宏观规划大脑（System 2）负责慢速锚定，预测中期路点；微观执行小脑（System 1）负责快速移动，生成平滑轨迹。这种解耦设计不仅保护了 VLM 的泛化能力，还显著提升了系统的可解释性与真实世界鲁棒性。

引言

现有端到端 VLN 架构的本质缺陷

现有的方法往往让庞大的视觉 - 语言模型（VLM）直接输出高频的底层控制指令。这种设计存在明显的计算与控制失配：大模型的推理耗时极高，导致机器人动作产生严重延迟。同时，直接输出短视距的离散动作（如每次移动 0.25 米），使得物理运动不够平滑，缺乏连贯性。更关键的是，层级耦合导致决策僵化，认知推理、全局路线规划和局部避障被混杂在单一网络中，系统在面临突发动态障碍物时，无法做出敏捷的局部修正。

DualVLN 双系统架构

为了解决上述问题，我们引入了 DualVLN 双系统架构：

系统 2（慢系统）：采用大型基础 VLM。它不负责具体运动，只负责'看和想'。其输出是显式的中间像素目标，为整个导航提供阶段性的宏观指引。
系统 1（快系统）：采用轻量级扩散策略模型。它高频运行，接收系统 2 的指引，并将其转化为连续平滑的物理移动轨迹，专门负责动态避障与精准执行。

解耦顺序训练

若进行端到端微调，底层物理控制数据会破坏 VLM 原有的语言与视觉泛化能力。解耦训练通过冻结系统 2 的权重，完美规避了灾难性遗忘。此外，系统 2 可以利用海量的跨领域推理数据进行训练，而系统 1 只需专注于小规模、高精度的局部运动数据。异步运行优势使得系统 1 可以独立接收高频相机图像并快速推理，极大提升了控制频率。

显隐式双目标引导机制

为了保证规划过程的可解释性，系统 2 直接在图像上标出目标点（显式像素目标）。然而仅靠一个二维像素点传递的信息太少，因此本文通过可学习的潜在查询（Learnable latent queries），从 VLM 深层网络中提取出丰富的隐语义特征（隐式潜在目标）。这种机制使系统 1 不仅知道去哪，还能感知周围环境的语义细节，避免双系统退化为简单的串联模块。

方法

概述

系统 2 是一个基于 VLM 的规划器，通过在图像像素空间中预测中期路点来进行全局规划，从而提供空间锚定的目标。系统 1 是一个多模态目标条件化的扩散策略，它以当前观测和来自系统 2 的异步潜在特征为条件生成连续轨迹，从而在复杂环境中实现鲁棒的实时控制。

文章配图

System 2: 基于 VLM 的像素目标锚定与自主视角调整

系统 2 的核心模块结合了高层像素目标锚定与自主视角调整。在每个导航步，智能体观察当前的 RGB 图像帧和历史信息，决定是调整视角还是输出像素目标。

Ground Slow, Move Fast: 一种通用可泛化的双系统视觉 - 语言导航基础模型