Ground Slow, Move Fast: Dual-System VLN

视觉语言导航（VLN）的端到端范式存在计算延迟高、运动轨迹碎片化及动态环境适应性差等痛点。提出 DualVLN 双系统架构，借鉴人类认知理论，将任务解耦为高层规划（慢系统）与底层执行（快系统）。系统 2 负责像素级目标锚定，系统 1 基于扩散策略生成平滑连续轨迹。通过解耦训练保留大模型泛化能力，并引入包含动态行人干扰的 Social-VLN 基准进行验证。实验表明该方案在仿真与实机部署中均达到 SOTA 水平，显著提升了机器人的社会意识与实时避障能力。

AiEngineer发布于 2026/3/27更新于 2026/7/2231 浏览

核心摘要

现有视觉语言导航（VLN）框架常受限于端到端范式的固有缺陷。传统方法试图用单一网络将复杂的视听输入直接转化为电机指令，导致大模型计算负荷拖慢控制频率，且输出多为短期离散动作，运动轨迹碎片化严重。面对动态环境中的突发障碍物，高延迟使得系统难以实时避障。

本文提出的 DualVLN 架构借鉴了认知心理学的人类双系统理论，将导航任务解耦为'高层认知理解'与'低层物理执行'，实现了宏观规划与微观控制的分离。

研究背景与动机

现有的端到端 VLN 架构存在本质缺陷：

计算与控制失配：庞大 VLM 直接输出高频底层指令，推理耗时极高，造成动作延迟。
执行轨迹碎片化：直接输出短视距离散动作，物理运动缺乏连贯性。
层级耦合僵化：认知、规划与避障混杂在单一网络中，无法敏捷修正突发障碍。

DualVLN 通过双系统设计解决上述问题：

系统 2（慢系统）：采用大型基础 VLM，负责'看和想'。输出显式中间像素目标，提供阶段性宏观指引。
系统 1（快系统）：采用轻量级扩散策略模型，高频运行。接收系统 2 指引，转化为连续平滑的物理移动轨迹，专注动态避障与精准执行。

这种解耦顺序训练不仅保护了 VLM 知识不被遗忘，还允许异步运行，极大提升了控制频率。

技术架构详解

系统 2：基于 VLM 的像素目标锚定

系统 2 的核心在于高层像素目标锚定与自主视角调整的结合。它在一个迭代过程中决定是调整视角还是输出像素目标。

最远像素目标锚定：基座模型选用 Qwen-VL-2.5。将高层规划建模为寻找能到达的最远有效点。训练样本通过将智能体 3D 轨迹投影到 2D 观测图像上生成，并利用深度图识别可见区域，丢弃被遮挡点。
自主视角调整：针对 3D 投影可能引发的空间误判或 FOV 限制，系统 2 自主决定何时扫描环境。使用如左/右转 15°等离散动作，主动寻找信息丰富的视角以预测下一个像素目标。

系统 1：多模态条件化的扩散策略

系统 1 是一个 DiT（Diffusion Transformer），生成平滑轨迹（32 个密集路径点）。

隐式潜在目标表征：系统 2 内部隐藏层状态编码了丰富上下文。附加一组可学习的潜在查询，从 VLM 深层网络提取隐语义特征，作为系统 1 精确生成轨迹的条件。
多模态条件融合：由于双系统异步执行，系统 1 需解释过时的潜在目标。它同时编码系统 2 最后一帧 RGB 特征及当前观测特征，通过自注意力模块融合，并压缩为 token 以保持快速推理。
流匹配训练：DiT 被训练用于预测轨迹速度向量，最小化预测速度与真实速度之间的均方误差，而非标准 DDPM 的噪声预测。