核心摘要
现有视觉语言导航(VLN)框架常受限于端到端范式的固有缺陷。传统方法试图用单一网络将复杂的视听输入直接转化为电机指令,导致大模型计算负荷拖慢控制频率,且输出多为短期离散动作,运动轨迹碎片化严重。面对动态环境中的突发障碍物,高延迟使得系统难以实时避障。
本文提出的 DualVLN 架构借鉴了认知心理学的人类双系统理论,将导航任务解耦为'高层认知理解'与'低层物理执行',实现了宏观规划与微观控制的分离。
研究背景与动机
现有的端到端 VLN 架构存在本质缺陷:
- 计算与控制失配:庞大 VLM 直接输出高频底层指令,推理耗时极高,造成动作延迟。
- 执行轨迹碎片化:直接输出短视距离散动作,物理运动缺乏连贯性。
- 层级耦合僵化:认知、规划与避障混杂在单一网络中,无法敏捷修正突发障碍。
DualVLN 通过双系统设计解决上述问题:
- 系统 2(慢系统):采用大型基础 VLM,负责'看和想'。输出显式中间像素目标,提供阶段性宏观指引。
- 系统 1(快系统):采用轻量级扩散策略模型,高频运行。接收系统 2 指引,转化为连续平滑的物理移动轨迹,专注动态避障与精准执行。
这种解耦顺序训练不仅保护了 VLM 知识不被遗忘,还允许异步运行,极大提升了控制频率。
技术架构详解
系统 2:基于 VLM 的像素目标锚定
系统 2 的核心在于高层像素目标锚定与自主视角调整的结合。它在一个迭代过程中决定是调整视角还是输出像素目标。
- 最远像素目标锚定:基座模型选用 Qwen-VL-2.5。将高层规划建模为寻找能到达的最远有效点。训练样本通过将智能体 3D 轨迹投影到 2D 观测图像上生成,并利用深度图识别可见区域,丢弃被遮挡点。
- 自主视角调整:针对 3D 投影可能引发的空间误判或 FOV 限制,系统 2 自主决定何时扫描环境。使用如左/右转 15°等离散动作,主动寻找信息丰富的视角以预测下一个像素目标。
系统 1:多模态条件化的扩散策略
系统 1 是一个 DiT(Diffusion Transformer),生成平滑轨迹(32 个密集路径点)。
- 隐式潜在目标表征:系统 2 内部隐藏层状态编码了丰富上下文。附加一组可学习的潜在查询,从 VLM 深层网络提取隐语义特征,作为系统 1 精确生成轨迹的条件。
- 多模态条件融合:由于双系统异步执行,系统 1 需解释过时的潜在目标。它同时编码系统 2 最后一帧 RGB 特征及当前观测特征,通过自注意力模块融合,并压缩为 token 以保持快速推理。
- 流匹配训练:DiT 被训练用于预测轨迹速度向量,最小化预测速度与真实速度之间的均方误差,而非标准 DDPM 的噪声预测。
实验与社会意识基准
为了打破静态环境的局限,作者提出了 Social-VLN 基准。该基准在经典 R2R-CE 数据集基础上引入逼真动态人形智能体,测试机器人在遭遇移动人类时的社会意识(避让)及任务恢复能力。
- 指标设计:保留传统成功率指标,新增人类碰撞率(HCR),量化不安全交互失败次数。
- 数据生成:开发自动化流水线,当行人掩码占比超阈值时触发 A* 重规划,在 60 个 MP3D 场景中自动生成 76.3 万条包含社会导航交互的数据。
结论与成果
实验显示,DualVLN 在连续仿真环境(VLN-CE)和物理写实环境(VLN-PE)中均达到 SOTA 水平。真实世界部署证明,该架构不仅能完成复杂长程规划,还能在充满动态干扰的环境中展现极强的实时自适应能力。这种模块化设计也大幅提升了系统的可解释性,便于定位规划或执行层面的失败原因。







