跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

Ground Slow, Move Fast: Dual-System Foundation Model for VLN | 极客日志

编程语言AI算法

Ground Slow, Move Fast: Dual-System Foundation Model for VLN

一种名为 DualVLN 的双系统基础模型，旨在解决现有视觉语言导航（VLN）框架中端到端范式导致的计算延迟、轨迹碎片化及动态环境适应性差等痛点。该架构借鉴认知心理学双系统理论，将任务解耦为负责宏观规划的 System 2（慢速 VLM 像素目标锚定）和负责微观执行的 System 1（快速扩散策略）。通过解耦训练保护了 VLM 的泛化能力，并提出了包含动态行人交互的 Social-VLN 基准。实验表明，该模型在仿真和真实世界部署中均达到 SOTA 水平，展现了优异的实时自适应能力和可解释性。

DotNetGuy发布于 2026/4/6更新于 2026/7/758 浏览

Ground Slow, Move Fast: Dual-System Foundation Model for VLN

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN

摘要

现有 VLN 框架存在端到端范式局限、物理表现劣势及动态环境适应性差等问题。本文提出 DualVLN 双系统架构，借鉴认知心理学双系统理论，将导航任务解耦为'高层认知理解'与'低层物理执行'，实现了宏观规划与微观控制的分离。

1. INTRODUCTION

1.1 现有端到端 VLN 架构的本质缺陷

计算与控制的失配：现有方法让庞大的 VLM 直接输出高频的底层控制指令，大模型推理耗时极高，导致机器人动作产生严重延迟。
执行轨迹碎片化：直接输出短视距的离散动作（如每次移动 0.25 米），使得物理运动不够平滑，缺乏连贯性。
层级耦合导致决策僵化：认知推理、全局路线规划和局部避障被混杂在单一网络中，无法应对突发动态障碍物。

1.2 DualVLN 双系统架构

系统 2（慢系统）：采用大型基础 VLM，负责'看和想'。其输出是显式的中间像素目标，为整个导航提供阶段性的宏观指引。
系统 1（快系统）：采用轻量级扩散策略模型，高频运行，接收系统 2 的指引，将其转化为连续平滑的物理移动轨迹，专门负责动态避障与精准执行。

1.3 解耦顺序训练

保护 VLM 知识不被遗忘：通过冻结系统 2 的权重，规避灾难性遗忘。
数据需求差异化：系统 2 利用海量跨领域推理数据；系统 1 专注于小规模高精度局部运动数据。
异步运行优势：系统 1 独立接收高频相机图像并快速推理，极大提升了控制频率。

1.4 显隐式双目标引导机制

显式像素目标：系统 2 直接在图像上标出目标点，保证规划过程的可解释性。
隐式潜在目标：通过可学习的潜在查询从 VLM 深层网络提取丰富的隐语义特征，使系统 1 不仅知道去哪，还能感知周围环境的语义细节。

1.5 实验验证与基准创新

双域验证：在连续仿真环境（VLN-CE）和物理写实环境（VLN-PE）中均达 SOTA，并在跨平台实机部署中证实了有效性。
提出 Social-VLN：针对现有基准缺乏动态行人干扰的问题，首创了测试机器人在遭遇移动人类时的社会意识及任务恢复能力的基准。

2. RELATED WORK

2.1 Vision-Language-Action Model for Navigation

Text-based Actions：高维度的语义预测难以直接转化为平滑的底层连续物理运动。
Pixel Grounding：缺乏执行能力，必须外挂传统导航模块。
End-to-End Trajectories：同步框架下大模型的高延迟限制了高频决策能力。
Existing Dual-systems：大多局限于桌面级机械臂操作，无法处理长视距规划。
DualVLN 的突破定位：首个异步双系统架构，针对长视距指令跟随、精确路径规划及未见环境中的导航任务设计。

2.2 Visual Navigation Policy Learning

传统模块化方法：依赖显式建图和定位，易产生累计误差且调优繁复。

端到端学习策略：基于深度学习的导航策略成为主流，分为泛化分支和迁移分支。

DualVLN 系统 1 的定位：纯 RGB 视觉输入的导航策略网络，以 VLM 输出的潜在隐式目标作为条件触发并引导。

3. METHOD

3.1 Overview

系统 2：基于 VLM 的规划器，通过在图像像素空间中预测中期路点进行全局规划，提供空间锚定的目标。
系统 1：多模态目标条件化的扩散策略，以当前观测和来自系统 2 的异步潜在特征为条件生成连续轨迹，实现鲁棒的实时控制。

文章配图

3.2 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT

3.2.1 Farthest Pixel Goal Grounding

基座模型：Qwen-VL-2.5。将高层规划建模为最远像素目标锚定问题。
流程：输入多帧视觉 + 文本，输出 2D 像素坐标。训练样本通过将智能体的 3D 轨迹投影到 2D 的第一人称观测图像上获得，并利用深度图识别可见区域。

3.2.2 Self-Directed View Adjustment

系统 2 自主决定何时扫描环境并调整相机角度（如左/右转 15°），在预测下一个像素目标之前主动寻找信息丰富的视角，解决高度视角差和 FOV 限制问题。

3.3 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING

3.3.1 Latent Goal Representation

系统 2 内部隐藏层状态编码了丰富的多模态上下文信息 $X$。附加一组可学习的潜在查询 $Z$，通过 prompt tuning 更新，从 $X$ 中提取与任务相关的语义信息，生成中间潜在目标表征 $Z'$。

3.3.2 Multi-Modal Conditioning Diffusion Transformer

系统 1: DiT：生成平滑的轨迹（32 个密集的路径点）。输入包括来自系统 2 的低频轨迹潜在特征 $Z'$ 和高频的 RGB 输入。
异步推理处理：在时间 $t+k$，系统 1 需解释时间 $t$ 生成的过时潜在目标，估计已行驶距离并适应动态变化。融合两个时间步的特征，并通过 Q-Former 压缩为 32 个 token。

3.3.3 Flow Matching

给定真实轨迹路点 $X_0$ 和两个条件信号（轨迹潜在特征 $Z'$ 和融合 RGB token $F$）。
加噪轨迹定义为：$X_u = \alpha_u X_0 + \sigma_u \epsilon$。
DiT 被训练用于预测时间步 $u$ 时轨迹的速度 $\dot{X}_u$，该预测以 $Z'$ 和 $F$ 为条件。
训练目标是最小化预测速度与真实速度之间的均方误差：$\mathcal{L}{\text{flow}} = \mathbb{E}{u, X_0, \epsilon} [| \hat{\dot{X}}_u - \dot{X}_u |_2^2]$。

3.4 IMPLEMENTATION DETAILS

系统 2 的训练配置：采用 7B 参数的 QwenVL-2.5，沿用 StreamVLN 的数据配方，进行 1 个 Epoch 的全参数微调。
系统 1 的网络结构：设定 4 个可学习的潜在查询，维度从 3584 线性投影至 768。视觉编码器采用 DepthAnythingV2-Small 的 ViT 骨干。DiT 包含 12 个 Transformer 层、384 隐藏层维度及 6 个注意力头。

4. SOCIAL VISION-AND-LANGUAGE NAVIGATION BENCHMARK

4.1 研究动机

打破静态环境的局限：传统 VLN-CE 基准缺乏对动态障碍物（如走动的人）的模拟。真实环境中机器人需具备社会意识（避让行人）及轨迹恢复能力。

4.2 Benchmark Curation

技术底座：建立在经典的 R2R-CE 静态数据集之上，利用 Habitat 3.0 仿真器引入逼真的动态人形智能体。
策略性放置：将行人放置在导航的标准轨迹上，增加交互概率，同时确保通道未被完全堵死。

4.3 Metrics

引入人类碰撞率（Human Collision Rate, HCR），量化机器人与动态行人发生不安全交互的失败次数，评估任务完成度与安全意识。

4.4 Training Data Collection

开发自动化数据生成流水线采集动态避障专家轨迹。当画面中行人掩码占比超过阈值时触发避障逻辑，调用修改版 A* 算法重新规划无碰撞安全绕行轨迹。
在 60 个 MP3D 室内场景中，自动生成高达 76.3 万个包含社会导航交互的回合数据。

5. EXPERIMENTS

5.1 SIMULATION EXPERIMENTS

文章配图

5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS

文章配图

5.3 ABLATION STUDY

目录

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable VLN
摘要
1. INTRODUCTION
1.1 现有端到端 VLN 架构的本质缺陷
1.2 DualVLN 双系统架构
1.3 解耦顺序训练
1.4 显隐式双目标引导机制
1.5 实验验证与基准创新
2. RELATED WORK
2.1 Vision-Language-Action Model for Navigation
2.2 Visual Navigation Policy Learning
3. METHOD
3.1 Overview
3.2 SYSTEM 2: VLM-BASED PIXEL-GOAL GROUNDING WITH SELF-DIRECTED VIEW ADJUSTMENT
3.2.1 Farthest Pixel Goal Grounding
3.2.2 Self-Directed View Adjustment
3.3 SYSTEM 1: A DIFFUSION TRANSFORMER POLICY WITH MULTIMODAL CONDITIONING
3.3.1 Latent Goal Representation
3.3.2 Multi-Modal Conditioning Diffusion Transformer
3.3.3 Flow Matching
3.4 IMPLEMENTATION DETAILS
4. SOCIAL VISION-AND-LANGUAGE NAVIGATION BENCHMARK
4.1 研究动机
4.2 Benchmark Curation
4.3 Metrics
4.4 Training Data Collection
5. EXPERIMENTS
5.1 SIMULATION EXPERIMENTS
5.2 REAL-WORLD CROSS-EMBODIMENT EXPERIMENTS
5.3 ABLATION STUDY

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Linux 互斥锁详解：临界区保护与多线程协作
Stable Diffusion UnCLIP 2.1 技术解析与实操指南
Web 服务与 I/O 模型详解及 Nginx 实战
国外社区热议 Vue 3 新 API 及版本命名争议
GESP 2025 年 12 月 C++ 六级真题解析（单选 8-15 题）
C++ STL 优先队列（priority_queue）原理与模拟实现
基于 UDP 的手机通话语音局域网传输与 AI 处理 Python 脚本
本地知识库部署：FastGPT 与 Dify 对接 Ollama 指南
C++ UTF-8 编码字符使用指南：基础与非 UTF-8 文件适配
C++ 自定义日志库设计与实现
LeetCode 712. 两个字符串的最小 ASCII 删除和：状态压缩优化
KrLongAI 旗博士：本地部署 AI 数字人口播视频自动化工程
ormpp：现代 C++ ORM 库的数据库操作指南
Python 学习历程与应用场景：从爬虫到数据分析实战
Seedance 2.0 提示词完全指南：从入门到精通
反无人机技术原理与反制手段
Transformer 模型架构详解与核心原理
分隔链表算法详解：双虚拟头节点拆解合并法
Qt C++ QRegularExpression 正则表达式使用详解
时序数据库（TSDB）全面解析：概念、架构、选型与工业物联网实践

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online