StreamVLN 通过在线、多轮对话的方式,输入连续视频,输出动作序列。
通过结合语言指令、视觉观测和空间位姿信息,驱动模型生成导航动作(前进、左转、右转、停止)。
论文地址:StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
代码地址:https://github.com/OpenRobotLab/StreamVLN
下面是示例效果:

1、创建 Conda 环境
首先创建一个 Conda 环境,名字为 streamvln,python 版本为 3.9;
然后进入 streamvln 环境,执行下面命令:
conda create -n streamvln python=3.9
conda activate streamvln
2、安装 habitat 仿真环境
先安装 habitat-sim,执行下面命令进行安装
conda install habitat-sim==0.2.4 withbullet headless -c conda-forge -c aihabitat
再安装 habitat-lab,
git clone --branch v0.2.4 https://github.com/facebookresearch/habitat-lab.git
cd habitat-lab
pip install -e habitat-lab # install habitat_lab
pip install -e habitat-baselines # install habitat_baselines
3、安装第三方的依赖库
获取 StreamVLN 的代码
git clone https://github.com/OpenRobotLab/StreamVLN.git
cd StreamVLN
安装其他依赖库:
pip install -r requirements.txt
2025/7/23 补丁安装:,需要安装 protobuf==3.20.1
pip install protobuf==3.20.









