Video-LLaMa 本地部署流程与配置详解
项目简介
Video-LLaMA 是由 DAMO-NLP-SG 团队提出的一种多模态框架,旨在使大型语言模型(LLMs)能够理解视频中的视觉和听觉内容。该框架通过冻结的预训练视觉和音频编码器以及冻结的 LLMs 引导跨模态训练。
与以往仅处理视觉或音频信号的作品不同,Video-LLaMA 解决了两个核心挑战:
- 捕捉视觉场景中的时间变化。
- 整合视听信号。
硬件环境要求
部署 Video-LLaMA 对显存有一定要求。根据实际测试经验:
- 推荐配置: NVIDIA RTX 4090 (24GB VRAM)。
- 最低配置: 单张 24GB 显存的显卡通常即可运行基础版本。
- 注意: 如果显存不足,建议减少并发请求或降低视频分辨率,否则可能无法启动服务。
一、环境准备
1. 创建 Conda 环境
建议使用 Python 3.8 或更高版本,并创建一个独立的虚拟环境以避免依赖冲突。
conda create -n video_llama python=3.8
conda activate video_llama
2. 克隆代码仓库
直接从 GitHub 获取官方代码。
git clone https://github.com/DAMO-NLP-SG/Video-LLaMA.git
cd Video-LLaMA
3. 安装依赖包
进入项目目录后,检查 requirements.txt 文件。推荐使用国内镜像源加速下载。
# 修正原命令错误,应为 -r 而非 -i
pip install -r requirements.txt
# 如果遇到 Gradio 版本兼容性问题,可单独升级
pip install --upgrade gradio==3.37.0
二、模型文件下载与配置
运行代码前,必须下载必要的预训练模型文件。主要包含以下三部分:
1. BLIP2 预训练权重
从步骤中提到的 checkpoint 目录下载 blip2_pretrained_flant5xxl.pth。
2. 大语言模型 (LLM)
需要下载 llama-2-7b-chat-hf 和 VL_LLaMA_2_7B_Finetuned.pth。
- 来源: DAMO-NLP-SG/Video-LLaMA-2-7B-Finetuned · Hugging Face
- 注意: 这里有四个版本可选,请根据需求选择。部分旧版本可能导致回答乱码,建议使用较新的微调版本。


