基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程 | 极客日志

PythonAI算法

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

基于 XTuner 框架微调 LLaVA-Llama-3-8B 多模态模型的完整流程。内容涵盖环境配置、模型权重准备（Llama3、CLIP、Image Projector）、数据过拟合处理、QLoRA 微调启动、模型格式转换及本地推理测试。通过该教程，开发者可快速掌握多模态大模型的微调与部署方法，实现图文理解能力的自定义增强。文中还补充了显存优化策略及常见故障排查方案，适合希望深入实践多模态大模型应用的开发者参考。

dehua dong发布于 2025/2/6更新于 2026/7/2154 浏览

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

近日，XTuner 团队基于 Meta 发布了最新版多模态大模型 LLaVA-Llama-3-8B。相比 LLaVA-1.5，该模型在多个评测数据集上取得了显著提升。本文旨在提供一份详细的微调指南，帮助用户基于 Llama3-8B-Instruct 和 XTuner 预训练的 Image Projector，快速构建自己的多模态图文理解模型。

1. 环境、模型与数据准备

1.1 配置开发环境

首先，我们需要搭建 Python 运行环境。建议使用 Conda 管理虚拟环境，确保依赖版本兼容。

# 创建 conda 环境
conda create -n llama3 python=3.10 -y
conda activate llama3

# 安装 PyTorch (CUDA 12.1)
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y

接下来安装 XTuner 框架。建议克隆官方仓库并安装为可编辑模式。

cd ~
git clone -b v0.1.18 https://github.com/InternLM/XTuner.git
cd XTuner
pip install -e .

注意： 安装过程中请确保网络通畅，若遇到依赖冲突，可尝试更新 pip 或清理缓存。

1.2 模型权重准备

微调开始前，需准备以下三个核心组件的权重文件：

1.2.1 Llama3 语言模型权重

下载 Meta-Llama-3-8B-Instruct 模型。由于 HuggingFace 访问限制，国内用户可选择 OpenXLab 或其他镜像源。

cd ~
git lfs install
git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct

1.2.2 Visual Encoder 权重

LLaVA 需要视觉编码器来提取图像特征，通常使用 CLIP 模型。

cd ~
ln -s /root/new_models/openai/clip-vit-large-patch14-336 .
# 若无本地路径，可从 HuggingFace 下载
# wget https://huggingface.co/openai/clip-vit-large-patch14-336/resolve/main/pytorch_model.bin

1.2.3 Image Projector 权重

这是连接视觉编码器和语言模型的桥梁。XTuner 提供了预训练好的迭代权重。

Pretrain 阶段权重：用于后续微调的基础。
Finetune 阶段权重：已进行过初步对齐的权重。

建议从 XTuner 官方仓库获取最新权重文件，确保格式兼容性。

1.3 数据准备

为了快速验证流程，我们可以采用过拟合（Overfitting）的方式准备少量数据。XTuner 提供了脚本用于重复生成训练样本。

 ~
git  https://github.com/InternLM/tutorial -b camp2
python ~/tutorial/xtuner/llava/llava_data/repeat.py \
  -i ~/tutorial/xtuner/llava/llava_data/unique_data.json \
  -o ~/tutorial/xtuner/llava/llava_data/repeated_data.json \
  -n 200

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd ~
git clone https://github.com/InternLM/XTuner
mkdir -p ~/project/llama3-ft
cd ~/project/llama3-ft

# 启动训练命令
xtuner train configs/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py \
  --work_dir ./llava \
  --deepspeed deepspeed_zero2

# 转换 Pretrain 权重
xtuner convert pth_to_hf configs/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py \
  ~/llama3-llava-iter_2181.pth \
  ./pretrain_iter_2181_hf

# 转换 Finetune 权重
xtuner convert pth_to_hf configs/llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_lora_e1_finetune.py \
  ./llava/iter_1200.pth \
  ./finetune_iter_1200_hf

xtuner chat ~/Meta-Llama-3-8B-Instruct \
  --visual-encoder ~/clip-vit-large-patch14-336 \
  --llava ./pretrain_iter_2181_hf \
  --prompt-template llama3_chat \
  --image test_img/oph.jpg

xtuner chat ~/Meta-Llama-3-8B-Instruct \
  --visual-encoder ~/clip-vit-large-patch14-336 \
  --llava ./finetune_iter_1200_hf \
  --prompt-template llama3_chat \
  --image test_img/oph.jpg

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

1. 环境、模型与数据准备

1.1 配置开发环境

1.2 模型权重准备

1.2.1 Llama3 语言模型权重

1.2.2 Visual Encoder 权重

1.2.3 Image Projector 权重

1.3 数据准备

更多推荐文章

相关免费在线工具

2. 微调过程详解

2.1 启动训练

2.2 模型格式转换

2.3 效果体验与推理

2.3.1 测试 Pretrain 模型

2.3.2 测试 Finetune 后模型

3. 常见问题与优化建议

3.1 显存溢出 (OOM) 处理

3.2 模型性能提升

3.3 部署建议

4. 总结

更多推荐文章

相关免费在线工具

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

基于 XTuner 微调 LLaVA-Llama-3-8B 多模态模型教程

1. 环境、模型与数据准备

1.1 配置开发环境

1.2 模型权重准备

1.2.1 Llama3 语言模型权重

1.2.2 Visual Encoder 权重

1.2.3 Image Projector 权重

1.3 数据准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 微调过程详解

2.1 启动训练

2.2 模型格式转换

2.3 效果体验与推理

2.3.1 测试 Pretrain 模型

2.3.2 测试 Finetune 后模型

3. 常见问题与优化建议

3.1 显存溢出 (OOM) 处理

3.2 模型性能提升

3.3 部署建议

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具