Qwen2.5-VL 多模态模型 LoRA 微调实战:LLaMA-Factory WebUI 指南
本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面,对开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大的一站式大模型微调平台,集成了多种主流微调方法,通过简洁的 WebUI 和命令行工具,极大地降低了个人或小型团队进行模型训练的门槛。
1. 环境搭建
1.1 安装 LLaMA-Factory
首先,克隆项目并搭建一个干净的 Python 虚拟环境。
# 1. 克隆项目仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 2. 创建并激活 Conda 虚拟环境
conda create -n llama_factory python=3.10
conda activate llama_factory
# 3. 安装核心依赖
pip install -e .[torch,metrics]
1.2 验证安装
安装完成后,可以通过命令行工具检查版本以确认环境就绪。
llamafactory-cli version
如果终端显示欢迎信息和版本号,说明环境已准备妥当。
2. 数据集准备与配置
2.1 数据集结构
对于多模态任务,LLaMA-Factory 需要特定的文件结构。建议参考以下目录布局:
pokemon_sharegpt/
├── dataset_info.json # 数据集配置文件
├── images/ # 存放所有图片的文件夹
│ ├── pokemon_0001.png
│ └── ...
└── pokemon_sharegpt.json # ShareGPT 格式的图文对话数据
2.2 数据格式
数据文件是一个 JSON 列表,每个元素代表一轮或多轮对话。图像通过特殊占位符 <image> 插入,并通过 images 字段关联。
[
{
"conversations": [
{"from": "human", "value": "详细描述一下这只宝可梦。<image>"},
{"from":




