1. 引言
本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面,对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台,它集成了多种主流的微调方法(如 LoRA、QLoRA、全量微调等),并通过简洁的 WebUI 和命令行工具,极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例,一步步带您完成从环境搭建到模型评估的全过程。
1.1 为什么选择 Qwen2.5-VL-3B-Instruct?
- 参数量适中:3B(30 亿)参数量,对消费级显卡友好,显存占用较低。
- 多模态能力强:原生支持图像和文本的深度理解,能处理复杂的图文交互任务。
- 中文支持优秀:阿里通义千问系列对中文的优化使其在国内场景中表现出色。
- 开源且可商用:模型权重开源,允许商业用途,社区活跃,生态丰富。
1.2 环境要求
经过验证,以下是稳定运行所需的配置:
- GPU:至少 16GB 显存。推荐使用 24GB 或更高显存的显卡(如 RTX 3090/4090)以获得更佳的训练体验(例如更大的批量大小)。
- Python 版本:
3.10或3.11。官方推荐3.10,本教程也将基于此版本。 - CUDA 版本:
11.8或更高版本。这是 PyTorch 2.x 所推荐的稳定版本。
2. 环境搭建
2.1 安装 LLaMA-Factory
首先,我们克隆项目并搭建一个干净的 Python 虚拟环境。
# 1. 克隆项目仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 2. 创建并激活 Conda 虚拟环境
conda create -n llama_factory python=3.10
conda activate llama_factory
# 3. 安装核心依赖
# LLaMA-Factory 提供了便捷的安装指令,包含 torch 和评估指标库
pip install -e .[torch,metrics]
2.2 验证安装
安装完成后,可以通过命令行工具检查版本以确认安装成功。
llamafactory-cli version
如果终端显示欢迎信息和版本号(如 Welcome to LLaMA Factory, version 0.9.x),则说明环境已准备就绪。
3. 数据集准备与配置
3.1 数据集结构
对于多模态任务,LLaMA-Factory 需要特定的文件结构。
pokemon_sharegpt/
├── dataset_info.json # 数据集配置文件,告诉 LLaMA-Factory 如何解析数据
├── images/ # 存放所有图片的文件夹
│ ├── pokemon_0001.png
│ ├── pokemon_0002.png
│ └── ...
└── pokemon_sharegpt.json # ShareGPT 格式的图文对话数据


