Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程

Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程。内容涵盖环境搭建、数据集准备、WebUI 训练参数配置、训练监控及故障排除。通过宝可梦图文数据集示例，提供从启动服务到模型评估对话测试的完整流程，帮助开发者在消费级显卡上完成多模态大模型的定制化训练。

蜜桃汽水发布于 2025/9/18更新于 2026/6/323 浏览

1. 引言

本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面，对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台，它集成了多种主流的微调方法（如 LoRA、QLoRA、全量微调等），并通过简洁的 WebUI 和命令行工具，极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例，一步步带您完成从环境搭建到模型评估的全过程。

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

参数量适中：3B（30 亿）参数量，对消费级显卡友好，显存占用较低。
多模态能力强：原生支持图像和文本的深度理解，能处理复杂的图文交互任务。
中文支持优秀：阿里通义千问系列对中文的优化使其在国内场景中表现出色。
开源且可商用：模型权重开源，允许商业用途，社区活跃，生态丰富。

1.2 环境要求

经过验证，以下是稳定运行所需的配置：

GPU：至少 16GB 显存。推荐使用 24GB 或更高显存的显卡（如 RTX 3090/4090）以获得更佳的训练体验（例如更大的批量大小）。
Python 版本：3.10 或 3.11。官方推荐 3.10，本教程也将基于此版本。
CUDA 版本：11.8 或更高版本。这是 PyTorch 2.x 所推荐的稳定版本。

2. 环境搭建

2.1 安装 LLaMA-Factory

首先，我们克隆项目并搭建一个干净的 Python 虚拟环境。

# 1. 克隆项目仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 2. 创建并激活 Conda 虚拟环境
conda create -n llama_factory python=3.10
conda activate llama_factory

# 3. 安装核心依赖
# LLaMA-Factory 提供了便捷的安装指令，包含 torch 和评估指标库
pip install -e .[torch,metrics]

2.2 验证安装

安装完成后，可以通过命令行工具检查版本以确认安装成功。

llamafactory-cli version

如果终端显示欢迎信息和版本号（如 Welcome to LLaMA Factory, version 0.9.x），则说明环境已准备就绪。

3. 数据集准备与配置

3.1 数据集结构

对于多模态任务，LLaMA-Factory 需要特定的文件结构。

pokemon_sharegpt/
├── dataset_info.json # 数据集配置文件，告诉 LLaMA-Factory 如何解析数据
├── images/ # 存放所有图片的文件夹
│   ├── pokemon_0001.png
│   ├── pokemon_0002.png
│   └── ...
└── pokemon_sharegpt.json # ShareGPT 格式的图文对话数据

3.2 数据格式

1. 引言

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

参数量适中：3B（30 亿）参数量，对消费级显卡友好，显存占用较低。
多模态能力强：原生支持图像和文本的深度理解，能处理复杂的图文交互任务。
中文支持优秀：阿里通义千问系列对中文的优化使其在国内场景中表现出色。
开源且可商用：模型权重开源，允许商业用途，社区活跃，生态丰富。

1.2 环境要求

经过验证，以下是稳定运行所需的配置：

GPU：至少 16GB 显存。推荐使用 24GB 或更高显存的显卡（如 RTX 3090/4090）以获得更佳的训练体验（例如更大的批量大小）。
Python 版本：3.10 或 3.11。官方推荐 3.10，本教程也将基于此版本。
CUDA 版本：11.8 或更高版本。这是 PyTorch 2.x 所推荐的稳定版本。

2. 环境搭建

2.1 安装 LLaMA-Factory

首先，我们克隆项目并搭建一个干净的 Python 虚拟环境。

# 1. 克隆项目仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 2. 创建并激活 Conda 虚拟环境
conda create -n llama_factory python=3.10
conda activate llama_factory

# 3. 安装核心依赖
# LLaMA-Factory 提供了便捷的安装指令，包含 torch 和评估指标库
pip install -e .[torch,metrics]

2.2 验证安装

安装完成后，可以通过命令行工具检查版本以确认安装成功。

llamafactory-cli version

如果终端显示欢迎信息和版本号（如 Welcome to LLaMA Factory, version 0.9.x），则说明环境已准备就绪。

3. 数据集准备与配置

3.1 数据集结构

对于多模态任务，LLaMA-Factory 需要特定的文件结构。

pokemon_sharegpt/
├── dataset_info.json # 数据集配置文件，告诉 LLaMA-Factory 如何解析数据
├── images/ # 存放所有图片的文件夹
│   ├── pokemon_0001.png
│   ├── pokemon_0002.png
│   └── ...
└── pokemon_sharegpt.json # ShareGPT 格式的图文对话数据

3.2 数据格式

参数	推荐值	说明
语言	`zh`	将界面切换为中文，方便操作。
模型名称	`Qwen/Qwen2.5-VL-3B-Instruct`	LLaMA-Factory 会自动从 HuggingFace 或 ModelScope 下载。
模型路径	默认	若已有本地模型，可填写绝对路径。
微调方法	`LoRA`	低秩适应微调，在效果和资源消耗之间取得了最佳平衡，是目前的主流选择。
量化等级	`none` (不量化)	4-bit 量化可大幅节省显存，但对模型精度有轻微影响。初次训练建议不量化。
对话模板	`qwen2_vl`	至关重要。必须与模型（Qwen2.5-VL）严格匹配，否则模型无法正确理解输入。

参数	推荐值	说明
训练阶段	`Supervised Fine-Tuning`	监督微调，适用于我们准备的'问答'式标注数据。
数据目录	`./pokemon_sharegpt`	指向您准备好的数据集文件夹。
数据集	`pokemon_multimodal`	选中我们刚才在 `dataset_info.json` 中定义的数据集名称。
截断长度	`4096`	模型能处理的最大序列长度。对于图文模型，建议不低于 2048 以确保图像编码有足够空间。
学习率	`2e-4`	这是 LoRA 微调 3B 级别模型的黄金学习率。如果 Loss 不下降可升至 `3e-4`，若震荡则降至 `1e-4`。
训练轮数	`3`	对于中小规模数据集（< 10k 条），3-5 轮通常足够。过多轮次可能导致过拟合。
批处理大小	`2`	每张 GPU 一次处理的样本数。受显存限制，24GB 显存可尝试 2-4，16GB 建议 1-2。
梯度累积	`8`	'模拟'大批量训练的技巧。`有效批量 = 批处理大小 × 梯度累积`。这里有效批量为 16，是公认的稳定值。
计算类型	`bf16`	强烈推荐。适用于新架构显卡（A100, RTX 30/40 系），数值稳定性优于 `fp16`。
学习率调节器	`cosine`	余弦退火调度器，能使学习率平滑下降，有助于模型收敛到更优的点。
验证集比例	`0.1`	从训练集中划分 10% 的数据用于验证，以监控模型是否过拟合。
输出目录	`saves/qwen25-vl-pokemon-lora`	保存 LoRA 权重、日志和训练图表的文件夹。
日志间隔	`10`	每训练 10 步在控制台和日志文件中输出一次 Loss 等信息。
保存间隔	`500`	每训练 500 步保存一次模型权重（checkpoint）。
LoRA 秩	`64`	LoRA 矩阵的维度。越大，可训练参数越多，拟合能力越强，但显存占用也越高。64 是一个很好的平衡点。
LoRA 缩放系数	`128`	通常设为 `rank` 的 2 倍，这是一个广泛验证过的有效配置。
LoRA 随机丢弃	`0.1`	在 LoRA 模块中加入 Dropout，能有效防止过拟合，增强模型泛化能力。
LoRA 作用模块	`all`	将 LoRA 应用于模型的所有线性层。对于初学者来说，这是最简单且效果不错的选择。

参数

推荐值

说明

训练阶段

Supervised Fine-Tuning

监督微调，适用于我们准备的'问答'式标注数据。

数据目录

./pokemon_sharegpt

指向您准备好的数据集文件夹。

数据集

pokemon_multimodal

选中我们刚才在 dataset_info.json 中定义的数据集名称。

截断长度

4096

模型能处理的最大序列长度。对于图文模型，建议不低于 2048 以确保图像编码有足够空间。

学习率

2e-4

这是 LoRA 微调 3B 级别模型的黄金学习率。如果 Loss 不下降可升至 3e-4，若震荡则降至 1e-4。

训练轮数

3

对于中小规模数据集（< 10k 条），3-5 轮通常足够。过多轮次可能导致过拟合。

批处理大小

2

每张 GPU 一次处理的样本数。受显存限制，24GB 显存可尝试 2-4，16GB 建议 1-2。

梯度累积

8

'模拟'大批量训练的技巧。有效批量 = 批处理大小 × 梯度累积。这里有效批量为 16，是公认的稳定值。

计算类型

bf16

强烈推荐。适用于新架构显卡（A100, RTX 30/40 系），数值稳定性优于 fp16。

学习率调节器

cosine

余弦退火调度器，能使学习率平滑下降，有助于模型收敛到更优的点。

验证集比例

0.1

从训练集中划分 10% 的数据用于验证，以监控模型是否过拟合。

输出目录

saves/qwen25-vl-pokemon-lora

保存 LoRA 权重、日志和训练图表的文件夹。

日志间隔

10

每训练 10 步在控制台和日志文件中输出一次 Loss 等信息。

保存间隔

500

每训练 500 步保存一次模型权重（checkpoint）。

LoRA 秩

64

LoRA 矩阵的维度。越大，可训练参数越多，拟合能力越强，但显存占用也越高。64 是一个很好的平衡点。

LoRA 缩放系数

128

通常设为 rank 的 2 倍，这是一个广泛验证过的有效配置。

LoRA 随机丢弃

0.1

在 LoRA 模块中加入 Dropout，能有效防止过拟合，增强模型泛化能力。

LoRA 作用模块

all

将 LoRA 应用于模型的所有线性层。对于初学者来说，这是最简单且效果不错的选择。

Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程

1. 引言

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

1.2 环境要求

2. 环境搭建

2.1 安装 LLaMA-Factory

2.2 验证安装

3. 数据集准备与配置

3.1 数据集结构

3.2 数据格式

Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程

1. 引言

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

1.2 环境要求

2. 环境搭建

2.1 安装 LLaMA-Factory

2.2 验证安装

3. 数据集准备与配置

3.1 数据集结构

3.2 数据格式

更多推荐文章

相关免费在线工具

3.3 数据集声明

4. 启动 WebUI 并配置训练

4.1 启动命令

4.2 WebUI 训练配置详解

4.3 开始训练

5. 训练过程监控与故障排除

5.1 监控关键指标

5.2 常见问题与解决方案

6. 模型评估与测试

6.1 评估

6.2 对话测试

7. 最佳实践与进阶优化

7.1 数据为王

7.2 进阶调优技巧

8. 总结

更多推荐文章

相关免费在线工具

Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程

1. 引言

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

1.2 环境要求

2. 环境搭建

2.1 安装 LLaMA-Factory

2.2 验证安装

3. 数据集准备与配置

3.1 数据集结构

3.2 数据格式

Qwen2.5-VL 多模态模型基于 LLaMA-Factory WebUI 的 LoRA 微调教程

1. 引言

1.1 为什么选择 Qwen2.5-VL-3B-Instruct？

1.2 环境要求

2. 环境搭建

2.1 安装 LLaMA-Factory

2.2 验证安装

3. 数据集准备与配置

3.1 数据集结构

3.2 数据格式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 数据集声明

4. 启动 WebUI 并配置训练

4.1 启动命令

4.2 WebUI 训练配置详解

4.3 开始训练

5. 训练过程监控与故障排除

5.1 监控关键指标

5.2 常见问题与解决方案

6. 模型评估与测试

6.1 评估

6.2 对话测试

7. 最佳实践与进阶优化

7.1 数据为王

7.2 进阶调优技巧

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具