用 LLaMA-Factory WebUI 微调 Qwen2.5-VL | 极客日志

PythonAI写作AI

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

用 LLaMA-Factory 的 WebUI 给 Qwen2.5-VL-3B-Instruct 做 LoRA 微调时，关键是先把环境、数据格式和对话模板对齐，再进入训练配置。文章给出了 Conda 安装、dataset_info.json 与 ShareGPT 多模态数据结构、WebUI 里的推荐参数，以及训练中常见的 OOM、Loss 不下降和速度慢等处理办法。最后通过 Evaluate 和 Chat 页签验证效果，并强调数据质量、模板匹配和适度调参比盲目加大训练规模更重要。

不羁发布于 2026/6/300 浏览

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

这次我把流程收窄到一件事：用 LLaMA-Factory 的 WebUI，给 Qwen/Qwen2.5-VL-3B-Instruct 做一次 LoRA 微调。它的好处不在'高级'，而在于省掉很多手写配置的来回折腾，适合先把多模态训练跑通，再慢慢调细节。

环境搭建

先拉代码、建虚拟环境、装依赖。

# 1. 克隆项目仓库
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 2. 创建并激活 Conda 虚拟环境
conda create -n llama_factory python=3.10
conda activate llama_factory

# 3. 安装核心依赖
pip install -e .[torch,metrics]

装完后跑一条版本命令，确认 CLI 能正常起来。

llamafactory-cli version

如果终端能看到版本信息，说明基础环境没问题。这个阶段别急着进 WebUI，先把依赖和 Python 版本踩稳，后面能少很多莫名其妙的报错。

数据集准备

多模态数据在 LLaMA-Factory 里不是随便丢个 JSON 就能识别的，目录和字段名都得对上。一个常见的目录长这样：

pokemon_sharegpt/
├── dataset_info.json      # 数据集配置文件
├── images/                # 存放所有图片的文件夹
│   ├── pokemon_0001.png
│   └── ...
└── pokemon_sharegpt.json  # ShareGPT 格式的图文对话数据

数据本体用 JSON 列表保存，每条样本是一段对话，图像通过 <image> 占位符插进去，再靠 images 字段把图片路径挂上。

[
  {
    "conversations": [
      {"from": "human", "value": "详细描述一下这只宝可梦。<image>"},
      {"from": "gpt", "value": "这是皮卡丘，一只电属性的宝可梦，拥有黄色的皮毛和红色的脸颊。"

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

{
  "pokemon_multimodal": {
    "file_name": "pokemon_sharegpt.json",
    "formatting": "sharegpt",
    "columns": {
      "messages": "conversations",
      "images": "images"
    }
  }
}

export USE_MODELSCOPE_HUB=1
llamafactory-cli webui

参数	推荐值	说明
语言	`zh`	中文界面更省事
模型名称	`Qwen/Qwen2.5-VL-3B-Instruct`	从 HuggingFace 或 ModelScope 拉取
微调方法	`LoRA`	成本和效果比较平衡
量化等级	`none`	第一次训练先别上量化
对话模板	`qwen2_vl`	和模型必须对齐

参数	推荐值	说明
训练阶段	`Supervised Fine-Tuning`	图文问答数据一般用这个
数据目录	`./pokemon_sharegpt`	指向准备好的数据集文件夹
截断长度	`4096`	图文任务别设太短
学习率	`2e-4`	3B 级模型常见起点
训练轮数	`3`	小数据集先这样更稳
批处理大小	`2`	显存不够就再降
梯度累积	`8`	把有效 batch 拉上去
计算类型	`bf16`	新架构显卡更合适
LoRA 秩	`64`	兼顾容量和开销
LoRA 缩放系数	`128`	通常是 rank 的 2 倍

问题	可能原因	解决方案
CUDA out of memory	批量大小过大或截断长度过长	先把批处理大小降到 1，再考虑把 LoRA 秩降到 32，最后才动截断长度
Loss 不下降或上升	学习率过低或数据有问题	尝试把学习率提到 `3e-4`，同时检查数据格式和内容
Loss 剧烈震荡	学习率过高	降到 `1e-4` 左右
训练速度过慢	硬件限制或配置问题	确认装了 `flash-attn`，必要时减少梯度累积步数

"这只宝可梦是什么颜色的？<image>"
"分析一下它的战斗特点。<image>"
"它看起来开心还是难过？<image>"

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

环境搭建

数据集准备

更多推荐文章

相关免费在线工具

启动 WebUI

训练配置

训练过程

评估和对话测试

一点实战经验

收尾

更多推荐文章

相关免费在线工具

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

用 LLaMA-Factory WebUI 微调 Qwen2.5-VL

环境搭建

数据集准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

启动 WebUI

训练配置

训练过程

评估和对话测试

一点实战经验

收尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具