LLaMA Factory 多模态微调实践 | 极客日志

PythonAI算法

LLaMA Factory 多模态微调实践

综述由AI生成基于 LLaMA Factory 对 Qwen2-VL 多模态模型进行微调的完整流程。涵盖环境配置、数据集格式规范、训练参数调优、效果测试及模型部署。重点讲解了在文旅场景下，通过全参微调提升模型对文物识别与导游问答的能力，并提供了从本地到线上 API 的部署方案。

星河入梦发布于 2026/4/5更新于 2026/5/2342 浏览

LLaMA Factory 多模态微调实践

一、前提准备：环境与数据深度适配

（一）运行环境技术规格

1. 硬件配置底层逻辑

GPU 选型依据：
- 推荐 24GB 显存的 A10（ecs.gn7i-c8g1.2xlarge）。
- 核心原因：Qwen2-VL-2B 模型加载后显存占用约 8-10GB，全参微调过程中梯度计算、优化器状态存储需额外 10-12GB 显存，24GB 可避免显存溢出（OOM）。
- 若使用 16GB 显存的 T4 等型号，需启用梯度检查点（gradient checkpointing），但会增加约 20% 训练时间。
CPU 与内存配套：
- 建议 8 核 CPU + 32GB 内存，避免数据加载（尤其是图像预处理）成为训练瓶颈。
- 若内存不足会导致数据加载卡顿，拖慢整体训练效率。

2. 镜像环境组件解析

选择 云端开发环境镜像，其核心优势在于：

预装 PyTorch 2.3.0 + CUDA 12.1，支持 FlashAttention-2 加速（Qwen2-VL 已适配），可提升 30% 以上的训练速度；
内置 ModelScope SDK，无需额外安装即可直接调用社区模型与数据集；
包含 OpenCV、Pillow 等图像处理库，满足多模态数据预处理需求，避免手动安装依赖时的版本冲突。

（二）LLaMA Factory 安装深度操作

1. 项目拉取与依赖清理

# 拉取项目时指定深度为 1，仅获取最新代码，减少下载体积
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 卸载冲突依赖：accelerate 0.30+ 版本与 LLaMA Factory 0.9.0 存在兼容性问题，vllm 为大模型推理库（微调无需），matplotlib 仅用于可视化（Web UI 已集成）
pip uninstall -y accelerate vllm matplotlib

# 安装指定版本依赖，确保版本匹配：llamafactory 0.9.0 是经过验证的稳定版本，兼容 Qwen2-VL 模型
pip install llamafactory==0.9.0

# 补充安装图像预处理依赖（部分环境可能缺失）
pip install pillow opencv-python torchvision

2. 安装验证与问题排查

运行 llamafactory-cli version 后，若输出 llamafactory 0.9.0 则安装成功。
若出现 ModuleNotFoundError，需检查：
1. 是否在 LLaMA-Factory 目录下执行命令；
2. 虚拟环境是否激活（开发环境默认激活，若手动创建环境需重新激活）；
3. 网络是否通畅，可尝试更换 PyPI 源（如 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple llamafactory==0.9.0）。

（三）数据集预处理与格式规范

1. 自定义数据集格式详解

LLaMA Factory 多模态数据集需满足 JSON 列表格式，每条样本必须包含 conversations（对话内容）和（图像路径）两个字段，字段约束如下：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

字段名	子字段	要求
conversations	from	仅支持 system（系统提示）、human（用户输入）、gpt（模型回答）
	value	human 输入中需用 `<image>` 标记图像位置，gpt 回答需匹配文旅场景语气
images	-	图像路径支持本地绝对路径、相对路径（相对于数据集目录）或 HTTP 链接

# 1. 检查数据集文件完整性
ls data/train.json
wc -l data/train.json

# 2. 检查图像文件路径正确性
grep -o '"images": \[.*\]' data/train.json | head -1
ls data/$(grep -o '"images": \["[^"]*"' data/train.json | head -1 | awk -F'"' '{print $4}')

# 3. 修复路径问题（若图像路径为绝对路径，需改为相对路径）
sed -i 's|/absolute/path/to/images|data/images|g' data/train.json

# 基础启动命令：从 ModelScope 下载模型
USE_MODELSCOPE_HUB=1 llamafactory-cli webui

# 进阶配置（显存不足时使用）：启用梯度检查点 + 限制线程数
USE_MODELSCOPE_HUB=1 MAX_THREADS=4 USE_GRADIENT_CHECKPOINTING=1 llamafactory-cli webui

微调方法	显存占用	训练速度	效果（文旅场景）	适用场景
Full（全参）	高（24GB+）	慢	优（充分学习知识）	小模型（<7B）+ 样本量少
LoRA（低秩适应）	低（12GB+）	快	良（需调优秩数）	大模型（>7B）+ 样本量多
QLoRA（量化 LoRA）	极低（8GB+）	较快	中（存在量化损失）	显存紧张 + 快速验证

参数名称	配置值	原理分析	调优建议
学习率	1e-4	多模态模型文本部分学习率通常为 1e-4~~5e-4，视觉部分为 1e-5~~1e-4，Qwen2-VL 已做联合优化，1e-4 为平衡值	若训练后期损失不降，可降至 5e-5；若损失下降过快且波动大，可降至 8e-5
训练轮数	10	261 条样本 × 10 轮 = 2610 个训练步，足够模型学习文旅知识（避免过拟合）	样本量扩充后可减少至 5~8 轮；若出现过拟合（训练损失低，测试效果差），可减少至 5 轮
计算类型	pure_bf16	相比 float32，bf16 可减少一半显存占用，且 Qwen2-VL 支持 bf16 精度训练	若 GPU 不支持 bf16（如 T4），改用 mixed_fp16（混合精度）
梯度累积	2	模拟 batch_size=2×实际批次（假设实际批次为 8，等效 16），提升梯度稳定性	实际批次为 4 时，梯度累积设为 4；批次为 16 时，设为 1（无需累积）
权重衰减	0.01（默认）	抑制模型过拟合，对文本生成类任务尤为重要	若模型欠拟合（训练损失高），可降至 0.001；若过拟合，升至 0.05
预热步数	100（默认）	学习率从 0 线性升至目标值，避免初始学习率过高导致模型震荡	训练步长 < 1000 时，预热步数设为 50；步长 > 5000 时，设为 200

train_qwen2vl/
├── config.json # 模型配置文件（含视觉、文本编码器参数）
├── pytorch_model.bin # 完整模型权重（全参微调后生成）
├── special_tokens_map.json # 特殊 token 映射（如<image>）
├── training_args.bin # 训练参数记录（用于中断恢复）
└── logs/ # 训练日志（含损失曲线数据）

问题现象	原因分析	解决方案
模型下载缓慢/失败	ModelScope 镜像源网络波动；模型文件损坏	1. 手动下载模型（https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Chat）；2. 解压至 `~/.cache/modelscope/hub/qwen/Qwen2-VL-2B-Chat`
训练时图像加载报错	图像路径错误；图像格式不支持（如 WebP）；图像损坏	1. 重新验证图像路径；2. 转换图像格式为 JPG/PNG（`convert input.webp output.jpg`）；3. 删除损坏图像（`find data/images -name "*.jpg" -exec identify {} ; 2>&1`）
训练损失不下降（始终 >2.0）	学习率过高；数据集格式错误；模型与数据集不匹配	1. 降低学习率至 5e-5；2. 重新检查数据集格式（`llamafactory-cli check_data --data_path data/train.json`）；3. 确认模型为多模态模型（非纯文本模型）
对话时模型不识别图像	微调时未正确处理 `<image>` 标记；视觉编码器未参与训练	1. 检查训练数据中 human 指令是否包含 `<image>`；2. 确认微调方法为 Full（LoRA 需指定视觉编码器参与训练）

测试场景	测试用例	预期结果
文物识别与介绍	上传'神面纹玉戚'图像，输入'介绍这件文物'	准确说出文物名称、年代、尺寸、出土地点、纹饰特点，语气符合导游风格
景点问答	上传'山西博物院'展厅图像，输入'这个展厅有哪些特色展品'	列举展厅内核心文物，简要介绍展品历史背景
多轮对话	1. 上传文物图像：'这是什么？'；2. 追问：'它的出土地点在哪里？'	1. 回答文物名称；2. 基于上文语境，准确回答出土地点（无需重复上传图像）
非文旅图像拒答	上传'猫'的图像，输入'介绍这个动物'	礼貌拒绝：'我是文旅导游模型，主要负责文物与景点介绍，无法回答动物相关问题'

测试维度	微调后模型（Qwen2VL-2B-Chat-Finetuned）	原始模型（Qwen2VL-2B-Chat）	差异原因
文物识别准确率	90%（18/20 条正确）	15%（3/20 条正确）	原始模型未学习文旅领域知识，仅能识别通用物体（如'这是一件玉器'），无法说出具体名称与背景
回答专业性	高（包含尺寸、年代、出土地点等细节）	低（仅简单描述外观）	微调模型学习了数据集中的专业文旅知识，原始模型缺乏领域数据支撑
语气一致性	符合导游风格（生动、礼貌、口语化）	通用回答风格（简洁、正式）	微调时系统提示'你是一个导游'引导模型学习语气，原始模型无此约束

# 1. 导出为 PyTorch 完整模型（含配置文件）
llamafactory-cli export --model_name_or_path train_qwen2vl --export_dir qwen2vl_tourism --export_format pytorch

# 2. 导出为 ONNX 格式（支持推理加速）
llamafactory-cli export --model_name_or_path train_qwen2vl --export_dir qwen2vl_tourism_onnx --export_format onnx --device cuda

from llamafactory.chat import ChatModel
from PIL import Image

# 加载模型
model = ChatModel(
    model_path="train_qwen2vl",
    device="cuda",
    dtype="bfloat16"
)

# 准备图像与 prompt
image = Image.open("test_image.jpg").convert("RGB")
prompt = "你是一个导游，请生动有趣地回答游客提出的问题\n用户：给我讲讲这个东西<image>"

# 生成回答
response = model.generate(
    prompt=prompt,
    images=[image],
    max_new_tokens=512,
    temperature=0.7  # 控制回答多样性（0.7 适合文旅场景，兼顾准确与生动）
)
print(response)

# main.py
from fastapi import FastAPI, UploadFile, File
from fastapi.responses import JSONResponse
from PIL import Image
import io
from llamafactory.chat import ChatModel

app = FastAPI(title="文旅多模态大模型 API")

# 加载模型（启动时加载，避免重复加载）
model = ChatModel(
    model_path="train_qwen2vl",
    device="cuda",
    dtype="bfloat16"
)

@app.post("/tourism/chat")
async def chat(file: UploadFile = File(...), question: str = "给我讲讲这个东西"):
    # 读取图像
    image_bytes = await file.read()
    image = Image.open(io.BytesIO(image_bytes)).convert("RGB")
    
    # 构建 prompt
    prompt = f"你是一个导游，请生动有趣地回答游客提出的问题\n用户：{question}<image>"
    
    # 生成回答
    try:
        response = model.generate(
            prompt=prompt,
            images=[image],
            max_new_tokens=512,
            temperature=0.7
        )
        return JSONResponse(content={"response": response})
    except Exception as e:
        return JSONResponse(content={"error": str(e)}, status_code=500)

# 启动服务：uvicorn main:app --host 0.0.0.0 --port 8000 --workers 2

LLaMA Factory 多模态微调实践

LLaMA Factory 多模态微调实践

一、前提准备：环境与数据深度适配

（一）运行环境技术规格

1. 硬件配置底层逻辑

2. 镜像环境组件解析

（二）LLaMA Factory 安装深度操作

1. 项目拉取与依赖清理

2. 安装验证与问题排查

（三）数据集预处理与格式规范

1. 自定义数据集格式详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 教程数据集预处理流程

3. 数据增强建议（可选）

二、模型微调：技术流程与参数深度解析

（一）Web UI 启动与底层配置

1. 启动命令与环境变量扩展

2. Web UI 界面功能布局

（二）核心参数配置：原理与优化

1. 模型配置技术细节

2. 训练参数配置原理与调优

3. 输出与保存配置优化

（三）微调过程监控与问题排查

1. 关键指标监控

2. 常见问题与解决方案

三、模型测试：效果验证与对比分析

（一）微调后模型测试：场景化验证

1. 测试流程与用例设计

2. 测试结果量化评估（可选）

（二）原始模型对比测试：差异分析

1. 对比测试核心结论

2. 失败案例分析

四、模型部署与扩展：从测试到落地

（一）模型导出与格式转换

1. 导出为部署格式

（二）轻量化部署方案

1. 本地部署（适合测试）

2. 线上部署（适合实际应用）

（三）模型迭代与优化方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具