LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战
本文详细介绍使用 LLaMA-Factory 对 Qwen3-VL 等多模态大模型进行 SFT 微调的完整链路,涵盖环境搭建、数据集构造、训练启动、权重合并及 vLLM 部署方案。
环境安装与准备
1. 获取源码
推荐使用 Git 克隆项目,效率更高:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
若网络受限,也可下载压缩包解压至本地。
2. Python 环境配置
建议创建独立虚拟环境以避免依赖冲突。以 Conda 为例:
conda create -n llama_env python=3.12
conda activate llama_env
进入项目目录并安装核心依赖(含 torch 和 metrics):
cd LLaMA-Factory-main
pip install -e ".[torch,metrics]" --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/
3. 模型下载
从 ModelScope 或 HuggingFace 下载基础模型。例如 Qwen3-VL:
modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model
确保路径在后续配置中可访问。
启动微调训练
Linux 环境下通常直接使用命令行操作。这里以 LoRA 微调(SFT 任务)为例。
1. 默认数据测试
先使用官方示例验证流程是否通畅。在 LLaMA-Factory-main 目录下执行:
CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml
2. 配置文件详解
编辑 examples/train_lora/qwen2_5vl_lora_sft.yaml,关键参数说明如下:
### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384
trust_remote_code: true
### method
stage: sft
do_train: true
finetuning_type:


