LLaMA-Factory 微调多模态大模型 Qwen3-VL
硬件环境准备
微调 Qwen3-VL-2B 模型,显存是硬指标。建议至少配备 12GB 显存的显卡。本次测试环境如下:
- 显卡型号:NVIDIA GeForce RTX 3090 24G
- 驱动版本:NVIDIA-SMI 535.171.04
- CUDA 版本:12.2
模型下载与安装
项目基于 LLaMA-Factory 进行微调,支持 Qwen3、Qwen2.5-VL、Gemma 3 等多种架构。我们以 Qwen3-VL-2B-Instruct 为例。
国内用户推荐使用 ModelScope 下载模型,避免网络波动。默认缓存路径在 ~/.cache/modelscope/hub/models/。
# 下载 Qwen3-VL-2B-Instruct
modelscope download --model Qwen/Qwen3-VL-2B-Instruct
其他版本可参考 ModelScope 官方页面。LLaMA-Factory 的安装请参照 GitHub 官方文档。
激活环境后,启动 WebUI 服务。默认端口 7860,为避免冲突可修改为 30000:
export CUDA_VISIBLE_DEVICES=0
export GRADIO_SERVER_PORT=30000
export GRADIO_TEMP_DIR="~/.cache/gradio"
llamafactory-cli webui
浏览器访问 http://0.0.0.0:30000/,配置项说明如下:
- 模型名称:选择
Qwen3-VL-2B-Instruct,也可尝试更大参数版本。 - 模型路径:填写服务器上的绝对路径。
- 微调方法:推荐
lora,节省资源。 - 数据路径:需包含
dataset_info.json。若使用外部数据集,指向项目根目录下的./data即可。 - 预览与训练:点击'预览数据集'确认格式无误后,点击开始训练。
[图示:WebUI 配置界面]
训练正常时,控制台会输出相应的日志信息。
模型合并导出
LoRA 训练仅保存增量参数,部署前需将基础模型与适配器合并,生成独立模型文件。
#!/usr/bin/env bash
export CUDA_VISIBLE_DEVICES=0
model_name_or_path=~/.cache/modelscope/hub/models/Qwen/Qwen3-VL-2B-Instruct
adapter_name_or_path=saves/Qwen3-VL-2B-Instruct/lora/train_2025-12-22-18-08-22/checkpoint-440
export_dir=saves/Qwen3-VL-2B-Instruct/lora/train_2025-12-22-18-08-22/Qwen3-VL-2B-Instruct
llamafactory-cli export \
--model_name_or_path $model_name_or_path \
--adapter_name_or_path $adapter_name_or_path \
--template default \
--finetuning_type lora \
--export_dir $export_dir \
--trust_remote_code True


