PythonAI算法

Qwen3-VL 视觉大模型微调实践：部署、训练与评估全流程

Qwen3-VL 视觉大模型微调实践涵盖本地化部署、数据集构建、LoRA 微调训练及模型导出评估。采用 LLaMA-Factory 框架，支持 WebUI 可视化操作与命令行脚本执行。流程包括环境准备、ShareGPT 格式数据注册、参数配置（冻结视觉塔、LoRA 设置）、训练监控及权重合并。通过课堂行为识别场景验证，微调后 F1-score 提升显著。提供 OOM、Loss 不下降等常见问题解决方案，适用于教育、医疗等垂直领域多模态应用开发。

Ne0发布于 2026/3/21更新于 2026/4/266 浏览

Qwen3-VL 视觉大模型微调实践

随着多模态大模型在图像理解、视频分析和跨模态推理等领域的广泛应用，Qwen3-VL 作为阿里通义千问系列中最新一代的视觉语言模型，凭借其强大的图文融合能力、长上下文支持以及对 GUI 操作、HTML 生成等高级任务的支持，正成为工业界和学术界的热门选择。

本文将围绕 Qwen3-VL 镜像 的使用，系统性地介绍如何从零开始完成 Qwen3-VL-4B-Instruct 模型的本地化部署 → 数据集构建 → LoRA 微调训练 → 模型导出与评估的完整流程。采用 LLaMA-Factory 框架进行高效参数微调，并结合真实课堂行为识别场景，提供可复现的工程实践指南。

一、环境准备与模型部署

1.1 使用预配置 Docker 镜像快速启动

Qwen3-VL 镜像是一个预配置好的 Docker 镜像，内置了：

Qwen3-VL-4B-Instruct 官方权重
LLaMA-Factory 微调框架
Gradio WebUI 界面
必要依赖库（Transformers、FlashAttention、Decord 等）

✅ 部署步骤

# Step 1: 启动镜像实例（推荐显卡：RTX 4090D × 1）
# 在平台选择 Qwen3-VL 镜像并创建容器
# Step 2: 进入容器后自动拉起服务
# 若未自动启动，手动运行：
GRADIO_SERVER_PORT=6006 llamafactory-cli webui

🔍 访问地址：http://<your_ip>:6006
📌 默认端口为 6006，可根据需要修改

该镜像已集成以下核心组件：

组件	版本/说明
LLaMA-Factory	最新主干分支
Transformers	≥4.37
FlashAttention	支持加速注意力计算
Decord	视频加载支持
Gradio	可视化交互界面

二、数据集制作规范与格式定义

高质量的指令微调数据是提升模型性能的关键。Qwen3-VL 支持 ShareGPT 格式的多模态数据输入。

2.1 数据结构要求

每个样本需包含：

messages: 对话历史，含 <image> 标记
images: 图像路径列表（相对或绝对路径均可）
使用 JSON 数组存储多个样本

示例数据格式（`SCB.json`）：

[
  {
    "messages": [

{
  "SCB": {
    "file_name": "/root/LLaMA-Factory/data/SCB.json",
    "formatting": "sharegpt",
    "columns": {
      "messages": "messages",
      "images": "images"
    },
    "tags": {
      "role_tag": "role",
      "content_tag": "content",
      "user_tag": "user",
      "assistant_tag": "assistant"
    }
  }
}

配置项	推荐值	说明
Model Type	Qwen3-VL	自动识别架构
Model Path	`/root/Qwen/Qwen3-VL-4B-Instruct`	内置路径
Template	`qwen3_vl`	必须匹配模型版本
Dataset	`SCB`	上一步注册的数据集名称
Fine-tuning Method	LoRA	参数高效微调
Module to Train	`all`	包括文本与视觉投影层
Freeze Vision Tower	✅ 勾选	固定 ViT 主干网络
Freeze Multi-modal Projector	✅ 勾选	提升稳定性
Batch Size (per device)	2~4	显存受限时降低
Gradient Accumulation Steps	8	补足 batch effect
Learning Rate	5e-5	AdamW 默认设置
Epochs	2.0	防止过拟合
Max Length	2048	输入序列上限
Image Max Pixels	589824	即 768×768
Flash Attention	✅ 开启	加速训练

llamafactory-cli train \
--stage sft \
--do_train True \
--model_name_or_path /root/Qwen/Qwen3-VL-4B-Instruct \
--preprocessing_num_workers 16 \
--finetuning_type lora \
--template qwen3_vl \
--flash_attn auto \
--dataset_dir data \
--dataset SCB \
--cutoff_len 2048 \
--learning_rate 5e-05 \
--num_train_epochs 2.0 \
--max_samples 100000 \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 5 \
--save_steps 100 \
--warmup_steps 0 \
--packing False \
--enable_thinking True \
--report_to none \
--output_dir saves/Qwen3-VL-4B-Instruct/lora/train_$(date +%Y-%m-%d-%H-%M) \
--bf16 True \
--plot_loss True \
--trust_remote_code True \
--ddp_timeout 180000000 \
--include_num_input_tokens_seen True \
--optim adamw_torch \
--lora_rank 8 \
--lora_alpha 16 \
--lora_dropout 0 \
--lora_target all \
--freeze_vision_tower True \
--freeze_multi_modal_projector True \
--image_max_pixels 589824 \
--image_min_pixels 1024 \
--video_max_pixels 65536 \
--video_min_pixels 256

llamafactory-cli export \
--model_name_or_path /root/Qwen/Qwen3-VL-4B-Instruct \
--adapter_name_or_path saves/Qwen3-VL-4B-Instruct/lora/train_2025-xx-xx-xx-xx \
--template qwen3_vl \
--trust_remote_code True \
--export_dir /root/merged_models/Qwen3-VL-4B-Instruct-SCB \
--export_size 4 \
--export_device cuda \
--export_legacy_format false

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
import json
from sklearn.metrics import precision_score, recall_score, f1_score

def load_model(model_path):
    model = Qwen3VLForConditionalGeneration.from_pretrained(
        model_path, torch_dtype="auto", device_map="auto"
    )
    processor = AutoProcessor.from_pretrained(model_path)
    return model, processor

def get_prediction(prompt, image_path, model, processor):
    messages = [{
        "role": "user",
        "content": [{"type": "image", "image": image_path}, {"type": "text", "text": prompt}]
    }]
    text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    images, videos, video_kwargs = process_vision_info(messages, return_video_kwargs=True)
    # Qwen3-VL 特有处理：分离 metadata
    video_metadatas = None
    if videos:
        videos, video_metadatas = zip(*videos)
        videos, video_metadatas = list(videos), list(video_metadatas)
    inputs = processor(
        text=[text],
        images=images,
        videos=videos,
        video_metadata=video_metadatas,
        return_tensors="pt",
        do_resize=False,
        **video_kwargs
    ).to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=64)
    response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return response.strip()

模型版本	Precision	Recall	F1-Score
原始 Qwen3-VL-4B-Instruct	0.782	0.751	0.758
微调后（LoRA）	0.873	0.862	0.862

实践点	推荐做法
数据质量	确保标注一致性，避免模糊标签；增加难例样本
提示词设计	明确输出格式（如'只能返回：A/B/C'），减少自由生成噪声
图像分辨率	控制在 768×768 以内，过高会导致显存溢出
LoRA 配置	`rank=8`, `alpha=16` 是稳定高效的起点
冻结策略	强烈建议冻结 vision tower 和 projector，防止灾难性遗忘

问题现象	可能原因	解决方案
OOM（显存不足）	批次太大或图像过大	减小 `per_device_train_batch_size` 或 `image_max_pixels`
Loss 不下降	学习率过高或数据错误	调低 LR 至 1e-5 ~ 5e-6，检查 JSON 格式
输出乱码/无关内容	prompt 设计不佳	添加约束性指令，如'请只回答选项字母'
图像无法加载	路径错误或权限问题	使用绝对路径，确认文件可读
训练中断	DDP 超时	增加 `--ddp_timeout 180000000`

Qwen3-VL 视觉大模型微调实践：部署、训练与评估全流程

Qwen3-VL 视觉大模型微调实践

一、环境准备与模型部署

1.1 使用预配置 Docker 镜像快速启动

✅ 部署步骤

二、数据集制作规范与格式定义

2.1 数据结构要求

示例数据格式（`SCB.json`）：

Qwen3-VL 视觉大模型微调实践：部署、训练与评估全流程

Qwen3-VL 视觉大模型微调实践

一、环境准备与模型部署

1.1 使用预配置 Docker 镜像快速启动

✅ 部署步骤

二、数据集制作规范与格式定义

2.1 数据结构要求

示例数据格式（`SCB.json`）：

更多推荐文章

相关免费在线工具

2.2 注册数据集到 LLaMA-Factory

三、基于 WebUI 的可视化微调训练

3.1 启动训练界面

配置要点如下：

3.2 开始训练

四、命令行方式高级训练（非 WebUI）

4.1 完整训练命令示例

五、模型导出与合并

5.1 导出融合模型命令

六、模型评估与性能分析

6.1 评估脚本核心逻辑（`evaluate_behavior_json.py`）

6.2 评估结果示例（微调前后对比）

七、最佳实践与避坑指南

✅ 成功经验总结

❌ 常见问题与解决方案

更多推荐文章

相关免费在线工具

Qwen3-VL 视觉大模型微调实践：部署、训练与评估全流程

Qwen3-VL 视觉大模型微调实践

一、环境准备与模型部署

1.1 使用预配置 Docker 镜像快速启动

✅ 部署步骤

二、数据集制作规范与格式定义

2.1 数据结构要求

示例数据格式（SCB.json）：

Qwen3-VL 视觉大模型微调实践：部署、训练与评估全流程

Qwen3-VL 视觉大模型微调实践

一、环境准备与模型部署

1.1 使用预配置 Docker 镜像快速启动

✅ 部署步骤

二、数据集制作规范与格式定义

2.1 数据结构要求

示例数据格式（SCB.json）：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 注册数据集到 LLaMA-Factory

三、基于 WebUI 的可视化微调训练

3.1 启动训练界面

配置要点如下：

3.2 开始训练

四、命令行方式高级训练（非 WebUI）

4.1 完整训练命令示例

五、模型导出与合并

5.1 导出融合模型命令

六、模型评估与性能分析

6.1 评估脚本核心逻辑（evaluate_behavior_json.py）

6.2 评估结果示例（微调前后对比）

七、最佳实践与避坑指南

✅ 成功经验总结

❌ 常见问题与解决方案

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

示例数据格式（`SCB.json`）：

示例数据格式（`SCB.json`）：

6.1 评估脚本核心逻辑（`evaluate_behavior_json.py`）