Qwen3-VL 视觉模型微调实战：LLaMA-Factory 与 WEBUI 部署 | 极客日志

PythonAI算法

Qwen3-VL 视觉模型微调实战：LLaMA-Factory 与 WEBUI 部署

Qwen3-VL 视觉语言模型微调实践。使用 LLaMA-Factory 框架配合 LoRA 技术对 Qwen3-VL-4B-Instruct 进行参数高效微调。涵盖环境搭建、数据集构建（ShareGPT 格式）、YAML 配置优化、训练启动及权重合并流程。最终通过 Qwen3-VL-WEBUI Docker 镜像部署验证效果，解决 CUDA 资源不足及版本兼容性问题，实现定制化图文识别任务。

星落发布于 2026/4/8更新于 2026/6/1522 浏览

Qwen3-VL 视觉模型微调实战

一、技术选型解析

1.1 LLaMA-Factory：轻量高效的微调框架

LLaMA-Factory 是一个专为大型语言模型设计的开源微调框架，支持超过 100 种主流模型（包括 Qwen 系列），提供命令行与 WebUI 双模式操作。

核心优势：

参数高效微调（PEFT）支持：内置 LoRA、IA³、Adapter 等多种方法，显著降低显存需求
多模态支持完善：原生支持图像输入（ token）、视频处理及图文混合训练
易用性强：YAML 配置驱动 + 可视化界面，适合科研与工程双重场景
社区活跃：GitHub 星标超 20k，持续更新适配新模型

1.2 Qwen3-VL-WEBUI：开箱即用的推理环境

Qwen3-VL-WEBUI 是阿里官方发布的 Docker 镜像，集成了预加载的 Qwen3-VL-4B-Instruct 模型、完整依赖环境（PyTorch、Transformers ≥4.45.0）以及内置 Gradio Web 界面，支持上传图片/视频进行交互式测试。

二、前置准备：软硬件与数据环境搭建

2.1 硬件建议

组件	最低要求	推荐配置
GPU	NVIDIA RTX 3090 (24GB)	A100/A6000/V100 × 2 或更高
显存	≥24GB	≥48GB（便于全参数微调探索）
存储	≥100GB SSD	≥500GB NVMe（用于缓存模型与数据集）

注意：若仅使用 LoRA 微调 Qwen3-VL-4B，单卡 4090D（24GB）即可满足基本训练需求。

2.2 软件环境

# 创建虚拟环境
conda create -n qwen_vl python=3.10
conda activate qwen_vl

# 克隆项目
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

安装核心依赖：

pip install -e ".[torch,metrics]"
pip install flash-attn==2.6.3 --no-build-isolation
pip install bitsandbytes==0.43.1 deepspeed==0.14.4
pip install --upgrade transformers>=4.45.0

2.3 下载基础模型

git lfs install
git clone https://www.modelscope.cn/qwen/Qwen3-VL-4B-Instruct.git /data/model/qwen3-vl-4b-instruct

确保目录结构如下：

/data/model/qwen3-vl-4b-instruct/
├── config.json
 model.safetensors.index.json
 preprocessor_config.json
 tokenizer_config.json

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[
  {
    "messages": [
      { "role": "user", "content": "<image>请识别这张身份证上的姓名？" },
      { "role": "assistant", "content": "张三丰" }
    ],
    "images": ["/path/to/id_card_001.jpg"]
  }
]

[
  {
    "messages": [
      { "role": "user", "content": "<image>请识别图片中的人名?" },
      { "role": "assistant", "content": "张三丰" }
    ],
    "images": ["/data/service/LLaMA-Factory/data/images/1.png"]
  }
]

"qwen_vl_demo": {
  "file_name": "qwen_vl_demo.json",
  "formatting": "sharegpt",
  "columns": {
    "messages": "messages",
    "images": "images"
  },
  "tags": {
    "role_tag": "role",
    "content_tag": "content",
    "user_tag": "user",
    "assistant_tag": "assistant"
  }
}

cp examples/train_lora/qwen2vl_lora_sft.yaml examples/train_lora/qwen3vl_lora_sft.yaml
vim examples/train_lora/qwen3vl_lora_sft.yaml

### model
model_name_or_path: /data/model/qwen3-vl-4b-instruct

### method
stage: sft # SFT 阶段微调
do_train: true
finetuning_type: lora # 使用 LoRA
lora_target: all # 对所有线性层注入适配器

### dataset
dataset: qwen_vl_demo
template: qwen2_vl # 当前仍沿用 qwen2_vl 模板
cutoff_len: 2048
max_samples: 1000
preprocessing_num_workers: 8

### output
output_dir: /data/output/qwen3-vl-lora-ft
logging_steps: 10
save_steps: 100
plot_loss: true

### training
per_device_train_batch_size: 1
gradient_accumulation_steps: 16
learning_rate: 1e-4
num_train_epochs: 3
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: false
ddp_timeout: 180000000

### evaluation
val_size: 0.1
eval_strategy: steps
eval_steps: 50

llamafactory-cli train examples/train_lora/qwen3vl_lora_sft.yaml

[INFO] loading configuration file /data/model/qwen3-vl-4b-instruct/config.json
[INFO] Model config Qwen3VLConfig { ... "model_type": "qwen3_vl" ... }
[INFO] Fine-tuning method: LoRA trainable params: 24,576,000 || all params: 4,200,000,000 || trainable%: 0.585%
***** Running training *****
Num examples = 90
Total optimization steps = 27
Epoch: 1.0, Step: 27/27, Loss: 0.214
Saving model checkpoint to /data/output/qwen3-vl-lora-ft

/data/output/qwen3-vl-lora-ft/
├── adapter_model.bin # LoRA 权重
├── configuration.json
├── tokenizer_config.json
└── training_loss.png # 损失曲线图

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("/data/model/qwen3-vl-4b-instruct")
lora_model = PeftModel.from_pretrained(base_model, "/data/output/qwen3-vl-lora-ft")
merged_model = lora_model.merge_and_unload()
merged_model.save_pretrained("/data/model/qwen3-vl-4b-instruct-finetuned")

docker run -d \
-p 7860:7860 \
-v /data/model/qwen3-vl-4b-instruct-finetuned:/app/models \
--gpus all \
--shm-size="16gb" \
qwen3-vl-webui:latest

pip install --upgrade transformers>=4.45.0

from transformers import AutoConfig
config = AutoConfig.from_pretrained("/data/model/qwen3-vl-4b-instruct")
print(config.model_type) # 应输出 'qwen3_vl'

RuntimeError: CUDA error: too many resources requested for launch

vi /data/model/qwen3-vl-4b-instruct/config.json

Qwen3-VL 视觉模型微调实战：LLaMA-Factory 与 WEBUI 部署

Qwen3-VL 视觉模型微调实战

一、技术选型解析

1.1 LLaMA-Factory：轻量高效的微调框架

1.2 Qwen3-VL-WEBUI：开箱即用的推理环境

二、前置准备：软硬件与数据环境搭建

2.1 硬件建议

2.2 软件环境

2.3 下载基础模型

更多推荐文章

相关免费在线工具

三、数据准备：构建高质量视觉指令数据集

3.1 数据格式规范（ShareGPT 风格）

3.2 示例数据集构建

3.3 注册数据集元信息

四、微调配置详解：YAML 驱动的精细化控制

五、启动微调：命令行与监控全流程

六、模型合并与部署：集成到 Qwen3-VL-WEBUI

6.1 合并 LoRA 权重至基础模型

6.2 启动 Qwen3-VL-WEBUI 容器

七、常见问题与解决方案

问题 1：KeyError: 'qwen3_vl'

问题 2：CUDA Error — Too Many Resources Requested

八、总结

更多推荐文章

相关免费在线工具

Qwen3-VL 视觉模型微调实战：LLaMA-Factory 与 WEBUI 部署

Qwen3-VL 视觉模型微调实战

一、技术选型解析

1.1 LLaMA-Factory：轻量高效的微调框架

1.2 Qwen3-VL-WEBUI：开箱即用的推理环境

二、前置准备：软硬件与数据环境搭建

2.1 硬件建议

2.2 软件环境

2.3 下载基础模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、数据准备：构建高质量视觉指令数据集

3.1 数据格式规范（ShareGPT 风格）

3.2 示例数据集构建

3.3 注册数据集元信息

四、微调配置详解：YAML 驱动的精细化控制

五、启动微调：命令行与监控全流程

六、模型合并与部署：集成到 Qwen3-VL-WEBUI

6.1 合并 LoRA 权重至基础模型

6.2 启动 Qwen3-VL-WEBUI 容器

七、常见问题与解决方案

问题 1：KeyError: 'qwen3_vl'

问题 2：CUDA Error — Too Many Resources Requested

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具