LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战 | 极客日志

PythonAI算法

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

详细阐述了基于 LLaMA-Factory 框架微调 Qwen3-VL 多模态大模型的完整技术路线。内容涵盖开发环境搭建、Python 依赖配置、模型下载、LoRA 微调训练、私有数据集构造与注册、权重合并以及基于 vLLM 的高并发部署方案。重点解析了 YAML 配置文件的关键参数含义，修正了代码实现中的常见错误，并提供了完整的 OpenAI 风格 API 调用示例，适合希望快速落地多模态模型应用的开发者参考。

鲜活发布于 2026/4/7更新于 2026/7/2944 浏览

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

本文详细介绍使用 LLaMA-Factory 对 Qwen3-VL 等多模态大模型进行 SFT 微调的完整链路，涵盖环境搭建、数据集构造、训练启动、权重合并及 vLLM 部署方案。

环境安装与准备

1. 获取源码

推荐使用 Git 克隆项目，效率更高：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

若网络受限，也可下载压缩包解压至本地。

2. Python 环境配置

建议创建独立虚拟环境以避免依赖冲突。以 Conda 为例：

conda create -n llama_env python=3.12
conda activate llama_env

进入项目目录并安装核心依赖（含 torch 和 metrics）：

cd LLaMA-Factory-main
pip install -e ".[torch,metrics]" --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

3. 模型下载

从 ModelScope 或 HuggingFace 下载基础模型。例如 Qwen3-VL：

modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model

确保路径在后续配置中可访问。

启动微调训练

Linux 环境下通常直接使用命令行操作。这里以 LoRA 微调（SFT 任务）为例。

1. 默认数据测试

先使用官方示例验证流程是否通畅。在 LLaMA-Factory-main 目录下执行：

CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml

2. 配置文件详解

编辑 examples/train_lora/qwen2_5vl_lora_sft.yaml，关键参数说明如下：

### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384
trust_remote_code: true

### method
stage: sft
do_train: true
finetuning_type:

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

dataset: table_reg # 使用自定义数据集名称

llamafactory-cli export examples/merge_lora/qwen2_5vl_lora_sft.yaml

### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 原模型路径
adapter_name_or_path: saves/qwen3vl-2b/lora/sft # LoRA 路径
template: qwen3_vl
trust_remote_code: true

### export
export_dir: output/qwen3vl_lora_sft
export_size: 5
export_device: cpu
export_legacy_format: false

pip install vllm==0.11.0 -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

export CUDA_VISIBLE_DEVICES=6
python -m vllm.entrypoints.openai.api_server \
  --host 0.0.0.0 \
  --port 8003 \
  --model /data/hcb/LLaMA-Factory-main/output/qwen3vl_lora_sft \
  --served-model-name qwen3_vl \
  --trust-remote-code \
  --dtype float16 \
  --gpu-memory-utilization 0.8 \
  --tp 1

import openai
import base64
import os
from openai import OpenAI

def encode_image(image_path):
    """将图像文件编码为 base64"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def multimodal_chat(image_path=None, text_prompt="描述这张图片"):
    client = OpenAI(
        api_key="Empty",
        base_url="http://10.10.185.9:8803/v1/"
    )
    messages = [{"role": "system", "content": "你是一个多模态智能助手，可以理解和分析图像内容。"}]
    
    if image_path and os.path.exists(image_path):
        base64_image = encode_image(image_path)
        user_content = [
            {"type": "text", "text": text_prompt},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
        ]
    else:
        user_content = text_prompt
    
    messages.append({"role": "user", "content": user_content})
    payload = {
        "model": "qwen3_vl",
        "messages": messages,
        "temperature": 0.1,
        "max_tokens": 2000
    }
    
    try:
        response = client.chat.completions.create(**payload, timeout=30)
        return response
    except Exception as e:
        print(f"请求失败：{e}")
        return None

if __name__ == "__main__":
    image_path = r"C:\Users\15941\Desktop\临时\副业\宠物\狗头舔脚\2.png"
    prompt = "描述这张图片中有什么"
    if os.path.exists(image_path):
        res = multimodal_chat(image_path=image_path, text_prompt=prompt)
        if res and res.choices:
            print("\n模型回复:")
            print(res.choices[0].message.content)
        else:
            print("请求失败")

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

环境安装与准备

1. 获取源码

2. Python 环境配置

3. 模型下载

启动微调训练

1. 默认数据测试

2. 配置文件详解

更多推荐文章

相关免费在线工具

私有数据集构造

1. 理解数据结构

2. 构造示例

3. 引入私有数据

模型权重合并

模型部署与调用

1. 安装 vLLM

2. 启动服务

3. 客户端请求

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

LLaMA-Factory 微调 Qwen3-VL 多模态模型全流程实战

环境安装与准备

1. 获取源码

2. Python 环境配置

3. 模型下载

启动微调训练

1. 默认数据测试

2. 配置文件详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

私有数据集构造

1. 理解数据结构

2. 构造示例

3. 引入私有数据

模型权重合并

模型部署与调用

1. 安装 vLLM

2. 启动服务

3. 客户端请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具