LLaMA-Factory 微调 Qwen3-VL 详细流程 | 极客日志

PythonAI算法

LLaMA-Factory 微调 Qwen3-VL 详细流程

使用 LLaMA-Factory 对 Qwen3-VL 多模态大模型进行微调（SFT）的全流程。内容包括环境安装、数据集准备、LoRA 微调启动、模型合并以及基于 vLLM 的工业落地部署方案。通过命令行操作完成从依赖配置到服务启用的步骤，支持私有数据构造与 OpenAI 风格接口调用，适用于高并发场景下的模型应用。

KernelLab发布于 2026/4/5更新于 2026/7/2856 浏览

LLaMA-Factory 微调 Qwen3-VL 详细流程

目标：本文详细介绍多模态大模型使用 LLaMA-Factory 进行多模态模型微调（SFT）的全部流程，以及微调后合并和工业落地部署方案。具体包括：

环境安装部署
数据集准备
启动微调
模型合并
模型部署和请求方式 (vllm 部署)

示例模型：qwen2.5-vl-instruct, qwen3-vl-instruct

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

方式 2 下载项目压缩包再解压

Python 环境安装

Python 虚拟环境创建
- conda create --name llama_env python=3.12 (默认已安装好 anaconda 或者 miniconda)
- conda activate llama_env # 进入虚拟环境
安装依赖包
- cd LLaMA-Factory-main # 进入项目目录
- pip install -e ".[torch,metrics]" --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

下载模型

从 ModelScope 或者 HuggingFace 下载模型到指定目录。比如 qwen3-vl。

在当前项目目录打开 cmd
输入 modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model 将模型下载到 models 目录下。

启动训练（命令行）

在 Linux 系统上，一般直接使用命令行进行训练、合并、部署。

LoRA 微调步骤-SFT 任务

先使用默认数据集测试微调流程

在 LLaMA-Factory-main 目录下：

执行 CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml 开始训练画面。

编辑配置文件：vim examples/train_lora/qwen2_5vl_lora_sft.yaml

### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384
trust_remote_code: true

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

### Note: DO NOT use quantized model or quantization_bit when merging lora adapters

### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 原模型路径
adapter_name_or_path: saves/qwen3vl-2b/lora/sft # lora 路径
template: qwen3_vl # 模型格式
trust_remote_code: true

### export
export_dir: output/qwen3vl_lora_sft
export_size: 5
export_device: cpu # choices: [cpu, auto]
export_legacy_format: false

### model
model_name_or_path: /data/hcb/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384
trust_remote_code: true

### method
stage: sft
do_train: true
finetuning_type: lora
lora_rank: 8
lora_target: all

### dataset
dataset: table_reg # 注册的数据集名称
template: qwen3_vl
cutoff_len: 2048
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16
dataloader_num_workers: 4

### output
output_dir: saves/qwen3vl-2b_table/lora/sft # lora 文件保存路径
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true
save_only_model: false
report_to: none # choices: [none, wandb, tensorboard, swanlab, mlflow]

### train
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 1.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000
resume_from_checkpoint: null

### eval
# val_size: 0.1
# per_device_eval_batch_size: 1
# eval_strategy: steps
# eval_steps: 500

# 启动 vLLM OpenAI 兼容 API 服务器
# 核心功能：将指定大模型以 OpenAI API 格式暴露服务，支持高并发、低延迟推理
export CUDA_VISIBLE_DEVICES=6
# 指定使用哪个 gpu
python -m vllm.entrypoints.openai.api_server \
  --host 0.0.0.0 \
  # 绑定所有网络接口，允许外部机器访问（仅内网环境建议使用）
  --port 8003\
  # API 服务监听端口，客户端通过该端口调用（自定义）
  --model /data/hcb/LLaMA-Factory-main/output/qwen3vl_lora_sft \
  # 模型文件本地路径
  --served-model-name qwen3_vl \
  # 对外暴露的模型名称（客户端调用时指定该名称）
  --trust-remote-code \
  # 信任模型仓库中的自定义代码（部分模型需要自定义加载逻辑）
  --dtype float16 \
  # 模型推理数据类型（float16 平衡性能和精度，适配多数 GPU）
  --gpu-memory-utilization 0.8\
  # GPU 显存利用率上限（根据实际情况调整）
  --tp 1\
  # 张量并行度（1 表示单卡推理，多卡时需调整为显卡数量）
# 上面是命令介绍 可以直接用下面这行启动
CUDA_VISIBLE_DEVICES=6 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8003 --model /data/hcb/LLaMA-Factory-main/output/qwen3vl_lora_sft --served-model-name qwen3_vl --trust-remote-code --dtype float16 --gpu-memory-utilization 0.8

import openai
import base64
import os
from openai import OpenAI

def encode_image(image_path):
    """将图像文件编码为 base64"""
    with open(image_path,"rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def multimodal_chat(image_path=None, text_prompt="描述这张图片"):
    """ 多模态聊天请求 Args: image_path: 图像文件路径 text_prompt: 文本提示 """
    client = OpenAI(
        api_key="Empty",
        base_url="http://<ip>:8803/v1/" # 你的 vLLM 服务器地址和端口
    )
    # 构建消息内容
    messages = [{"role":"system","content":"你是一个多模态智能助手，可以理解和分析图像内容。"}]
    # 如果有图像，添加多模态内容
    if image_path and os.path.exists(image_path):
        base64_image = encode_image(image_path)
        user_content = [{"type":"text","text": text_prompt },{"type":"image_url","image_url":{"url":f"data:image/jpeg;base64,{base64_image}"}}]
    else:
        # 如果没有图像，只发送文本
        user_content = text_prompt
    messages.append({"role":"user","content": user_content })
    payload = {"model":"qwen3_vl", # 你设置的模型名称
               "messages": messages,
               "temperature":0.1,
               "max_tokens":2000}
    print("请求 payload 结构:")
    print(f"- 模型：{payload['model']}")
    print(f"- 消息数量：{len(payload['messages'])}")
    if image_path:
        print(f"- 包含图像：{image_path}")
        print(f"- 提示词：{text_prompt}")
    try:
        # 发送请求
        response = client.chat.completions.create(**payload, timeout=30 # 多模态请求可能需要更长时间)
        return response
    except Exception as e:
        print(f"请求失败：{e}")
        return None

if __name__ == "__main__":
    # 直接测试特定图片
    image_path = r"C:\Users\15941\Desktop\临时\副业\宠物\狗头舔脚\2.png" # 修改为你的图片路径
    prompt = "描述这张图片中有什么"
    if os.path.exists(image_path):
        print(f"正在分析图片：{image_path}")
        res = multimodal_chat(image_path=image_path, text_prompt=prompt)
        if res and res.choices:
            print("\n模型回复:")
            print(res.choices[0].message.content)
        else:
            print("请求失败")

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

更多推荐文章

相关免费在线工具

合并 LoRA 模型

私有训练数据准备（重要）

了解 data 目录和 dataset_info.json 文件

详细构造自己的 SFT 数据集

开始训练

其他任务数据构造

模型部署

vLLM 安装

服务启动命令（OpenAI 标准）

服务请求

代码请求

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

合并 LoRA 模型

私有训练数据准备（重要）

了解 data 目录和 dataset_info.json 文件

详细构造自己的 SFT 数据集

开始训练

其他任务数据构造

模型部署

vLLM 安装

服务启动命令（OpenAI 标准）

服务请求

代码请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具