LLaMA-Factory 微调多模态大模型 Qwen3-VL | 极客日志

PythonAI算法

LLaMA-Factory 微调多模态大模型 Qwen3-VL

使用 LLaMA-Factory 对 Qwen3-VL-2B 多模态大模型进行微调的完整流程。涵盖显卡驱动检查、LLaMA-Factory 环境安装与 WebUI 配置、LoRA 微调操作、模型参数合并导出以及基于 vLLM 的服务部署与 API 调用测试。适合拥有 NVIDIA GPU 资源的开发者参考，实现本地化多模态模型的训练与推理服务搭建。

CodeArtist发布于 2026/4/5更新于 2026/5/2635 浏览

LLaMA-Factory 微调多模态大模型 Qwen3-VL

1. 显卡驱动

显卡型号：NVIDIA GeForce RTX 3090 24G
显卡驱动：NVIDIA-SMI 535.171.04
CUDA: 12.2 ,Driver Version: 535.171.04

微调 Qwen3-VL-2B 模型，至少需要 12G 显存

2. 模型微调

项目采用大型语言模型工厂（LLaMA-Factory）对大模型微调，目前可支持 Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6 等大模型。下面以微调 Qwen3-VL-2B-Instruct 作为例子进行说明。

微调之前，请先下载 Qwen3-VL 基础模型。下载方法可以选择 modelscope 和 huggingface，国内建议选择 modelscope，避免网络问题。

modelscope 下载 Qwen3-VL-2B-Instruct 方法，模型默认保存在 ~/.cache/modelscope/hub/models/：

# 使用 modelscope 下载模型 Qwen3-VL-2B-Instruct # 模型保持在 ~/.cache/modelscope/hub/models/
modelscope download --model Qwen/Qwen3-VL-2B-Instruct

微调其他 Qwen3-VL 版本，请参考地址：

LLaMA-Factory 安装教程，请参考官方文档：

https://github.com/hiyouga/LLaMA-Factory

安装好 LLaMA-Factory 后，激活环境，然后终端输入（默认端口是 7860）：

export CUDA_VISIBLE_DEVICES=0 # 指定运行 GPU
export GRADIO_SERVER_PORT=30000 # 指定 gradio 的端口 (默认是 7860，这里修改为 30000)
export GRADIO_TEMP_DIR="~/.cache/gradio" # 指定 gradio 临时缓存路径，解决上传图片权限的问题
llamafactory-cli webui # 启动 llamafactory web 服务

浏览器打开 url http://0.0.0.0:30000/（http://ip:port，默认端口是 7860，为避免端口冲突，可以通过 export GRADIO_SERVER_PORT=30000 修改端口），并按照配置如下信息：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

#!/usr/bin/env bash
# TODO Lora+model 合并，参数说明：
#--model_name_or_path：原始基础模型路径，可使用 modelscope download --model Qwen/Qwen3-VL-2B-Instruct 下载
#--adapter_name_or_path：LoRA 适配器路径（即训练输出目录）
#--export_dir：合并后模型的保存路径
#--template default：Qwen3-VL 可使用 default，也可尝试 qwen_vl（但通常自动识别）
#--trust_remote_code True：Qwen 系列模型必需
export CUDA_VISIBLE_DEVICES=0
model_name_or_path=~/.cache/modelscope/hub/models/Qwen/Qwen3-VL-2B-Instruct
adapter_name_or_path=saves/Qwen3-VL-2B-Instruct/lora/train_2025-12-22-18-08-22/checkpoint-440
export_dir=saves/Qwen3-VL-2B-Instruct/lora/train_2025-12-22-18-08-22/Qwen3-VL-2B-Instruct
llamafactory-cli export \
    --model_name_or_path $model_name_or_path \
    --adapter_name_or_path $adapter_name_or_path \
    --template default \
    --finetuning_type lora \
    --export_dir $export_dir \
    --trust_remote_code True

#!/usr/bin/env bash
# TODO 启动 vllm 服务
export CUDA_VISIBLE_DEVICES=0 # http://0.0.0.0:8000/v1
# model_path=~/.cache/modelscope/hub/models/Qwen/Qwen3-VL-2B-Instruct # 原始基础模型路径
model_path=saves/Qwen3-VL-2B-Instruct/lora/train_2025-12-22-18-08-22/Qwen3-VL-2B-Instruct # Lora 微调 (合并) 后的模型路径
vllm serve $model_path --dtype auto --max-model-len 7680 --max_num_seqs 32 --api-key token-abc123 --gpu_memory_utilization 0.95 --trust-remote-code

# -*- coding: utf-8 -*-
import os
import traceback
from openai import OpenAI
from pybaseutils import image_utils, base64_utils

url = "http://0.0.0.0:8000/v1" # vLLM 地址
url + /chat/completions
key = "token-abc123" # API 密钥，需与启动服务时设置的 (--api-key) 保持一致

class Client():
    """调用 vLLM API 进行多模态对话"""
    def __init__(self, url, key, model=None):
        """
        初始化 Client 类
        :param url: vLLM API 地址
        :param key: API 密钥
        :param model: 模型名称
        """
        self.url = url
        self.key = key
        self.model = model
        self.services = OpenAI(api_key=self.key, base_url=self.url)
        print(f"url:{self.url}, key:{self.key}, model:{self.model}")

    def chat(self, messages, T=0.0):
        """
        :param messages: 多模态消息列表
        :param T: 温度参数
        :return: 模型回复内容
        """
        result = None
        try:
            response = self.services.chat.completions.create(model=self.model, messages=messages, seed=2024, temperature=T)
            contents = response.choices[0].message.content
            result = contents if isinstance(contents, str) else contents[0]['text']
        except Exception as e:
            traceback.print_exc()
        return result

if __name__ == "__main__":
    image_file = "./data/test.jpg"
    assert os.path.exists(image_file), f"{image_file} not exists"
    image = image_utils.read_image(image_file, use_rgb=True)
    messages = [{
        "role": "user",
        "content": [
            {"type": "text", "text": "请详细描述这张图片"},
            {"type": "image_url", "image_url": {"url": image}},
        ]
    }]
    messages = base64_utils.serialization(messages, prefix="data:image/jpeg;base64,", use_rgb=True)
    client = Client(url=url, key=key)
    output = client.chat(messages)
    print(output)

LLaMA-Factory 微调多模态大模型 Qwen3-VL

LLaMA-Factory 微调多模态大模型 Qwen3-VL

1. 显卡驱动

2. 模型微调

更多推荐文章

相关免费在线工具

3. 模型导出

4. 模型部署：vLLM 服务

5. 测试效果

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调多模态大模型 Qwen3-VL

LLaMA-Factory 微调多模态大模型 Qwen3-VL

1. 显卡驱动

2. 模型微调

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 模型导出

4. 模型部署：vLLM 服务

5. 测试效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具