LLaMA-Factory 微调 Qwen3-VL 详细流程

介绍使用 LLaMA-Factory 对 Qwen3-VL 多模态大模型进行微调的完整流程。内容包括环境搭建、模型下载、LoRA 微调配置、私有数据集构造、模型权重合并以及基于 vLLM 的高并发部署方案。通过命令行操作完成 SFT 任务，并提供 OpenAI 兼容接口的 Python 调用示例，适用于工业级落地场景。

链路追踪发布于 2026/4/6更新于 2026/7/2544 浏览

LLaMA-Factory 微调 Qwen3-VL 详细流程

目标：本文详细介绍多模态大模型使用 LLaMA-Factory 进行微调（SFT）的全部流程，以及微调后合并和工业落地部署方案。具体包括：

环境安装部署
数据集准备
启动微调
模型合并
模型部署和请求方式 (vLLM 部署)

示例模型：Qwen2.5-VL-Instruct, Qwen3-VL-Instruct

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

方式 2 下载项目压缩包再解压

[图片]

Python 环境安装

Python 虚拟环境创建
- conda create --name llama_env python=3.12 (默认已安装好 anaconda 或者 miniconda)
- conda activate llama_env # 进入虚拟环境
安装依赖包
- cd LLaMA-Factory-main # 进入项目目录
- pip install -e ".[torch,metrics]" --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

[图片]

下载模型

从 ModelScope 或者 HuggingFace 下载模型到指定目录。比如 Qwen3-VL。

在当前项目目录打开终端
输入 modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model 将模型下载到 models 目录下。

[图片]

启动训练（命令行）

在 Linux 系统上，一般直接使用命令行进行训练、合并、部署。

LoRA 微调步骤-SFT 任务

先使用默认数据集测试微调流程

在 LLaMA-Factory-main 目录下：

执行 CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml 开始训练画面：

[图片]

编辑配置文件 vim examples/train_lora/qwen2_5vl_lora_sft.yaml：

### model
model_name_or_path: /data/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384

LLaMA-Factory 微调 Qwen3-VL 详细流程

目标：本文详细介绍多模态大模型使用 LLaMA-Factory 进行微调（SFT）的全部流程，以及微调后合并和工业落地部署方案。具体包括：

环境安装部署
数据集准备
启动微调
模型合并
模型部署和请求方式 (vLLM 部署)

示例模型：Qwen2.5-VL-Instruct, Qwen3-VL-Instruct

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

方式 2 下载项目压缩包再解压

[图片]

Python 环境安装

Python 虚拟环境创建
- conda create --name llama_env python=3.12 (默认已安装好 anaconda 或者 miniconda)
- conda activate llama_env # 进入虚拟环境
安装依赖包
- cd LLaMA-Factory-main # 进入项目目录
- pip install -e ".[torch,metrics]" --no-build-isolation -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

[图片]

下载模型

从 ModelScope 或者 HuggingFace 下载模型到指定目录。比如 Qwen3-VL。

在当前项目目录打开终端
输入 modelscope download --model Qwen/Qwen3-VL-2B-Instruct --local_dir ./qwen3_vl_model 将模型下载到 models 目录下。

[图片]

启动训练（命令行）

在 Linux 系统上，一般直接使用命令行进行训练、合并、部署。

LoRA 微调步骤-SFT 任务

先使用默认数据集测试微调流程

在 LLaMA-Factory-main 目录下：

执行 CUDA_VISIBLE_DEVICES=6 llamafactory-cli train examples/train_lora/qwen2_5vl_lora_sft.yaml 开始训练画面：

[图片]

编辑配置文件 vim examples/train_lora/qwen2_5vl_lora_sft.yaml：

### model
model_name_or_path: /data/LLaMA-Factory-main/qwen3_vl_model # 模型路径
image_max_pixels: 262144
video_max_pixels: 16384

import openai import base64 import os from openai import OpenAI def encode_image(image_path): """将图像文件编码为 base64""" with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read()).decode('utf-8') def multimodal_chat(image_path=None, text_prompt="描述这张图片"): """ 多模态聊天请求 Args: image_path: 图像文件路径 text_prompt: 文本提示 """ client = OpenAI( api_key="Empty", base_url="http://127.0.0.1:8003/v1/" # 你的 vLLM 服务器地址和端口 ) # 构建消息内容 messages = [{"role":"system","content":"你是一个多模态智能助手，可以理解和分析图像内容。"}] # 如果有图像，添加多模态内容 if image_path and os.path.exists(image_path): base64_image = encode_image(image_path) user_content = [{"type":"text","text": text_prompt },{"type":"image_url","image_url":{"url":f"data:image/jpeg;base64,{base64_image}"}}] else: # 如果没有图像，只发送文本 user_content = text_prompt messages.append({"role":"user","content": user_content }) payload = {"model":"qwen3_vl", # 你设置的模型名称 "messages": messages, "temperature":0.1, "max_tokens":2000} print("请求 payload 结构:") print(f"- 模型：{payload['model']}") print(f"- 消息数量：{len(payload['messages'])}") if image_path: print(f"- 包含图像：{image_path}") print(f"- 提示词：{text_prompt}") try: # 发送请求 response = client.chat.completions.create(**payload, timeout=30) # 多模态请求可能需要更长时间 return response except Exception as e: print(f"请求失败：{e}") return None if __name__ == "__main__": # 直接测试特定图片 image_path = r"C:\Users\Public\Desktop\临时\副业\宠物\狗头舔脚\2.png" # 修改为你的图片路径 prompt = "描述这张图片中有什么" if os.path.exists(image_path): print(f"正在分析图片：{image_path}") res = multimodal_chat(image_path=image_path, text_prompt=prompt) if res and res.choices: print("\n模型回复:") print(res.choices[0].message.content) else: print("请求失败")

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

更多推荐文章

相关免费在线工具

合并 LoRA 模型

私有训练数据准备（重要）

了解 data 目录和 dataset_info.json 文件

详细构造自己的 SFT 数据集

开始训练

其他任务数据构造

模型部署

vLLM 安装

服务启动命令（OpenAI 标准）

服务请求

代码请求

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

LLaMA-Factory 微调 Qwen3-VL 详细流程

LLaMA-Factory 微调 Qwen3-VL 详细流程

环境安装

LLaMA-Factory 环境准备

方式 1 Git 直接下载

方式 2 下载项目压缩包再解压

Python 环境安装

下载模型

启动训练（命令行）

LoRA 微调步骤-SFT 任务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

合并 LoRA 模型

私有训练数据准备（重要）

了解 data 目录和 dataset_info.json 文件

详细构造自己的 SFT 数据集

开始训练

其他任务数据构造

模型部署

vLLM 安装

服务启动命令（OpenAI 标准）

服务请求

代码请求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具