使用 LLaMA-Factory 训练 Qwen2.5-VL 进行目标检测任务 | 极客日志

PythonAI算法

使用 LLaMA-Factory 训练 Qwen2.5-VL 进行目标检测任务

基于 LLaMA-Factory 框架微调 Qwen2.5-VL 模型完成目标检测任务。流程包括环境部署、配置文件调整（model 与 dataset）、数据格式转换（LabelMe 至 ShareGPT）、图像尺寸对齐处理及模型推理。重点说明 Vision Transformer 架构对输入尺寸要求及 smart_resize 策略，提供 YAML 配置示例与代码实现细节。

竹影清风发布于 2026/4/7更新于 2026/7/2237 浏览

一、LLaMA-Factory 的部署

参考官方文档或相关教程完成工程安装步骤，整个过程较为流畅。

二、LLaMA-Factory 的配置文件介绍

以 examples/qwen2_5vl_lora_sft.yaml 为切入点，查看训练自己模型时需要关注的内容。该文件中配置了大模型训练过程中所有的参数，包括：model（模型的选择与配置）、method（训练方式）、dataset（数据集）、output（训练时输出信息）、train（训练参数）。

现阶段要跑通工程需要关注的有：model、dataset。

1. Model 模型的设置

在 examples/qwen2_5vl_lora_sft.yaml 中的 model_name_or_path 设置为自己微调的大模型名称。工程会自动从 HuggingFace 中拉取模型，但这种方式不建议，网络限制和不稳定等原因会让下载过程很不稳定。建议设置为已经下载到本地大模型的绝对路径。该方式需要提前将大模型下载下来对应文件。

2. Dataset 数据集的关联

在 data/dataset_info.json 中配置数据集信息。这两个文件中，设置的变量命名是有对应性的。相同颜色的框内的变量命名一定要是一致的。

data/mllm_demo.json

最小单元内容如下：

{"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}], "images": ["path/to/image.jpg"]}

data/dataset_info.json

{
    "mllm_demo"

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir [本地下载路径]

from modelscope.hub.snapshot_download import snapshot_download

# 定义模型 ID 和本地目标路径
model_id = 'qwen/Qwen2.5-VL-3B-Instruct'
local_dir = '~/llm_models/Qwen2.5-VL'

# 下载模型
model_dir = snapshot_download(model_id, cache_dir=local_dir, revision='master')
print(f"模型已下载至：{model_dir}")

{
    "train_det": {
        "file_name": "/home/LL/workfile_2026/12-QwenVL/LLaMA-Factory/LL_own/qwen_det2/train.jsonl",
        "formatting": "sharegpt",
        "columns": {
            "messages": "messages",
            "images": "images"
        },
        "tags": {
            "role_tag": "role",
            "content_tag": "content",
            "user_tag": "user",
            "assistant_tag": "assistant"
        }
    }
}

cp examples/train_lora/qwen2_5vl_lora_sft.yaml examples/train_lora/qwen2_5vl_own.yaml

### model
model_name_or_path: /home/LL/llm_models/Qwen2.5-VL/Qwen/Qwen2___5-VL-3B-Instruct
image_max_pixels: 262144
video_max_pixels: 16384
trust_remote_code: true

### method
stage: sft
do_train: true
finetuning_type: lora
lora_rank: 8
lora_target: all

### dataset
dataset: train_det
template: qwen2_vl
cutoff_len: 2048
max_samples: 20000
overwrite_cache: true
preprocessing_num_workers: 16
dataloader_num_workers: 4

### output
output_dir: ./LL_own/save/train_detect_3B
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true
save_only_model: false
report_to: none

### train
per_device_train_batch_size: 8
gradient_accumulation_steps: 8
learning_rate: 1.0e-5
num_train_epochs: 6.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000
resume_from_checkpoint: null

### eval
# val_size: 0.1
# per_device_eval_batch_size: 1
# eval_strategy: steps
# eval_steps: 500

使用 LLaMA-Factory 训练 Qwen2.5-VL 进行目标检测任务

一、LLaMA-Factory 的部署

二、LLaMA-Factory 的配置文件介绍

1. Model 模型的设置

2. Dataset 数据集的关联

data/mllm_demo.json

data/dataset_info.json

更多推荐文章

相关免费在线工具

三、使用 LLaMA-Factory 训练目标检测

1. Qwen2.5-VL-3B 的下载

2. 训练数据的格式转换

图像与边界框的协同处理

3. 配置文件的修改

data/dataset_info.json

examples/train_lora/qwen2_5vl_lora_sft.yaml

四、训练好的模型的推理

五、其他

更多推荐文章

相关免费在线工具

使用 LLaMA-Factory 训练 Qwen2.5-VL 进行目标检测任务

一、LLaMA-Factory 的部署

二、LLaMA-Factory 的配置文件介绍

1. Model 模型的设置

2. Dataset 数据集的关联

data/mllm_demo.json

data/dataset_info.json

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、使用 LLaMA-Factory 训练目标检测

1. Qwen2.5-VL-3B 的下载

2. 训练数据的格式转换

图像与边界框的协同处理

3. 配置文件的修改

data/dataset_info.json

examples/train_lora/qwen2_5vl_lora_sft.yaml

四、训练好的模型的推理

五、其他

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具