Qwen3-VL 基于 Llama-Factory 的 QLoRA 微调与部署流程 (Ollama/LMDeploy) | 极客日志

PythonAI算法

Qwen3-VL 基于 Llama-Factory 的 QLoRA 微调与部署流程 (Ollama/LMDeploy)

使用 Llama-Factory 对 Qwen3-VL-2B-Instruct 模型进行 QLoRA 微调的全过程，基于 Open-EQA 具身智能数据集。内容包括环境配置、训练参数设置（4bit 量化）、训练过程监控、评估指标分析（BLEU/ROUGE）、模型融合导出，以及通过 Ollama 和 LMDeploy 进行本地推理部署的具体步骤。实验在 NVIDIA Tesla T4 显卡上完成，验证了低显存环境下多模态模型微调与部署的可行性。

云间漫步发布于 2026/4/5更新于 2026/7/2152 浏览

Qwen3-VL 基于 Llama-Factory 的 QLoRA 微调与部署流程 (Ollama/LMDeploy)

1.微调训练

有 cuda 显卡可以执行 pip install unsloth 可以安装 Unsloth 加快训练和推理。

执行 pip install tensorboard 安装保存完整训练过程的数据，避免中断只能部分曲线。

创建 saves/Qwen3-VL-2B-Instruct/qlora/train_openeqa，并创建文件 training_args.yaml，内容参考，路径根据自己的情况改：

### model
model_name_or_path: model/Qwen3-VL-2B-Instruct
trust_remote_code: true

### method
stage: sft
do_train: true
finetuning_type: lora
lora_target: all
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.1

### 是否使用 unsloth 加速
use_unsloth: false
# 不启用 Unsloth 加速
#unsloth_max_seq_length: 2048 # Unsloth 内部优化
flash_attn: auto # T4 自动回退到 FA1 或 sdpa

### quantization (QLoRA)
quantization_bit: 4
quantization_method: bitsandbytes
double_quantization: true #双量化/嵌套量化，进一步节省显存

### dataset
dataset: open_eqa_train_val
template: qwen3_vl_nothink
cutoff_len: 2048
max_samples: 100000

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli train saves/Qwen3-VL-2B-Instruct/qlora/train_openeqa/training_args.yaml

adapter_name_or_path: saves/Qwen3-VL-2B-Instruct/qlora/train_openeqa/ #最佳 checkpoint
cutoff_len: 2048
dataset_dir: data
ddp_timeout: 180000000
do_predict: true
eval_dataset: open_eqa_test
finetuning_type: lora
flash_attn: auto
max_new_tokens: 128
max_samples: 99999
model_name_or_path: model/Qwen3-VL-2B-Instruct
output_dir: saves/Qwen3-VL-2B-Instruct/qlora/eval_openeqa
per_device_eval_batch_size: 2
predict_with_generate: true
preprocessing_num_workers: 4
report_to: none
stage: sft
temperature: 0.2
template: qwen3_vl_nothink
top_p: 1.0
trust_remote_code: true

### model
model_name_or_path: model/Qwen3-VL-2B-Instruct
adapter_name_or_path: saves/Qwen3-VL-2B-Instruct/qlora/train_openeqa/
template: qwen3_vl_nothink
finetuning_type: lora
trust_remote_code: true

### export
export_dir: saves/Qwen3-VL-2B-Instruct/qlora/merge
export_size: 2 #导出模型分片（shard）的单文件大小上限，单位是 GB
export_device: auto
export_legacy_format: false #true：导出 .bin（旧/legacy）false：导出 .safetensors（默认/推荐）

# ollama modelfile auto-generated by llamafactory
FROM .
TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ range .Messages }}{{ if eq .Role "user" }}<|im_start|>user {{ .Content }}<|im_end|> <|im_start|>assistant {{ else if eq .Role "assistant" }}{{ .Content }}<|im_end|> {{ end }}{{ end }}"""
# PARAMETER temperature 0.7 #可设置温度
PARAMETER stop "<|im_end|>"
PARAMETER num_ctx 4096

ollama create qwen3-vl-2b -f Modelfile

ollama run qwen3-vl-2b "墙上有什么东西" ./data/open_eqa_frames/0a0c0f2b9ba65d1b/000.jpg

curl http://localhost:11434/api/generate -d '{ 
  "model": "模型名称", 
  "system": "系统提示词", 
  "prompt": "用户提示词", 
  "images": ["$图片 base64 变量"], 
  "format": "格式", 
  "stream": "是否流式输出", 
  "options": {参数设置}, 
}'

curl http://localhost:11434/api/generate -d '{ "model": "qwen3-vl-2b", "system": "你是机器人控制 AI。你必须输出可执行的动作序列。scene_analysis 必须包含：目标相对于当前视角的方位（左/右/前）和距离（米）。plan 中的 params 必须使用英文键名（target/type/distance/degrees）。严禁使用中文键名。", "prompt": "观察图片，为指令\"怎么关闭台灯\"输出 JSON：\n{\n \"scene_analysis\": \"目标在 [方位]，距离 [X] 米\",\n \"plan\": [\n {\"action\": \"rotate\", \"params\": {\"degrees\": 角度，\"direction\": \"left|right\"}},\n {\"action\": \"navigate\", \"params\": {\"distance\": 米数}},\n {\"action\": \"interact\", \"params\": {\"type\": \"press\", \"target\": \"台灯开关\"}}\n ]\n}", "images": ["'$IMG'"], "format": "json", "stream": false, "options": {"temperature": 0.01, "num_predict": 300} }'

from lmdeploy import pipeline, TurbomindEngineConfig, PytorchEngineConfig, GenerationConfig
from lmdeploy.vl import load_image
import time

MODEL_PATH = "/workspace/LlamaFactory/saves/Qwen3-VL-2B-Instruct/qlora/merge"
IMAGE_PATH = "/workspace/LlamaFactory/data/open_eqa_frames/0a0c0f2b9ba65d1b/000.jpg"

print("🚀 使用 LMDeploy PyTorch 后端加载 Qwen3-VL...")
# ⚠️ T4 必须用 PyTorch 后端（TurboMind 不支持 Qwen3-VL）
# T4 只有 16GB，限制并发和序列长度
engine_config = PytorchEngineConfig(
    tp=1, # 单卡
    session_len=4096, # 最大序列长度（T4 显存限制）
    max_batch_size=4, # 最大批处理大小
    cache_max_entry_count=0.6, # KV Cache 占用显存比例（T4 建议 0.5-0.6）
    eager_mode=True, # T4 必须禁用 CUDA Graph
)

if __name__ == '__main__':
    #freeze_support() # 创建 pipeline（会自动检测无 Flash Attn，fallback 到 native）
    pipe = pipeline(MODEL_PATH, backend_config=engine_config)
    print("✅ 模型加载成功！")
    # 加载图片
    image = load_image(IMAGE_PATH)
    # 测试单张图片
    print("\n🎯 单图推理测试...")
    prompts = [
        ("描述这张图片", image),
    ]
    start = time.time()
    # 使用 GenerationConfig 对象而非 dict
    response = pipe(prompts, gen_config=GenerationConfig(max_new_tokens=256, temperature=0.7))
    latency = time.time() - start
    print(f"⏱️ 延迟：{latency:.2f} s")
    print(f"📝 输出：{response[0].text}")
    # 测试 batch 加速效果（LMDeploy 的核心优势）
    print("\n🎯 Batch 推理测试（4 张相同图片，体现 continuous batching）...")
    prompts_batch = [
        ("描述这张图片", image),
        ("图中有几个人？", image),
        ("这是什么场景？", image),
        ("图片主色调是什么？", image),
    ]
    start = time.time()
    responses = pipe(prompts_batch, gen_config=GenerationConfig(max_new_tokens=128))
    batch_latency = time.time() - start
    print(f"⏱️ Batch 总延迟：{batch_latency:.2f} s")
    print(f"⚡ 平均每个请求：{batch_latency/4:.2f} s")
    print("📊 throughput 提升：{:.1f}x".format(4 / (batch_latency / latency)))

nohup lmdeploy serve api_server /workspace/LlamaFactory/saves/Qwen3-VL-2B-Instruct/qlora/merge --model-name qwen3-vl --backend pytorch --tp 1 --session-len 4096 --cache-max-entry-count 0.6 --max-batch-size 4 --eager-mode --server-port 23333 > api_server.log 2>&1 &

参数	作用	T4 约束
`--backend pytorch`	使用 PyTorch 后端推理	必须：TurboMind(C++) 不支持 Qwen3-VL 架构，且 T4 是 SM75 架构
`--tp 1`	张量并行数	T4 只有 1 张卡，设为 1（多卡可加速但 T4 不支持 NVLink 高效通信）
`--session-len 4096`	最大序列长度	受限于 16GB 显存，4096 是安全值（过长会 OOM）
`--cache-max-entry-count 0.6`	KV Cache 显存占比	核心优化：0.6×16GB=9.6GB 给 KV Cache，剩余给模型权重 (4-5GB) 和激活值
`--max-batch-size 4`	最大 batch size	Continuous Batching 并发上限，T4 建议 4-8，过高会延迟增加
`--eager-mode`	禁用 CUDA Graph 编译	必须：T4 架构较旧，CUDA Graph 可能导致非法指令或内存错误
`--server-port 23333`	API 端口	默认与 OpenAI API(8080) 区分避免冲突

符号	含义
`nohup`	No Hang Up，用户退出 SSH 后进程继续运行
`> api_server.log`	标准输出 (STDOUT) 重定向到日志文件
`2>&1`	标准错误 (STDERR) 重定向到 STDOUT（即也进日志）
`&`	后台运行（立即返回命令行，不阻塞）

BASE64_IMG=$(base64 -w 0 /workspace/LlamaFactory/data/open_eqa_frames/0a0c0f2b9ba65d1b/000.jpg)
curl -X POST http://localhost:23333/v1/chat/completions \
-H "Content-Type: application/json" \
-d "{ \"model\": \"qwen3-vl\", \"messages\": [{ \"role\": \"user\", \"content\": [{\"type\": \"image_url\", \"image_url\": {\"url\": \"data:image/jpeg;base64,${BASE64_IMG}\"}}, {\"type\": \"text\", \"text\": \"描述这张图片\"}] }], \"max_tokens\": 256, \"temperature\": 0.7 }"

PID	进程	说明
12684	`/root/miniforge3/bin/lmdeploy serve api_server ...`	真正的 LMDeploy 服务（占 1.9GB 内存）
13135	`grep --color=auto lmdeploy serve api_server`	刚执行的 grep 命令本身（临时进程，已结束）

Qwen3-VL 基于 Llama-Factory 的 QLoRA 微调与部署流程 (Ollama/LMDeploy)

1.微调训练

更多推荐文章

相关免费在线工具

2.测试评估

3.融合模型导出

4.推理部署 API 服务

(1) Ollama

(2) LMDeploy

更多推荐文章

相关免费在线工具

Qwen3-VL 基于 Llama-Factory 的 QLoRA 微调与部署流程 (Ollama/LMDeploy)

1.微调训练

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.测试评估

3.融合模型导出

4.推理部署 API 服务

(1) Ollama

(2) LMDeploy

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具