使用 LLaMA-Factory 微调 Qwen2.5 模型并转换为 GGUF 格式部署 | 极客日志

PythonAI算法

使用 LLaMA-Factory 微调 Qwen2.5 模型并转换为 GGUF 格式部署

使用 LLaMA-Factory 对 Qwen2.5-7B-Instruct 进行 LoRA 微调，并通过 llama.cpp 转换为 GGUF 格式的完整流程。内容包括环境搭建、数据集配置、训练参数设置及权重合并。重点解决了转换过程中因 transformers 版本不兼容导致的 tokenizer.json 解析错误，通过升级 transformers 至 4.45.0 成功导出模型。最终生成的 GGUF 模型可在 llama.cpp、Ollama 等后端高效部署。

观心发布于 2026/4/6更新于 2026/7/2456 浏览

在开源大模型领域，Qwen 系列凭借强大的中文能力和友好的协议受到广泛欢迎。然而，直接使用基座模型往往无法满足特定业务场景的需求，需要通过微调来注入领域知识。微调后的模型如何高效部署？GGUF 格式是目前 llama.cpp 等推理后端广泛支持的格式，具有跨平台、内存映射等优点。本文将完整记录使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct 模型，并通过 llama.cpp 将微调后的模型转换为 GGUF 格式的全过程，并分享在转换过程中遇到的经典错误及其解决方案。

1. 环境准备

我们在一台 Linux 服务器上操作，安装了 Conda 用于环境隔离。需要准备以下组件：

Python 3.10
LLaMA-Factory（用于微调）
llama.cpp（用于格式转换）
transformers、peft、accelerate 等依赖库

1.1 创建 Conda 环境

conda create -n llama_factory python=3.10 -y
conda activate llama_factory

1.2 安装 LLaMA-Factory

LLaMA-Factory 是一个高效的微调框架，支持多种模型和算法。我们通过源码安装：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e "[torch,metrics]"

安装过程中如果遇到依赖冲突，可适当调整 transformers 版本，但建议保持最新。

1.3 安装 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt

注意：转换脚本 convert_hf_to_gguf.py 依赖 transformers，需要保证其版本兼容。

2. 使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

以 Qwen2.5-7B-Instruct 为基座，使用自定义数据集进行指令微调。假设数据已准备为 JSON 格式，每条包含 instruction 和 output 字段。

2.1 准备数据

将数据集放在 LLaMA-Factory/data 目录下，并创建数据集配置文件 dataset_info.json，示例如下：

{
  "my_dataset": {
    "file_name": "my_dataset.json",
    "columns": {
      "prompt": "instruction",
      "response"

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
  --stage sft \
  --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
  --dataset my_dataset \
  --dataset_dir ./data \
  --finetuning_type lora \
  --lora_target q_proj,v_proj \
  --output_dir ./output/qwen2.5-lora \
  --overwrite_cache \
  --per_device_train_batch_size 4 \
  --gradient_accumulation_steps 4 \
  --lr_scheduler_type cosine \
  --logging_steps 10 \
  --save_steps 500 \
  --learning_rate 1e-4 \
  --num_train_epochs 3 \
  --fp16

python src/export_model.py \
  --model_name_or_path Qwen/Qwen2.5-7B-Instruct \
  --adapter_name_or_path ./output/qwen2.5-lora \
  --template default \
  --finetuning_type lora \
  --export_dir ./output/qwen2.5-merged

conda create -n llama.cpp python=3.10 -y
conda activate llama.cpp
pip install torch transformers sentencepiece protobuf

cd /path/to/llama.cpp
python convert_hf_to_gguf.py /mnt/workspace/output/qwen2.5-merged \
  --outtype f16 \
  --verbose \
  --outfile /mnt/workspace/qwen2.5-7B-instruct.gguf

python llama.cpp/convert_hf_to_gguf.py /mnt/workspace/.cache/modelscope/models/Qwen/Qwen2.5-7B-Instruct-lora --outtype f16 --verbose --outfile /mnt/workspace/Meta-Llama-3-8B-Instruct-gguf.gguf
INFO:hf-to-gguf:Loading model: Qwen2.5-7B-Instruct-lora
INFO:hf-to-gguf:Model architecture: Qwen2ForCausalLM
INFO:hf-to-gguf:gguf: loading model weight map from 'model.safetensors.index.json'
INFO:hf-to-gguf:gguf: indexing model part 'model-00001-of-00004.safetensors'
...
FileNotFoundError: File not found: /mnt/workspace/.cache/modelscope/models/Qwen/Qwen2.5-7B-Instruct-lora/tokenizer.model
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
  File "/mnt/workspace/llama.cpp/convert_hf_to_gguf.py", line 3534, in set_vocab
    self._set_vocab_sentencepiece()
  ...
Exception: data did not match any variant of untagged enum ModelWrapper at line 757443 column 3 (llama.cpp)
root@dsw-1662938-774cbc5758-kd9bv:/mnt/workspace#

pip install --force-reinstall transformers==4.45.0

ls -lh /mnt/workspace/qwen2.5-7B-instruct.gguf

./main -m /mnt/workspace/qwen2.5-7B-instruct.gguf -p "你好，请介绍一下你自己。" -n 100

使用 LLaMA-Factory 微调 Qwen2.5 模型并转换为 GGUF 格式部署

1. 环境准备

1.1 创建 Conda 环境

1.2 安装 LLaMA-Factory

1.3 安装 llama.cpp

2. 使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

2.1 准备数据

更多推荐文章

相关免费在线工具

2.2 配置微调参数

2.3 合并 LoRA 权重（如果需要导出完整模型）

3. 将微调后的模型转换为 GGUF 格式

3.1 准备转换环境

3.2 使用 llama.cpp 的转换脚本

3.3 遇到的经典错误及解决

3.4 验证转换结果

4. 总结

更多推荐文章

相关免费在线工具

使用 LLaMA-Factory 微调 Qwen2.5 模型并转换为 GGUF 格式部署

1. 环境准备

1.1 创建 Conda 环境

1.2 安装 LLaMA-Factory

1.3 安装 llama.cpp

2. 使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

2.1 准备数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 配置微调参数

2.3 合并 LoRA 权重（如果需要导出完整模型）

3. 将微调后的模型转换为 GGUF 格式

3.1 准备转换环境

3.2 使用 llama.cpp 的转换脚本

3.3 遇到的经典错误及解决

3.4 验证转换结果

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具