使用 LLaMA-Factory 微调 Qwen2.5 并转换为 GGUF 格式部署

环境搭建

在开源大模型领域，Qwen 系列凭借强大的中文能力和友好的协议受到广泛欢迎。然而，直接使用基座模型往往无法满足特定业务场景的需求，需要通过微调来注入领域知识。微调后的模型如何高效部署？GGUF 格式是目前 llama.cpp 等推理后端广泛支持的格式，具有跨平台、内存映射等优点。

我们在一台 Linux 服务器上操作，安装了 Conda 用于环境隔离。需要准备以下组件：

Python 3.10
LLaMA-Factory（用于微调）
llama.cpp（用于格式转换）
transformers、peft、accelerate 等依赖库

1. 创建 Conda 环境

conda create -n llama_factory python=3.10 -y
conda activate llama_factory

2. 安装 LLaMA-Factory

LLaMA-Factory 是一个高效的微调框架，支持多种模型和算法。我们通过源码安装：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

安装过程中如果遇到依赖冲突，可适当调整 transformers 版本，但建议保持最新。

3. 安装 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
pip install -r requirements.txt

注意：转换脚本 convert_hf_to_gguf.py 依赖 transformers，需要保证其版本兼容。

使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

以 Qwen2.5-7B-Instruct 为基座，使用自定义数据集进行指令微调。假设数据已准备为 JSON 格式，每条包含 instruction 和 output 字段。

1. 准备数据

将数据集放在 LLaMA-Factory/data 目录下，并创建数据集配置文件 dataset_info.json，示例如下：

{
  "my_dataset": {
    "file_name": "my_dataset.json",
    "columns": {
      "prompt": "instruction",
      "response": "output"
    }

使用 LLaMA-Factory 微调 Qwen2.5 并转换为 GGUF 格式部署

环境搭建

1. 创建 Conda 环境

2. 安装 LLaMA-Factory

3. 安装 llama.cpp

使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

1. 准备数据

更多推荐文章

相关免费在线工具

2. 配置微调参数

3. 合并 LoRA 权重

将微调后的模型转换为 GGUF 格式

1. 准备转换环境

2. 执行转换命令

3. 遇到的经典错误及解决

4. 验证转换结果

总结

更多推荐文章

相关免费在线工具

使用 LLaMA-Factory 微调 Qwen2.5 并转换为 GGUF 格式部署

环境搭建

1. 创建 Conda 环境

2. 安装 LLaMA-Factory

3. 安装 llama.cpp

使用 LLaMA-Factory 微调 Qwen2.5-7B-Instruct

1. 准备数据

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 配置微调参数

3. 合并 LoRA 权重

将微调后的模型转换为 GGUF 格式

1. 准备转换环境

2. 执行转换命令

3. 遇到的经典错误及解决

4. 验证转换结果

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具