本地部署 LLaMA-Factory 并微调 Qwen2.5 模型 | 极客日志

PythonAI算法

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

演示如何在本地使用 LLaMA-Factory 框架微调 Qwen2.5-7B-Instruct 模型。步骤包括环境搭建、模型权重下载、LoRA/QLoRA 数据准备与训练配置、效果评估及模型导出。最后通过 vLLM 部署高吞吐推理服务，实现从开发到生产的全流程闭环。适合有 Linux 和 Python 基础的开发者进行私有化大模型定制。

菩提发布于 2026/4/5更新于 2026/6/537 浏览

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

在大模型落地应用日益深入的今天，如何快速、低成本地定制一个符合特定领域需求的语言模型，已成为开发者和企业面临的核心课题。通义千问团队最新发布的 Qwen2.5 系列，凭借其强大的中文理解能力和长上下文支持（最高 32K），迅速成为中文场景下的热门选择。然而，开箱即用的通用模型往往难以满足垂直领域的专业表达与任务逻辑。

这时候，轻量级微调就成了破局关键——无需从头训练千亿参数，只需通过少量高质量数据引导，就能让模型'学会'新技能。而 LLaMA-Factory 正是当前最成熟的大模型微调一体化框架之一，它将原本复杂的训练流程封装为可视化的操作界面，极大降低了技术门槛。

本文将以 Qwen2.5-7B-Instruct 模型为例，完整演示如何在本地环境中使用 LoRA/QLoRA 技术对其进行高效微调，并最终部署为高性能 API 服务。整个过程无需编写复杂代码，适合有一定 Linux 和 Python 基础的开发者实操。

部署 LLaMA-Factory：搭建你的私有化微调平台

LLaMA-Factory 被誉为'大语言模型微调的一站式工厂'，支持包括 Qwen、LLaMA、Baichuan、ChatGLM 在内的 100+ 主流架构模型，覆盖数据预处理、高效微调、训练监控到模型导出与部署的全流程。其最大亮点是内置了直观易用的 WebUI 界面，开发者可以通过图形化操作完成全部配置。

首先克隆项目源码：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

建议创建独立 Conda 环境以避免依赖冲突，推荐使用 Python 3.11：

conda create -n llama_factory python=3.11 -y
conda activate llama_factory

安装核心依赖项，包含 PyTorch 及评估组件：

pip install -e '.[torch,metrics]'

安装完成后，务必验证 GPU 是否正常识别：

import torch
print(torch.cuda.is_available()) # 应输出 True
print(torch.__version__)
print(torch.cuda.current_device())
print(torch.cuda.get_device_name(0)) # 如 NVIDIA A100 或 RTX 4090

若以上命令均能正确执行，则说明 CUDA 环境已就绪，可以进入下一步。

获取 Qwen2.5 模型权重：加速下载策略

Hugging Face 官方仓库中托管了 Qwen/Qwen2.5-7B-Instruct 的公开权重，但由于文件体积较大（约 15GB），直接下载可能较慢。为此，可启用 hf_transfer 扩展来实现多线程并行传输，显著提升速度。

先安装增强工具包：

pip install "huggingface_hub[hf_transfer]"

然后设置环境变量激活高速模式：

export HF_HUB_ENABLE_HF_TRANSFER=1

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

huggingface-cli download Qwen/Qwen2.5-7B-Instruct \
--local-dir models/Qwen2.5-7B-Instruct \
--local-dir-use-symlinks False

mkdir workspace && cd workspace
wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/llama_factory/data.zip
unzip data.zip

[
  { "instruction": "解释什么是机器学习", "input": "", "output": "机器学习是……" },
  ...
]

cp alpaca_zh.json ../data/

{
  "my_alpaca_zh": {
    "file_name": "alpaca_zh.json",
    "columns": {
      "instruction": "instruction",
      "input": "input",
      "output": "output"
    }
  }
}

llamafactory-cli webui

参数项	推荐值	说明
模型路径	`models/Qwen2.5-7B-Instruct`	刚才下载的模型目录
微调方法	`qlora`	推荐节省显存
数据集	`my_alpaca_zh`	自定义注册的数据集
输出目录	`train_qwen2.5`	适配器权重保存路径

ROUGE-1: 0.62 | ROUGE-2: 0.45 | ROUGE-L: 0.58

pip install -e '.[vllm]'

VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve merged_qwen2.5 \
--host 0.0.0.0 \
--port 8000 \
--served-model-name qwen2.5-finetuned \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.95 \
--max-model-len 32768 \
--trust-remote-code \
--api-key sk-llama-factory-demo

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="sk-llama-factory-demo"
)
response = client.chat.completions.create(
    model="qwen2.5-finetuned",
    messages=[{"role": "user", "content": "你好，请介绍一下你自己"}]
)
print(response.choices[0].message.content)

#!/bin/bash
# 加载 Conda 环境
eval "$(/root/miniconda3/bin/conda shell.bash hook)"
conda activate llama_factory
# 设置环境变量
export DISABLE_VERSION_CHECK=1
export PYTORCH_NVML_BASED_CUDA_CHECK=1
export CUDA_VISIBLE_DEVICES=0,1,2,3 # 指定使用的 GPU 编号
# 启动 WebUI
llamafactory-cli webui --host 0.0.0.0 --port 7860

chmod +x start_llama_factory.sh

./start_llama_factory.sh

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

部署 LLaMA-Factory：搭建你的私有化微调平台

获取 Qwen2.5 模型权重：加速下载策略

更多推荐文章

相关免费在线工具

微调实战：从数据准备到训练启动

准备自定义训练数据集

配置微调参数：兼顾效果与资源

启动训练任务：观察训练动态

效果验证：评估与人工测试双管齐下

自动化指标评估

人机对话测试：真实体验微调成果

导出融合模型：迈向生产部署的第一步

使用 vLLM 部署高吞吐推理服务

创建自动化启动脚本：简化日常运维

更多推荐文章

相关免费在线工具

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

本地部署 LLaMA-Factory 并微调 Qwen2.5 模型

部署 LLaMA-Factory：搭建你的私有化微调平台

获取 Qwen2.5 模型权重：加速下载策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微调实战：从数据准备到训练启动

准备自定义训练数据集

配置微调参数：兼顾效果与资源

启动训练任务：观察训练动态

效果验证：评估与人工测试双管齐下

自动化指标评估

人机对话测试：真实体验微调成果

导出融合模型：迈向生产部署的第一步

使用 vLLM 部署高吞吐推理服务

创建自动化启动脚本：简化日常运维

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具