LLaMA Factory 大模型微调、导出与量化指南 | 极客日志

PythonAI算法

LLaMA Factory 大模型微调、导出与量化指南

使用 LLaMA Factory 工具对大语言模型进行微调、验证、导出及量化的全流程。内容涵盖环境安装、数据集准备与格式说明、WebUI 参数配置、模型合并导出以及量化设置。通过该工具支持多种模型架构和训练算法，可实现高效的本地模型优化与部署。

晚风告白发布于 2026/3/27更新于 2026/5/3033 浏览

LLaMA Factory 大模型微调、导出与量化指南

模型种类：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
训练算法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
运算精度：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
优化算法：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 PiSSA。
加速算子：FlashAttention-2 和 Unsloth。
推理引擎：Transformers 和 vLLM。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等等。

GitHub 地址： https://github.com/hiyouga/LLaMA-Factory

官方文档： https://llamafactory.readthedocs.io/zh-cn/latest/

一、安装 LLaMA Factory

将源码下载到本地，cd 到根目录进行安装。

conda create -n llamafactory python=3.10 -y
conda activate llamafactory
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

在根目录启动 WebUI。记住一定要在 LLaMA Factory 的根目录启动。

llamafactory-cli webui

默认启动的端口是 7860。

二、LLaMA Factory 微调入门

1. 选择一个大模型

从魔塔社区下载 Qwen2.5-0.5B-Instruct 到本地，对该模型进行微调训练。

# 模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct', cache_dir="/root/autodl-tmp/llm")

2. 选择一个数据集

LLaMA Factory 的源码里默认提供了很多种可直接训练的数据集，在 data 目录下。我们就拿 identity.json 身份认知训练集来做微调。

将里面的占位符替换成合适的文字，并且保存。

3. 指令监督微调数据集介绍

指令监督微调 (Instruct Tuning) 通过让模型学习详细的指令以及对应的回答来优化模型在特定指令下的表现。

instruction 列对应的内容为人类指令，input 列对应的内容为人类输入，output 列对应的内容为模型回答。下面是一个例子。

"alpaca_zh_demo.json":

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

计算这些物品的总费用。 输入：汽车 - $3000，衣服 - $100，书 - $20。

汽车、衣服和书的总费用为 $3000 + $100 + $20 = $3120。

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "output": "模型回答（必填）",
    "system": "系统提示词（选填）",
    "history": [
      ["第一轮指令（选填）", "第一轮回答（选填）"],
      ["第二轮指令（选填）", "第二轮回答（选填）"]
    ]
  }
]

[
  {
    "instruction": "今天的天气怎么样？",
    "input": "",
    "output": "今天的天气不错，是晴天。",
    "history": [
      ["今天会下雨吗？", "今天不会下雨，是个好天气。"],
      ["今天适合出去玩吗？", "非常适合，空气质量很好。"]
    ]
  }
]

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}

LLaMA Factory 大模型微调、导出与量化指南

LLaMA Factory 大模型微调、导出与量化指南

一、安装 LLaMA Factory

二、LLaMA Factory 微调入门

1. 选择一个大模型

2. 选择一个数据集

3. 指令监督微调数据集介绍

更多推荐文章

相关免费在线工具

4. 微调实操

三、Chat 验证微调效果

四、微调后的模型合并导出

五、微调后的模型量化

更多推荐文章

相关免费在线工具

LLaMA Factory 大模型微调、导出与量化指南

LLaMA Factory 大模型微调、导出与量化指南

一、安装 LLaMA Factory

二、LLaMA Factory 微调入门

1. 选择一个大模型

2. 选择一个数据集

3. 指令监督微调数据集介绍

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 微调实操

三、Chat 验证微调效果

四、微调后的模型合并导出

五、微调后的模型量化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具