LLama-Factory 实战:基于自建数据集微调 Qwen7B 模型
一、项目简介
LLaMA-Factory 是一个高效的大模型训练框架,支持多种主流大模型的微调与推理。它提供了丰富的训练方法、精度选项及算法支持,旨在降低大模型应用的门槛。
项目特色
- 多种模型:支持 LLaMA、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等主流开源模型。
- 集成方法:涵盖(增量)预训练、指令监督微调(SFT)、奖励模型训练、PPO/DPO/KTO/ORPO 等对齐训练。
- 多种精度:支持 16 比特全参数微调、冻结微调、LoRA 微调以及基于 AQLM/AWQ/GPTQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
- 先进算法:内置 GaLore、BAdam、DoRA、LongLoRA、LoRA+、PiSSA 等优化算法。
- 实用技巧:集成 FlashAttention-2、Unsloth、RoPE scaling、NEFTune 等技术提升效率。
- 实验监控:支持 LlamaBoard、TensorBoard、Wandb、MLflow 等监控工具。
- 极速推理:提供基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。
二、硬件依赖
以下是不同微调方法及模型规模下的显存估算值(仅供参考):
| 方法 | 精度 | 7B | 13B | 30B | 70B |
|---|---|---|---|---|---|
| Full | AMP | 120GB | 240GB | 600GB | 1200GB |
| Full | 16bit | 60GB | 120GB | 300GB | 600GB |
| Freeze | 16bit | 20GB | 40GB | 80GB | 200GB |
| LoRA | 16bit | 16GB | 32GB | 64GB | 160GB |
| QLoRA | 8bit | 10GB | 20GB | 40GB | 80GB |
| QLoRA | 4bit |


