LLaMA-Factory 大语言模型微调框架
LLaMA-Factory 是一个开源的大模型训练框架,主打低代码和参数高效微调。它把数据准备、训练、评估、推理这些原本分散的环节收拢到一起,适合想快速把开源模型改成自己可用版本的人。
功能和定位
它最有价值的地方,不是'功能多'这么简单,而是把很多常见坑提前封装掉了。对日常训练来说,省掉的往往不是几行命令,而是大量反复试错的时间。
- 支持 100 多个主流模型微调,覆盖 LLaMA、Qwen、ChatGLM、Baichuan、Mistral、Yi、Gemma、Phi、InternLM 等。
- 提供 Web UI 和命令行两种入口。想手动调参时用 UI,想接脚本或 CI/CD 时用 CLI。
- 数据集格式比较灵活,既支持内置格式,也支持用户上传自定义 JSON/JSONL。
- 微调方法覆盖全量微调、LoRA、QLoRA、DPO、PPO 等,适合不同的显存预算和训练目标。
- 训练过程能接 TensorBoard、WandB、MLflow,方便盯指标,不用靠猜。
- 推理部分基于 vLLM,提供 OpenAI 风格 API,也能直接在浏览器里测效果。
环境准备
系统要求
- 操作系统:Linux(Ubuntu 18.04+)、macOS、Windows(WSL2)
- Python:3.8 及以上
- GPU:NVIDIA CUDA Toolkit 11.7 或更高版本
- 依赖:PyTorch、Transformers、PEFT、Accelerate 等
创建 Conda 环境
conda create -n llamafactory python=3.9 -y
conda activate llamafactory
克隆源码
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
安装依赖
基础安装和加速版可以按需要选。没必要一上来就把所有可选项都装上,尤其是本地环境不稳定的时候,先跑通基础链路更省事。
# 基础安装
pip install -e ".[torch]"
# 如需使用 FlashAttention-2 加速(需 NVIDIA Ampere 架构 GPU)
pip install -e ".[flash-attn]"
# 如需使用 Unsloth 优化
pip install -e ".[unsloth]"
支持的模型和训练方式
LLaMA-Factory 兼容的模型范围比较广,实际使用时常见的几条线是:
- LLaMA 系列:LLaMA、LLaMA2、LLaMA3
- Qwen 系列:Qwen、Qwen1.5、Qwen2
- ChatGLM 系列:ChatGLM、ChatGLM2、ChatGLM3
- Baichuan 系列:Baichuan、Baichuan2
- 其他:Mistral、Mixtral、Yi、Gemma、Phi、InternLM 等
训练任务主要分成几类:
- 增量预训练:在领域语料上继续预训练
- 指令监督微调:用指令-输出数据做 SFT
- 奖励模型训练:给后续强化学习阶段准备奖励模型
- 对齐训练:支持 PPO、DPO、KTO、ORPO 等方法
精度和优化这块,LLaMA-Factory 也比较全:
- 全量微调:更新所有参数,成本最高
- 冻结微调:只动部分层,训练更轻


