LLaMA-Factory 大语言模型微调框架
LLaMA-Factory 是一个国内开源的低代码大模型训练框架,专为大型语言模型(LLMs)的微调而设计。它旨在简化大模型的训练流程,降低技术门槛,使开发者能够高效地定制和部署自己的大语言模型。
一、功能特点
LLaMA-Factory 的核心优势在于其易用性和强大的功能集成:
- 高效且低成本:支持对 100 多个主流模型进行微调,通过量化技术和参数高效微调方法(PEFT),显著降低显存需求和计算成本。
- 易于访问和使用:提供友好的 Web UI 界面,用户无需编写复杂代码即可配置训练任务;同时也支持命令行操作,便于自动化脚本集成。
- 丰富的数据集选项:内置多种标准数据集格式,支持用户上传自定义 JSON/JSONL 格式数据,灵活适配不同业务场景。
- 多样化的算法支持:集成了业界广泛使用的微调方法,包括全量微调、LoRA、QLoRA、DPO、PPO 等,满足不同精度和性能需求。
- 实时监控和评估:支持集成 TensorBoard、WandB 和 MLflow 等监控工具,实时追踪训练指标,方便分析模型收敛情况。
- 极速推理:基于 vLLM 提供 OpenAI 风格的 API 接口,支持高并发推理服务,同时提供浏览器界面和命令行工具。
二、环境准备与安装
1. 系统要求
- 操作系统:Linux (Ubuntu 18.04+), macOS, Windows (WSL2)
- Python 版本:建议 Python 3.8 及以上
- GPU 驱动:NVIDIA CUDA Toolkit 11.7 或更高版本
- 依赖库:PyTorch, Transformers, PEFT, Accelerate 等
2. 创建 Conda 环境
推荐使用 Conda 管理虚拟环境,避免依赖冲突:
conda create -n llamafactory python=3.9 -y
conda activate llamafactory
3. 克隆项目源码
从 GitHub 获取最新源代码:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
4. 安装依赖
根据需求选择安装基础包或包含特定加速库的版本:
# 基础安装
pip install -e ".[torch]"
# 如需使用 FlashAttention-2 加速(需 NVIDIA Ampere 架构 GPU)
pip install -e ".[flash-attn]"
# 如需使用 Unsloth 优化
pip install -e ".[unsloth]"
三、支持的模型与算法
1. 支持的主流模型
LLaMA-Factory 兼容众多开源大模型,包括但不限于:
- LLaMA 系列:LLaMA, LLaMA2, LLaMA3
- Qwen 系列:Qwen, Qwen1.5, Qwen2


