LLaMA-Factory 项目介绍与安装部署
主流微调框架对比
在动手之前,先简单梳理一下目前主流的微调方案,方便大家根据场景做选择。
Transformer 是 Hugging Face 的核心库,生态最完善,适合中小规模模型实验和入门。如果你需要更极致的效率,PEFT 库提供了 LoRA、Prefix-tuning 等参数高效微调方法,计算和存储成本极低,但通常仅支持单卡训练。
LLaMA-Factory 则是我们本次课程的重点。它集成了多种微调方法,提供友好的 Web UI 界面,支持拖拽式配置,无需深厚的代码功底就能快速上手。对于非技术人员或追求快速原型验证的场景非常合适。
此外还有 ModelScope(阿里 MaaS 平台,适合企业级多模态)、MS-SWIFT(超大规模模型微调)以及 Unsloth(2024 年新技术,动态量化,速度提升明显但暂不支持分布式)。如果资源受限且追求极致效率,Unsloth 值得尝试;若需生产环境全流程,ModelScope 更稳妥。
LLaMA-Factory 项目概览
项目地址:https://github.com/hiyouga/LLaMA-Factory
目前该项目热度很高,Star 数持续增长,从 2023 年起人气迅速攀升。它支持几乎所有主流大语言模型,包括 Baichuan、DeepSeek、Gemma、GLM、GPT 系列等,每个模型都配有对应的对话模板。
环境与硬件要求
核心依赖
- Python: 3.9 (最低) / 3.10 (推荐)
- PyTorch: 2.0.0 (最低) / 2.6.0 (推荐)
- Transformers: 4.49.0 (最低) / 4.50.0 (推荐)
可选组件
- CUDA: 11.6 (最低) / 12.2 (推荐)
- Flash-attn: 2.5.6 (最低) / 2.7.2 (推荐),注意 V100 显卡可能不支持
显存预估 全精度训练对显存要求较高,例如 7B 模型 BF16 模式需约 60GB。若使用高效微调方法,需求会大幅降低:LoRA/Freeze 仅需 16GB,QLoRA 4-bit 甚至只需 6GB。实际部署时请根据显卡型号预留足够空间。
安装与部署
1. 获取代码与环境准备
建议在本地或服务器创建独立工作目录,避免污染系统环境。推荐使用 Conda 管理虚拟环境。
conda create -n llamafactory python=3.10
conda activate llamafactory
克隆项目仓库(使用 --depth 1 可加快下载速度):
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LlamaFactory
2. 安装依赖
进入项目目录后,依次安装基础依赖及扩展模块。FlashAttention 能显著加速训练,bitsandbytes 用于量化,deepspeed 支持分布式微调。
# 安装 FlashAttention (V100 不支持,可跳过)
pip install flash-attn --no-build-isolation
# 安装量化库
pip install bitsandbytes
# 安装分布式训练库
pip install deepspeed==0.12.3
# 安装加速库
pip install accelerate
pip install -e . pip install -r requirements/metrics.txt


