LLaMA-Factory 项目介绍与安装部署指南

LLaMA-Factory 项目介绍与安装部署

主流微调框架对比

在动手之前，先简单梳理一下目前主流的微调方案，方便大家根据场景做选择。

Transformer 是 Hugging Face 的核心库，生态最完善，适合中小规模模型实验和入门。如果你需要更极致的效率，PEFT 库提供了 LoRA、Prefix-tuning 等参数高效微调方法，计算和存储成本极低，但通常仅支持单卡训练。

LLaMA-Factory 则是我们本次课程的重点。它集成了多种微调方法，提供友好的 Web UI 界面，支持拖拽式配置，无需深厚的代码功底就能快速上手。对于非技术人员或追求快速原型验证的场景非常合适。

此外还有 ModelScope（阿里 MaaS 平台，适合企业级多模态）、MS-SWIFT（超大规模模型微调）以及 Unsloth（2024 年新技术，动态量化，速度提升明显但暂不支持分布式）。如果资源受限且追求极致效率，Unsloth 值得尝试；若需生产环境全流程，ModelScope 更稳妥。

LLaMA-Factory 项目概览

项目地址：https://github.com/hiyouga/LLaMA-Factory

目前该项目热度很高，Star 数持续增长，从 2023 年起人气迅速攀升。它支持几乎所有主流大语言模型，包括 Baichuan、DeepSeek、Gemma、GLM、GPT 系列等，每个模型都配有对应的对话模板。

环境与硬件要求

核心依赖

Python: 3.9 (最低) / 3.10 (推荐)
PyTorch: 2.0.0 (最低) / 2.6.0 (推荐)
Transformers: 4.49.0 (最低) / 4.50.0 (推荐)

可选组件

CUDA: 11.6 (最低) / 12.2 (推荐)
Flash-attn: 2.5.6 (最低) / 2.7.2 (推荐)，注意 V100 显卡可能不支持

显存预估 全精度训练对显存要求较高，例如 7B 模型 BF16 模式需约 60GB。若使用高效微调方法，需求会大幅降低：LoRA/Freeze 仅需 16GB，QLoRA 4-bit 甚至只需 6GB。实际部署时请根据显卡型号预留足够空间。

安装与部署

1. 获取代码与环境准备

建议在本地或服务器创建独立工作目录，避免污染系统环境。推荐使用 Conda 管理虚拟环境。

conda create -n llamafactory python=3.10
conda activate llamafactory

克隆项目仓库（使用 --depth 1 可加快下载速度）：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LlamaFactory

2. 安装依赖

进入项目目录后，依次安装基础依赖及扩展模块。FlashAttention 能显著加速训练，bitsandbytes 用于量化，deepspeed 支持分布式微调。

# 安装 FlashAttention (V100 不支持，可跳过)
pip install flash-attn --no-build-isolation 

# 安装量化库
pip install bitsandbytes

# 安装分布式训练库
pip install deepspeed==0.12.3

# 安装加速库
pip install accelerate


pip install -e . pip install -r requirements/metrics.txt

LLaMA-Factory 项目介绍与安装部署指南