LLaMA-Factory 简介
LLaMA-Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它,可以在无需编写复杂代码的前提下,在本地完成上百种预训练模型的微调。框架特性丰富,支持多种模型架构(如 LLaMA、Qwen、Yi、ChatGLM 等)、多样的训练算法(包括 SFT、DPO、PPO 等)以及多种优化精度(全参数、LoRA、QLoRA 等)。此外,它还集成了 FlashAttention-2、Unsloth 等加速算子,并支持 TensorBoard、Wandb 等实验监控工具。
安装部署
CUDA 环境准备
CUDA 是 NVIDIA 提供的并行计算平台和编程模型。首先需确认 GPU 是否支持 CUDA,可通过官方文档查询显卡兼容性。
在 Linux 环境下,建议先检查系统版本和编译器环境:
uname -m && cat /etc/*release
gcc --version
随后下载并安装 CUDA Toolkit(推荐 12.2 或更高版本)。如果之前安装过旧版本,建议先卸载:
sudo /usr/local/cuda-12.1/bin/cuda-uninstaller
# 若命令不可用,可手动清理
sudo rm -r /usr/local/cuda-12.1/
sudo apt clean && sudo apt autoclean
安装完成后,输入 nvcc -V 验证版本号。
LLaMA-Factory 安装
基础环境建议使用 Ubuntu 22.04 + Python 3.10/3.11 + PyTorch 2.x。创建虚拟环境并安装依赖:
conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
若遇到依赖冲突,可尝试 pip install --no-deps -e . 跳过依赖检查。安装成功后,运行 llamafactory-cli version 校验版本。
启动 WebUI 界面:
CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui
如需使用离线模型,可从 HuggingFace 或 ModelScope 下载模型文件至本地目录。
数据微调
LLaMA-Factory 支持 Alpaca 和 ShareGPT 格式的数据集。所有数据集配置均在 data/dataset_info.json 中定义。
指令监督微调 (SFT)
指令微调通过让模型学习指令与回答的对应关系来优化表现。数据格式通常包含 instruction(人类指令)、input(人类输入)、output(模型回答),可选 system(系统提示词)和 history(历史对话)。
示例 JSON 结构:


