LLaMA-Factory 大模型微调实战指南
LLaMA-Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它,我们可以在无需编写大量代码的前提下,在本地完成上百种预训练模型的微调。框架特性非常丰富,支持 LLaMA、Qwen、Yi 等多种主流模型架构,涵盖指令监督微调、奖励模型训练、DPO 等多种算法,以及全参数、LoRA、QLoRA 等不同精度的训练方式。
安装部署
环境准备
首先确保你的 Linux 版本支持 CUDA。在命令行中输入 uname -m && cat /etc/*release 检查系统信息,确认是 x86_64 架构且为 Ubuntu 22.04 等支持的系统。
接着检查编译器环境,输入 gcc --version 确认已安装 gcc。推荐安装 CUDA 12.2 或更高版本。如果之前安装过旧版 CUDA(如 12.1),建议先卸载:
sudo /usr/local/cuda-12.1/bin/cuda-uninstaller
# 若命令无法运行,可手动清理
sudo rm -r /usr/local/cuda-12.1/
sudo apt clean && sudo apt autoclean
下载并安装新版本的 CUDA 安装包,注意在安装过程中选择是否包含驱动,通常建议取消勾选以使用系统自带驱动。
安装完成后,输入 nvcc -V 验证版本号。
安装 LLaMA-Factory
基础环境建议使用 Ubuntu 22.04 + CUDA 12.x + Python 3.10/3.11。创建虚拟环境并安装依赖:
conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner
克隆项目并安装依赖:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
如果遇到环境冲突,可以尝试 pip install --no-deps -e . 跳过依赖检查。安装成功后,运行 llamafactory-cli version 校验版本。
启动 WebUI 界面:
CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui
Windows 用户特别提示
如果在 Windows 上启用 QLoRA,需根据 CUDA 版本安装对应的 bitsandbytes 版本。FlashAttention-2 在 Windows 上的支持也需匹配特定版本。更多依赖项如 deepspeed、vllm 等可根据需求额外安装。
数据微调
数据集配置位于 dataset_info.json 文件中。目前支持 Alpaca 和 ShareGPT 格式。如果你希望使用自定义数据集,务必在此文件中添加定义。
指令监督微调
这是最常见的微调场景。instruction 列对应人类指令,input 列对应人类输入,output 列对应模型回答。instruction 和 会拼接作为最终输入。


