LLaMA Factory 大模型微调全流程实战指南
LLaMA Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它,可以在无需编写大量代码的前提下,在本地完成上百种预训练模型的微调。框架支持多种模型架构、训练算法及优化技术,是进行大模型本地化部署的理想工具。
安装部署
环境准备
首先确保 GPU 支持 CUDA。访问 NVIDIA 官网查看您的显卡是否兼容。在 Linux 环境下,建议先确认系统版本和编译器状态:
uname -m && cat /etc/*release
gcc --version
输出应显示类似 x86_64 及 Ubuntu 版本信息,GCC 版本需满足要求。随后下载并安装 CUDA Toolkit(推荐 12.2 或更高版本)。若之前安装过旧版本,请先卸载:
sudo /usr/local/cuda-12.1/bin/cuda-uninstaller
# 若命令不可用,可手动清理
sudo rm -r /usr/local/cuda-12.1/
sudo apt clean && sudo apt autoclean
安装完成后,输入 nvcc -V 验证版本号。
安装 LLaMA-Factory
推荐使用 Conda 创建独立环境,避免依赖冲突。基础环境建议配置为 Ubuntu 22.04 + CUDA 12.x + Python 3.10/3.11。
conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner
# 克隆源码并安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
如遇依赖冲突,可尝试 pip install --no-deps -e . 跳过依赖检查。安装成功后,运行以下命令校验:
llamafactory-cli version
启动 WebUI 界面:
CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui
Windows 用户注意
若在 Windows 上启用 QLoRA,需根据 CUDA 版本安装特定版本的 bitsandbytes。FlashAttention-2 在 Windows 上的支持也需对应版本的 wheel 包。更多依赖项如 DeepSpeed、vLLM 等可根据需求单独安装。
数据微调
数据集配置位于 data/dataset_info.json 文件中。目前支持 Alpaca 和 ShareGPT 格式。自定义数据集时,务必在此文件中添加定义。
指令监督微调 (SFT)
这是最常见的微调方式。数据集中包含 instruction(人类指令)、input(人类输入)和 (模型回答)。 列用于设置系统提示词, 列记录多轮对话历史。


