LLaMA-Factory 大模型微调实战指南

LLaMA-Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它，我们可以在无需编写大量代码的前提下，在本地完成上百种预训练模型的微调。框架特性非常丰富，支持 LLaMA、Qwen、Yi 等多种主流模型架构，涵盖指令监督微调、奖励模型训练、DPO 等多种算法，以及全参数、LoRA、QLoRA 等不同精度的训练方式。

安装部署

环境准备

首先确保你的 Linux 版本支持 CUDA。在命令行中输入 uname -m && cat /etc/*release 检查系统信息，确认是 x86_64 架构且为 Ubuntu 22.04 等支持的系统。

接着检查编译器环境，输入 gcc --version 确认已安装 gcc。推荐安装 CUDA 12.2 或更高版本。如果之前安装过旧版 CUDA（如 12.1），建议先卸载：

sudo /usr/local/cuda-12.1/bin/cuda-uninstaller
# 若命令无法运行，可手动清理
sudo rm -r /usr/local/cuda-12.1/
sudo apt clean && sudo apt autoclean

下载并安装新版本的 CUDA 安装包，注意在安装过程中选择是否包含驱动，通常建议取消勾选以使用系统自带驱动。

安装完成后，输入 nvcc -V 验证版本号。

安装 LLaMA-Factory

基础环境建议使用 Ubuntu 22.04 + CUDA 12.x + Python 3.10/3.11。创建虚拟环境并安装依赖：

conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner

克隆项目并安装依赖：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

如果遇到环境冲突，可以尝试 pip install --no-deps -e . 跳过依赖检查。安装成功后，运行 llamafactory-cli version 校验版本。

启动 WebUI 界面：

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

Windows 用户特别提示

如果在 Windows 上启用 QLoRA，需根据 CUDA 版本安装对应的 bitsandbytes 版本。FlashAttention-2 在 Windows 上的支持也需匹配特定版本。更多依赖项如 deepspeed、vllm 等可根据需求额外安装。

数据微调

数据集配置位于 dataset_info.json 文件中。目前支持 Alpaca 和 ShareGPT 格式。如果你希望使用自定义数据集，务必在此文件中添加定义。

指令监督微调

这是最常见的微调场景。instruction 列对应人类指令，input 列对应人类输入，output 列对应模型回答。instruction 和会拼接作为最终输入。

LLaMA-Factory 大模型微调实战指南