LLaMA Factory 大模型微调全流程实战指南

LLaMA Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它，可以在无需编写大量代码的前提下，在本地完成上百种预训练模型的微调。框架支持多种模型架构、训练算法及优化技术，是进行大模型本地化部署的理想工具。

安装部署

环境准备

首先确保 GPU 支持 CUDA。访问 NVIDIA 官网查看您的显卡是否兼容。在 Linux 环境下，建议先确认系统版本和编译器状态：

uname -m && cat /etc/*release
gcc --version

输出应显示类似 x86_64 及 Ubuntu 版本信息，GCC 版本需满足要求。随后下载并安装 CUDA Toolkit（推荐 12.2 或更高版本）。若之前安装过旧版本，请先卸载：

sudo /usr/local/cuda-12.1/bin/cuda-uninstaller
# 若命令不可用，可手动清理
sudo rm -r /usr/local/cuda-12.1/
sudo apt clean && sudo apt autoclean

安装完成后，输入 nvcc -V 验证版本号。

安装 LLaMA-Factory

推荐使用 Conda 创建独立环境，避免依赖冲突。基础环境建议配置为 Ubuntu 22.04 + CUDA 12.x + Python 3.10/3.11。

conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner

# 克隆源码并安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

如遇依赖冲突，可尝试 pip install --no-deps -e . 跳过依赖检查。安装成功后，运行以下命令校验：

llamafactory-cli version

启动 WebUI 界面：

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

Windows 用户注意

若在 Windows 上启用 QLoRA，需根据 CUDA 版本安装特定版本的 bitsandbytes。FlashAttention-2 在 Windows 上的支持也需对应版本的 wheel 包。更多依赖项如 DeepSpeed、vLLM 等可根据需求单独安装。

数据微调

数据集配置位于 data/dataset_info.json 文件中。目前支持 Alpaca 和 ShareGPT 格式。自定义数据集时，务必在此文件中添加定义。

指令监督微调 (SFT)

这是最常见的微调方式。数据集中包含 instruction（人类指令）、input（人类输入）和（模型回答）。列用于设置系统提示词，列记录多轮对话历史。

LLaMA Factory 大模型微调全流程实战指南