LLaMA-Factory 大模型微调完整指南

一、安装 PyTorch

1. 检查 GPU 计算能力

在开始微调之前，首先需要确认 GPU 的计算能力，因为不同架构的 GPU 对 PyTorch 版本有不同要求。

nvidia-smi --query-gpu=compute_cap --format=csv

第一行命令直接查询 GPU 的计算能力版本，而 Python 代码则通过 PyTorch 库来检测 CUDA 的可用性、版本信息以及具体的 GPU 设备能力。这些信息对于后续选择合适版本的 PyTorch 至关重要。

2. 匹配 PyTorch 版本

根据 GPU 计算能力选择合适的 PyTorch 版本是非常重要的，因为不匹配的版本可能导致性能下降甚至无法正常运行。

计算能力 < 7.0 (如 Maxwell 架构)：使用较老版本
计算能力 7.x (Volta/Turing)：PyTorch 1.8+
计算能力 8.x (Ampere)：PyTorch 1.10+
计算能力 9.x (Ada Lovelace)：PyTorch 2.0+

这个匹配关系基于 NVIDIA 官方对不同架构 GPU 的 CUDA 支持情况。较新的 GPU 架构需要更新版本的 PyTorch 来充分发挥其性能优势，而老架构的 GPU 如果使用过新的 PyTorch 版本可能会出现兼容性问题。

3. 重新安装合适版本的 PyTorch

如果当前安装的 PyTorch 版本与 GPU 计算能力不匹配，需要重新安装合适版本。建议访问 PyTorch 官方网站获取最新的安装命令，确保安装的版本与 CUDA 版本完全匹配。

# 卸载当前版本
pip uninstall torch torchvision torchaudio
# 安装新版本（示例）
pip install torch==<version> torchvision==<version> --index-url https://download.pytorch.org/whl/cu118

二、安装 LLaMAFactory

1. LLaMA-Factory

LLaMA-Factory 是一个专门用于微调大语言模型的工具包，它提供了丰富的微调选项和便捷的操作接口。

git clone -b v0.8.1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

这里使用 -b v0.8.1 指定了版本号，确保使用稳定的发布版本。pip install -e . 命令以可编辑模式安装，方便后续的开发和调试。

2. unsloth 的显存优化机制

为了在资源受限的环境中运行大模型，LLaMA-Factory 集成了 unsloth 优化技术，这可以显著降低训练过程中的显存占用。

pip install liger_kernel==0.5.2

unsloth 通过优化内存管理和计算图来减少显存使用，特别适合在消费级 GPU 上进行大模型微调。liger_kernel 是其中的核心组件，提供了底层的内存优化功能。

三、下载模型

模型下载是微调过程中的关键步骤，需要确保下载正确的模型文件和权重。

# 模型安装目录示例
/data/models/Qwen/Qwen2.5-7B-Instruct

由于大语言模型文件体积很大，必须使用 Git LFS（Large File Storage）来管理。Qwen2.5-7B-Instruct 是一个 70 亿参数的中英双语指令调优模型，适合进行进一步的领域适配微调。如果机器的 GPU 配置不够强，可以下载参数低一些的版本。

LLaMA-Factory 大模型微调完整指南