LLaMA-Factory 本地部署与微调指南
在大模型技术快速发展的背景下,LLaMA-Factory 等开源项目使得大语言模型的微调不再局限于顶级实验室。本文将介绍如何搭建环境、加载模型、配置训练参数,并生成支持中文指令的个性化模型。
硬件与环境检查
虽然 LLaMA-Factory 支持 CPU 推理,但为了跑通微调任务,GPU 是必要的。
打开终端执行以下命令检查 NVIDIA 显卡驱动和 CUDA 环境:
nvidia-smi
如果输出包含 GPU 信息,说明环境基本正常。重点关注三点:
- CUDA 版本 ≥ 11.8:PyTorch 训练的底线要求;
- 显存 ≥ 16GB:推荐用于 7B 模型的 QLoRA 微调;若只跑 3B 模型,12GB 显存勉强够用;
- 多卡支持:如果有多个 GPU,可以并行加速训练。
注意:如果命令报错或显示'NVIDIA-SMI has failed',可能是驱动未安装。请前往 NVIDIA 官网下载对应驱动,并安装 CUDA Toolkit。
开始部署:从零搭建运行环境
克隆项目源码
创建专属工作目录并克隆仓库。建议使用 Gitee 镜像源以优化国内网络访问:
mkdir llama-factory-project && cd llama-factory-project
git clone https://gitee.com/hiyouga/LLaMA-Factory.git
如果 GitHub 访问稳定,也可以直接拉取官方仓库(带 --depth 1 可节省时间):
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
创建 Conda 虚拟环境
为避免依赖冲突,建议使用 Conda 管理 Python 环境:
conda create -n llama_factory python=3.10 -y
conda activate llama_factory
激活后,命令行提示符前会出现 (llama_factory) 标识。
安装核心依赖
进入项目根目录,执行安装命令:
cd LLaMA-Factory
pip install --upgrade pip
pip install -e ".[torch,metrics]"
该命令会自动安装 transformers, datasets, peft, accelerate, trl, sentencepiece, safetensors, bitsandbytes 等关键库。
安装完成后,验证是否成功:
llamafactory-cli version
如果返回版本号,说明核心组件已就位。
验证 GPU 可用性
确认 PyTorch 是否识别到了你的 GPU:
torch
(, torch.cuda.is_available())
(, torch.cuda.device_count())
(, torch.cuda.current_device())
(, torch.cuda.get_device_name())
(, torch.__version__)

