LLaMA Factory 大模型微调全流程实战指南

LLaMA Factory 简介

LLaMA Factory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它，无需编写复杂代码即可在本地完成上百种预训练模型的微调。其核心特性包括支持多种模型架构（如 LLaMA、Qwen、Yi 等）、丰富的训练算法（SFT、DPO、PPO 等）以及灵活的精度控制（全参数、LoRA、QLoRA 等）。

环境安装与部署

CUDA 配置

使用 GPU 加速前，需确保系统已安装兼容的 CUDA 驱动。建议先查看 NVIDIA 官网确认显卡支持情况。在 Linux 环境下，可通过以下命令检查系统架构与版本：

uname -m && cat /etc/*release

同时需确认 gcc 已安装：

gcc --version

下载并安装 CUDA 12.2 或更高版本时，若之前有旧版本残留，建议先卸载。例如卸载 12.1 版本可执行：

sudo /usr/local/cuda-12.1/bin/cuda-uninstaller

若上述命令不可用，可直接清理目录并重新运行安装脚本。安装完成后，输入 nvcc -V 验证版本号。

LLaMA-Factory 安装

基础环境推荐 Ubuntu 22.04 + Python 3.10 + PyTorch 2.x。创建虚拟环境并安装依赖：

conda create -n llama_factory python=3.10 -y
conda activate llama_factory
conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install llmtuner

克隆项目并安装框架依赖：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

若遇到依赖冲突，可尝试 pip install --no-deps -e .。安装成功后，运行 llamafactory-cli version 校验版本，启动 WebUI 界面：

CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 GRADIO_SERVER_PORT=7860 llamafactory-cli webui

如需离线模型，可从 ModelScope 等平台下载，例如：

git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

Windows 用户需注意 QLoRA 和 FlashAttention-2 的特定依赖包版本，请根据 CUDA 版本选择对应的 wheel 文件安装。

数据准备与格式

所有数据集需放置在 data 目录下，并在 dataset_info.json 中注册。目前支持 Alpaca 和 ShareGPT 格式。

指令监督微调 (SFT)

这是最常见的微调场景。数据集中应包含 instruction（人类指令）、input（人类输入）和 output（模型回答）。system 列用于设定系统提示词，history 列用于多轮对话历史。

LLaMA Factory 大模型微调全流程实战指南

LLaMA Factory 简介

环境安装与部署

CUDA 配置

LLaMA-Factory 安装

数据准备与格式

指令监督微调 (SFT)

更多推荐文章

相关免费在线工具

其他数据集类型

模型训练与微调

WebUI 操作

命令行训练

LoRA 合并与量化

合并模型

量化部署

推理与评估

在线对话

批量推理

能力评估

更多推荐文章

相关免费在线工具

LLaMA Factory 大模型微调全流程实战指南

LLaMA Factory 简介

环境安装与部署

CUDA 配置

LLaMA-Factory 安装

数据准备与格式

指令监督微调 (SFT)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

其他数据集类型

模型训练与微调

WebUI 操作

命令行训练

LoRA 合并与量化

合并模型

量化部署

推理与评估

在线对话

批量推理

能力评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具