LLaMA-Factory 实战指南：从环境搭建到模型微调与评测

1. 项目背景

开源大模型如 LLaMA、Qwen、Baichuan 等主要基于通用数据训练，在特定下游场景和垂直领域的效果仍有提升空间，这催生了微调训练的需求，涵盖预训练（pt）、指令微调（sft）、基于人工反馈的对齐（rlhf）等全链路。不过，大模型训练对显存和算力要求较高，且开发者需具备一定的技术基础。

LLaMA-Factory 旨在整合主流高效训练微调技术，适配市场主流开源模型，构建功能丰富、适配性强的训练框架。它提供了多阶段训练、推理测试、Benchmark 评测及 API Server 等高层抽象接口，支持开箱即用。此外，借鉴 Stable Diffusion WebUI 的设计理念，本项目提供了基于 Gradio 的网页版工作台，方便初学者快速上手。

2. 教程目标

本教程以 Meta-Llama-3-8B-Instruct 模型配合 Linux + RTX 4090 (24GB) 环境为例，聚焦 LoRA + SFT 训练阶段，帮助开发者实践以下常见功能：

原始模型直接推理
自定义数据集构建
基于 LoRA 的 SFT 指令微调
动态合并 LoRA 的推理
批量预测和训练效果评估
LoRA 模型合并导出
一站式 WebUI Board 的使用
API Server 的启动与调用
大模型主流评测 Benchmark

大部分内容可在 LLaMA-Factory 的 README.md、data/README.md 及 examples 文件夹下的示例脚本中找到。遇到问题建议优先查阅项目原始资料。关于全参训练、Flash-Attention 加速、DeepSpeed、RLHF 及多模态模型训练等高阶特性，后续会有额外教程介绍。

3. 前置准备

确保训练顺利运行需要满足四个条件：机器硬件驱动支持、依赖库正确安装、目标模型文件就绪、训练数据集构造完成。

3.1 硬件环境校验

显卡驱动和 CUDA 的安装可参考相关网络教程。使用以下命令进行简单校验：

nvidia-smi

预期输出应显示 GPU 当前状态和配置信息。关于不同模型规模所需的 GPU 资源，可参考官方文档的硬件需求部分。新手建议从 3090 或 4090 起步，便于训练主流的 7B 和 8B 级别模型。

3.2 CUDA 和 PyTorch 环境校验

请参考项目 README 进行安装。2024 年 5 月期间系统版本有较大升级，以下是推荐的安装命令（请注意 Conda 环境激活）：

git clone https://github.com/hiyouga/LLaMA-Factory.git
conda create -n llama_factory python=3.10
conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]

安装后使用以下命令做简单的正确性校验：

校验 1

import torch
torch.cuda.current_device()
torch.cuda.get_device_name(0)
torch.__version__

如果识别不到可用 GPU，说明环境准备仍有问题，需先处理后再继续。

校验 2

同时对本库的基础安装做一下校验，输入以下命令获取训练相关的参数指导，否则说明库未安装成功：

llamafactory-cli train -h

3.3 模型下载与可用性校验

项目支持通过模型名称直接从 HuggingFace 和 ModelScope 下载，但为了统一管理，建议使用手动下载并通过绝对路径控制。以 Meta-Llama-3-8B-Instruct 为例：

HuggingFace 下载（可能需要申请权限）：

git clone https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct

参数名称	参数说明
`model_name_or_path`	模型名称（HuggingFace 或 ModelScope 标准定义），或本地下载的绝对路径
`template`	模型问答时使用的 Prompt 模板，不同模型不同，不指定可能导致回答异常

参数名称	参数说明
`stage`	训练阶段，如 sft、pt、rw、ppo 等
`do_train`	是否开启训练模式
`dataset`	使用的数据集列表，多个用逗号分隔
`finetuning_type`	微调类型，如 lora、full、freeze 等
`lora_target`	LoRA 训练的目标模块，不同模型不同
`output_dir`	训练结果保存位置
`cutoff_len`	训练数据集长度截断
`fp16`	使用半精度混合精度训练

指标	含义
BLEU-4	衡量四元语法匹配程度，值越高越相似
predict_rouge-1/2	衡量一元/二元序列匹配程度
predict_rouge-l	衡量最长公共子序列匹配程度
predict_runtime	预测运行总时间
predict_samples_per_second	每秒生成样本数

LLaMA-Factory 实战指南：从环境搭建到模型微调与评测

1. 项目背景

2. 教程目标

3. 前置准备

3.1 硬件环境校验

3.2 CUDA 和 PyTorch 环境校验

3.3 模型下载与可用性校验

更多推荐文章

相关免费在线工具

3.4 数据集部分放到后面一起说明

4. 原始模型直接推理

5. 自定义数据集构建

6. 基于 LoRA 的 SFT 指令微调

7. 动态合并 LoRA 的推理

8. 批量预测和训练效果评估

9. LoRA 模型合并导出

10. 一站式 WebUI Board 的使用

11. API Server 的启动与调用

12. 进阶 - 大模型主流评测 Benchmark

更多推荐文章

相关免费在线工具

LLaMA-Factory 实战指南：从环境搭建到模型微调与评测

1. 项目背景

2. 教程目标

3. 前置准备

3.1 硬件环境校验

3.2 CUDA 和 PyTorch 环境校验

3.3 模型下载与可用性校验

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.4 数据集部分放到后面一起说明

4. 原始模型直接推理

5. 自定义数据集构建

6. 基于 LoRA 的 SFT 指令微调

7. 动态合并 LoRA 的推理

8. 批量预测和训练效果评估

9. LoRA 模型合并导出

10. 一站式 WebUI Board 的使用

11. API Server 的启动与调用

12. 进阶 - 大模型主流评测 Benchmark

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具