Llama Factory 微调训练全过程详解

前言

本文记录基于 Llama Factory 进行大模型微调的实战流程，旨在帮助开发者快速搭建私有化训练环境，掌握从数据准备到模型导出的完整链路。

1. 环境部署与启动

1.1 Docker 部署

推荐使用 Docker 容器化部署 Llama Factory，以隔离依赖并简化环境配置。部署完成后，进入容器内部执行以下命令：

# 进入容器内部
docker exec -it llamafactory /bin/bash

# 启动可视化 Web UI
llamafactory-cli webui

启动成功后，在本地浏览器访问 http://localhost:7860 即可进入管理界面。

1.2 镜像挂载与路径映射

由于使用 Docker 部署，需将本地存储目录映射至容器内，以便持久化保存模型文件及训练结果。建议在 docker run 命令中设置多个卷映射：

docker run -v <本地模型目录>:<容器模型目录> \
           -v <本地输出目录>:<容器输出目录> \
           <镜像名称>

在 Web UI 中选择模型时，填写容器内的对应路径即可。

2. 模型加载策略

2.1 下载源选择

默认情况下，Llama Factory 会从 Hugging Face 下载基础模型。受网络环境影响，国内用户可能无法直接访问。建议采用以下替代方案：

ModelScope (魔搭)：设置环境变量启用 ModelScope 加速下载。
```
export USE_MODELSCOPE_HUB=1
```
本地预下载：通过 Git 拉取模型仓库至本地。首次使用前需安装 Git LFS：
```
git lfs install
```
然后克隆所需模型：
```
git clone <模型地址>
```
在 Web UI 中指定本地路径即可。

3. 数据集配置

3.1 模板选择

不同模型（如 LLaMA, ChatGLM, Qwen）对指令遵循的格式要求不同，务必在 Web UI 中选择合适的提示模板（Template）。错误的模板会导致训练效果不佳或对话逻辑混乱。

3.2 自定义数据集导入

若使用自定义格式的数据集，需将其放入镜像对应的数据目录，并在 data_info.json 中进行注册配置，否则无法在列表中选择。

3.3 关键参数调优

以下参数对训练结果影响显著，需根据显存大小和任务需求调整：

学习率 (Learning Rate)：推荐默认值 5e-5。对于 LLaMA 3.1 等较大模型，适当降低学习率有助于收敛稳定，但会增加训练时间。
训练轮数 (Epochs)：初期可设置较大数值，后续依据 Loss 曲线手动停止，避免过拟合。
最大样本数 (Max Samples)：若数据集过大，建议限制每次训练提取的样本数量，以节省资源。

4. 训练监控与终止

4.1 Loss 曲线分析

训练过程中需密切关注 Loss 变化趋势。当 Loss 曲线趋于平滑且不再显著下降时，表明模型已接近收敛。此时应手动停止训练，防止过拟合导致泛化能力下降。

Llama Factory 微调训练全过程详解