LlamaFactory 大模型微调全流程解析
整体概述
LlamaFactory 是一个简单易用且高效的大型语言模型训练与微调平台。通过它,我们可以在无需编写复杂代码的前提下,在本地完成上百种预训练模型的微调工作。
数据处理
LlamaFactory 训练所需的数据集中存放在项目根目录下的 data 文件夹中。该目录主要包含用于定义和管理数据集配置信息的 dataset_info.json 文件,以及其他各种格式的训练数据文件。
dataset_info.json 配置
dataset_info.json 是核心配置文件,用于定义数据集的名称、路径、格式、列名绑定等元数据。它支持本地数据集(如自定义文件或 Demo 样例)和在线数据集(如 Hugging Face 或 ModelScope 提供的仓库)。
配置模板如下:
"数据集名称": {
"hf_hub_url": "Hugging Face 的数据集仓库地址",
"ms_hub_url": "ModelScope 的数据集仓库地址",
"script_url": "包含数据加载脚本的本地文件夹名称",
"file_name": "该目录下数据集文件夹或文件的名称",
"formatting": "数据集格式(可选,默认:alpaca)",
"ranking": "是否为偏好数据集(可选,默认:False)",
"subset": "数据集子集的名称",
"split": "所使用的数据集切分(可选,默认:train)",
"folder": "Hugging Face 仓库的文件夹名称",
"num_samples"

