LLaMA Factory 数据集配置指南
配置文件结构
在 LLaMA Factory 中,所有数据集的元数据通常管理在 dataset_info.json 文件里。理解这个 JSON 结构是自定义数据集的关键,它定义了如何从不同来源加载数据,以及如何处理字段映射。
每个数据集条目都是一个对象,包含加载源和字段映射信息。基本结构如下:
{
"数据集名称": {
"hf_hub_url": "Hugging Face 的数据集仓库地址",
"ms_hub_url": "ModelScope 的数据集仓库地址",
"script_url": "本地数据加载脚本文件夹",
"file_name": "数据文件或文件夹名称",
"formatting": "alpaca 或 sharegpt",
"ranking": true/false,
"subset": "子集名称",
"split": "train/test 等",
"folder": "HF 仓库内的文件夹",
"num_samples": "样本数量限制",
"columns"


