从 Alpaca 到 ShareGPT:Llama Factory 数据格式全解析
作为一名数据工程师,在准备大模型微调数据时,你是否经常纠结于选择哪种数据格式?Alpaca、ShareGPT、Vicuna...各种格式的文档分散在不同地方,手动转换又容易出错。本文将带你全面解析 Llama Factory 支持的数据格式,帮助你快速测试不同格式的效果。
Llama Factory 数据格式概述
Llama Factory 作为大模型微调的热门框架,支持多种主流数据格式,主要分为两大类:
- 指令监督微调格式:以 Alpaca 为代表,适合单轮问答任务
- 多轮对话格式:以 ShareGPT 为代表,适合聊天场景
每种格式都有特定的字段要求,理解这些差异是成功微调的第一步。
Alpaca 格式详解
Alpaca 格式是单轮指令微调的标准格式,包含三个核心字段:
{ "instruction": "解释什么是机器学习", "input": "", "output": "机器学习是..." }
关键特点:
instruction字段必须存在,描述任务要求input为可选字段,提供额外上下文- 实际输入会被拼接为
instruction\ninput格式
ShareGPT 格式解析
ShareGPT 格式专为多轮对话设计,典型结构如下:
[ { "from": "human", "value": "你好,能介绍一下自己吗?" }, { "from": "gpt", "value": "我是 AI 助手..." } ]

