微软利用 GPT-4 进行指令微调,新任务零样本性能显著提升
引言
大语言模型(LLMs)的指令微调水平正在不断提高。从谷歌 T5 模型到 OpenAI GPT 系列,LLMs 展现出了令人印象深刻的泛化能力,包括上下文学习和思维链推理。为了使 LLMs 更好地遵循自然语言指令并完成任务,研究人员一直在探索高效的指令微调方法。
实现指令微调主要有两种方式:一是使用人类标注的 prompt 和反馈在广泛任务上微调模型;二是使用通过手动或自动生成指令增强的公共基准和数据集进行监督微调。其中,Self-Instruct 微调是一种简单有效的方法,它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习,使得 LLMs 与人类意图对齐。事实证明,指令微调已成为提升 LLMs 零样本和小样本泛化能力的有效手段。
最近,ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大机遇。Meta LLaMA 系列开源模型的性能已能与 GPT-3 等专有模型媲美。为了教 LLaMA 遵循指令,Self-Instruct 因其卓越性能和低成本被快速采用。例如,斯坦福的 Alpaca 模型使用了由 GPT-3.5 生成的 52k 指令遵循样本,Vicuna 模型使用了约 70k 来自 ShareGPT 的指令遵循样本。
为了推进 LLMs 指令微调的 SOTA 水平,微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 Self-Instruct 微调。

- 论文地址:https://arxiv.org/pdf/2304.03277.pdf
- 项目地址:https://instruction-tuning-with-gpt-4.github.io/
- GitHub 地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
研究者一方面发布了 GPT-4 生成的数据,包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量,研究者使用三个指标对测试样本进行评估:对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L(自动文摘评测方法之一)。
实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前,研究者已经公开了使用 GPT-4 生成的数据以及相关代码。
数据集构建
该研究使用 GPT-4 生成了以下四个关键数据集,以支持指令微调与评估:
英语指令遵循数据集
对于从 Alpaca 收集到的 52K 指令,每个指令都提供了一个英文 GPT-4 答案。该数据集主要用来探索和比较 GPT-4 答案和 GPT-3 答案的数据统计特征,分析不同版本模型在生成质量上的差异。
中文指令遵循数据集
该研究使用 ChatGPT 将 52K 指令翻译成中文,并要求 GPT-4 用中文回答。这一数据集填补了高质量中文指令数据的空白,有助于训练多语言能力的开源模型。
比较数据
让 GPT-4 给自己的反应打分,分数范围从 1 到 10。此外,该研究还要求 GPT-4 对 GPT-4、GPT-3.5 和 OPT-IML 三种模型的响应进行比较和评分。这一数据集主要用来训练奖励模型,帮助模型学习区分响应质量的优劣。
非自然指令的回答
GPT-4 的回答在 68K 指令 - 输入 - 输出三组核心数据集上解码。该子集用于量化 GPT-4 与指令微调模型之间的差距,特别是在处理复杂或非典型指令时的表现。








