微软利用 GPT-4 进行指令微调，新任务零样本性能显著提升

引言

大语言模型（LLMs）的指令微调水平正在不断提高。从谷歌 T5 模型到 OpenAI GPT 系列，LLMs 展现出了令人印象深刻的泛化能力，包括上下文学习和思维链推理。为了使 LLMs 更好地遵循自然语言指令并完成任务，研究人员一直在探索高效的指令微调方法。

实现指令微调主要有两种方式：一是使用人类标注的 prompt 和反馈在广泛任务上微调模型；二是使用通过手动或自动生成指令增强的公共基准和数据集进行监督微调。其中，Self-Instruct 微调是一种简单有效的方法，它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习，使得 LLMs 与人类意图对齐。事实证明，指令微调已成为提升 LLMs 零样本和小样本泛化能力的有效手段。

最近，ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大机遇。Meta LLaMA 系列开源模型的性能已能与 GPT-3 等专有模型媲美。为了教 LLaMA 遵循指令，Self-Instruct 因其卓越性能和低成本被快速采用。例如，斯坦福的 Alpaca 模型使用了由 GPT-3.5 生成的 52k 指令遵循样本，Vicuna 模型使用了约 70k 来自 ShareGPT 的指令遵循样本。

为了推进 LLMs 指令微调的 SOTA 水平，微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 Self-Instruct 微调。

GPT-4 指令微调示意图

论文地址：https://arxiv.org/pdf/2304.03277.pdf
项目地址：https://instruction-tuning-with-gpt-4.github.io/
GitHub 地址：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

研究者一方面发布了 GPT-4 生成的数据，包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量，研究者使用三个指标对测试样本进行评估：对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L（自动文摘评测方法之一）。

实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前，研究者已经公开了使用 GPT-4 生成的数据以及相关代码。