LLM 生成指令数据集
这篇工作展示了如何利用大语言模型的生成能力来构建大规模指令数据集。核心思路是自动化生成'指令、输入、输出'三元组,从而减少对人工标注数据的依赖。
任务判别策略
在构造数据时,需要明确区分任务类型,决定是采用输入优先还是输出优先:
- 输入优先:符合人类直觉。给定指令和输入,让模型产生输出。这适用于大多数常规任务。
- 输出优先:针对分类等特定任务。如果采用输入优先,模型倾向于生成语法正确的标准语句,难以产生错误样本。因此,对于分类任务,建议先生成标签(如'错误'),再根据该标签强制模型生成相应的输入文本。这样能确保数据集中包含所需的负样本或特定类别样本。
微调目标
使用 LLM 生成的指令数据进行微调,主要目的并非单纯增加数据量,而是为了提升模型在零样本(Zero-shot)场景下的泛化能力。通过这种方式训练出的模型,在面对未见过的任务时表现更佳。


