LLM 指令微调：数据质量与多样性对对齐效果的影响 | 极客日志

LLM 指令微调：数据质量与多样性对对齐效果的影响 | 极客日志

方法	核心策略	数据量级	优势	劣势	适用场景
LIMA	人工筛选 + 风格一致	1K	收敛快，风格统一	人力成本高，规模小	资源有限，追求特定风格
AlpaGasus	大模型自动打分	9K	成本低，自动化	可能存在模型偏见	通用指令微调，预算有限
LTD	聚类 + 多样性采样	0.5%	空间分布覆盖好	依赖向量模型质量	大规模数据压缩，保持多样性
WizardLM	指令改写 (Evol-Instruct)	250K	复杂度提升明显	需多轮迭代，计算开销	需要处理复杂任务，提升推理能力