Meta:BackTranslation 与 IBM Self Alignment 技术解析
1. Meta BackTranslation 方案
核心思路
对比 WizardLM 从指令侧入手,通过改写指令来生成更多样、复杂的指令样本以扩充种子样本集。Back Translation 则是用了半监督的思路,从输出侧入手,通过从网络上爬取优质的人工编辑的内容作为输出,并为这些输出配上合适的指令来扩展已有的指令样本集。
步骤一:Self-Augmentation(自增强)
指令生成部分,论文先使用 Open Assistant 里面人工标注的 3200 指令样本数据作为种子数据来训练 Llama 模型,得到初版的对齐模型。SFT 训练和常规略有不同,采用了反向对齐,也就是给定 Output 生成 Instruction (P(X|Y)) 的条件生成任务。
然后针对爬取的网页数据,经过清洗后作为指令样本的输出,使用以上模型直接推理得到指令本身,对应 P(X|Y) 的条件生成任务。
这一步其实也可以使用类似的 Prompt 逆向工程方案来实现,让模型基于输出猜测最合适的指令是什么。这样 SFT 的模型可能也能完成这个步骤。
步骤二:Iterative Self-Curation(迭代自我筛选)
第二步考虑以上生成的指令样本对可能存在很多低质量样本,因此需要进行质量过滤。质量过滤的模型同样是基于 3200 个种子指令样本,进行常规 SFT 得到初始模型。然后基于 Prompt 模板对以上得到的指令样本进行 1-5 分的绝对打分。主要评估回答是否明确有用无争议,能合理回答指令中的问题,并且回答的主语为模型而非其他第三人称。
同时论文使用了多轮迭代的训练,以上第一轮打分过滤出的高分样本,会和种子样本混合,重头进行 SFT。然后微调后的模型会再用来对样本进行打分过滤,然后再混合重新 SFT。
在 SFT 的样本构建中,论文使用了不同的 Prompt 来区分样本是来自人工标注的种子集,还是来自机器生成的扩展集。前者的 prompt="Answer in the style of an AI Assistant",后者的 prompt="Answer with knowledge from web search",从而降低样本间不同回答 format 带来的模型学习混淆。
效果评估
整体效果评估,论文使用了混合测试集包括 Vicuna, self-instruct, opena assistant, koala, HH-RLHF, LIMA 等总共 1130 个指令数据。使用人工进行两两偏好对比,以下使用回译训练的 HumpBack 优于 LIMA 等质量过滤微调模型,以及 Davinci, Claude 等闭源模型。
消融实验结论
论文进行了消融实验,对训练数据的数量和质量的影响做了进一步的测试,对比了未使用 Self-Curation 过滤的数据集,4 轮过滤的数据集和 5 轮过滤的数据集,不同的样本量带来的效果差异,主要结论有两个:
-
高质量样本集提升数量会带来效果提升:这里的结论和上一章 LIMA 的结论有矛盾点。LIMA 中在过滤后的 Stack Exchange 数据集上增加采样比例并不会提升效果。猜测这里可能的差异有:
- Stack Exchange 的指令丰富程度可能低于回译指令,和 AlpaGasus 中指令丰富程度有限的话增加样本量并不会带来效果提升的结论一致。
- Stack Exchange 本身的指令质量低于回译,导致数量增加带来的效果增幅不明显。Anyway LLM 时代一切结论都不可尽信,只是拓宽下思路,实际情况下处理问题还是要具体问题具体分析。
-
质量的影响大于数量:在未过滤的数据集上提升量级不会显著带来效果提升,简单理解就是 1 个低质样本需要很多的高质量样本来弥补,当低质量样本占比太高的时候,无论如何提升样本量都不会提升效果。
2. IBM Self Alignment 方案
核心原理
IBM 的 Self Alignment 方案名为 Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision。要点是使用 prompt 规则让大模型 Self-Instruct 生成的推理样本更加符合人类偏好,部分代替 RLHF 阶段大量的人工标注。
同样是改写方案,Self-Align 在 Self-Instruct 的基础上,通过引入对抗指令样本和 3H 相关的指令 prompt,在 SFT 阶段就让模型进行偏好对齐。让模型先基于外化的偏好原则生成符合 3H 原则的回答,再通过 SFT 对齐把偏好内化到模型参数中。因为指令样本是 Base 模型自己生成的所以叫 Self-Alignment。有些类似自监督,只不过样本特征被人工抽象成了人类偏好规则。


