跳到主要内容 Meta:BackTranslation 与 IBM Self Alignment 技术解析 | 极客日志
编程语言 AI 算法
Meta:BackTranslation 与 IBM Self Alignment 技术解析 详细解析了 Meta 的 BackTranslation 和 IBM 的 Self Alignment 两种大模型指令微调方案。BackTranslation 采用半监督思路,从输出侧生成指令,通过自增强和迭代筛选提升数据质量,强调高质量样本对效果的贡献。IBM Self Alignment 则通过引入对抗指令和 3H 原则(有益、无害、诚实),在 SFT 阶段实现偏好对齐,减少对人标注的依赖。文章还探讨了多智能体系统的潜在应用场景,并总结了当前指令微调领域数据质量优先、自动化生成及偏好内化的发展趋势。
草莓泡芙 发布于 2025/2/7 更新于 2026/4/21 0 浏览
Meta:BackTranslation 与 IBM Self Alignment 技术解析
1. Meta BackTranslation 方案
核心思路 对比 WizardLM 从指令侧入手,通过改写指令来生成更多样、复杂的指令样本以扩充种子样本集。Back Translation 则是用了半监督的思路,从输出侧入手,通过从网络上爬取优质的人工编辑的内容作为输出,并为这些输出配上合适的指令来扩展已有的指令样本集。
步骤一:Self-Augmentation(自增强) 指令生成部分,论文先使用 Open Assistant 里面人工标注的 3200 指令样本数据作为种子数据来训练 Llama 模型,得到初版的对齐模型。SFT 训练和常规略有不同,采用了反向对齐,也就是给定 Output 生成 Instruction (P(X|Y)) 的条件生成任务。
然后针对爬取的网页数据,经过清洗后作为指令样本的输出,使用以上模型直接推理得到指令本身,对应 P(X|Y) 的条件生成任务。
这一步其实也可以使用类似的 Prompt 逆向工程方案来实现,让模型基于输出猜测最合适的指令是什么。这样 SFT 的模型可能也能完成这个步骤。
步骤二:Iterative Self-Curation(迭代自我筛选) 第二步考虑以上生成的指令样本对可能存在很多低质量样本,因此需要进行质量过滤。质量过滤的模型同样是基于 3200 个种子指令样本,进行常规 SFT 得到初始模型。然后基于 Prompt 模板对以上得到的指令样本进行 1-5 分的绝对打分。主要评估回答是否明确有用无争议,能合理回答指令中的问题,并且回答的主语为模型而非其他第三人称。
同时论文使用了多轮迭代的训练,以上第一轮打分过滤出的高分样本,会和种子样本混合,重头进行 SFT。然后微调后的模型会再用来对样本进行打分过滤,然后再混合重新 SFT。
在 SFT 的样本构建中,论文使用了不同的 Prompt 来区分样本是来自人工标注的种子集,还是来自机器生成的扩展集。前者的 prompt="Answer in the style of an AI Assistant",后者的 prompt="Answer with knowledge from web search",从而降低样本间不同回答 format 带来的模型学习混淆。
效果评估 整体效果评估,论文使用了混合测试集包括 Vicuna, self-instruct, opena assistant, koala, HH-RLHF, LIMA 等总共 1130 个指令数据。使用人工进行两两偏好对比,以下使用回译训练的 HumpBack 优于 LIMA 等质量过滤微调模型,以及 Davinci, Claude 等闭源模型。
消融实验结论 论文进行了消融实验,对训练数据的数量和质量的影响做了进一步的测试,对比了未使用 Self-Curation 过滤的数据集,4 轮过滤的数据集和 5 轮过滤的数据集,不同的样本量带来的效果差异,主要结论有两个:
高质量样本集提升数量会带来效果提升 :这里的结论和上一章 LIMA 的结论有矛盾点。LIMA 中在过滤后的 Stack Exchange 数据集上增加采样比例并不会提升效果。猜测这里可能的差异有:
Stack Exchange 的指令丰富程度可能低于回译指令,和 AlpaGasus 中指令丰富程度有限的话增加样本量并不会带来效果提升的结论一致。
Stack Exchange 本身的指令质量低于回译,导致数量增加带来的效果增幅不明显。Anyway LLM 时代一切结论都不可尽信,只是拓宽下思路,实际情况下处理问题还是要具体问题具体分析。
质量的影响大于数量 :在未过滤的数据集上提升量级不会显著带来效果提升,简单理解就是 1 个低质样本需要很多的高质量样本来弥补,当低质量样本占比太高的时候,无论如何提升样本量都不会提升效果。
2. IBM Self Alignment 方案
核心原理 IBM 的 Self Alignment 方案名为 Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision。要点是使用 prompt 规则让大模型 Self-Instruct 生成的推理样本更加符合人类偏好,部分代替 RLHF 阶段大量的人工标注。
同样是改写方案,Self-Align 在 Self-Instruct 的基础上,通过引入对抗指令样本和 3H 相关的指令 prompt,在 SFT 阶段就让模型进行偏好对齐。让模型先基于外化的偏好原则生成符合 3H 原则的回答,再通过 SFT 对齐把偏好内化到模型参数中。因为指令样本是 Base 模型自己生成的所以叫 Self-Alignment。有些类似自监督,只不过样本特征被人工抽象成了人类偏好规则。
指令样本生成步骤
1. Self-Instruct 生成指令 原始论文基于 175 个种子指令通过多轮的 Bootstrap 让大模型生成新的指令。IBM 论文在此基础上人工补充了 20 个不同主题的对抗种子指令。对抗样本我们在章节针对 Anthropic 如何设计对抗样本进行了很详细的介绍,这里不再展开。IBM 设计对抗样本的原则是模型在没有获取外部信息下无法回答,或者会回答错误的指令,例如询问天气,知识问答类的指令。通过补充这类种子指令,让模型在 bootstrap 过程中生成更多的对抗指令,从而通过指令微调的对齐注入 3H(helpful+harmless+honest)偏好。
2. Self-Alignment 生成回答 指令生成完,下一步就是需要让模型生成符合 3H 偏好的回答。论文的实现方案是通过规则指令 + fewshot 样例来实现。其中规则指令总共包含以下 16 条原则:
ethical
informative
helpful
question assessment
reasoning
multi-aspect
candor
knowledge recitation
static
clarification
numerical sensitivity
dated knowledge
step-by-step
balanced & informative perspectives
creative
operational
In-context 的 few-shot 样本同样是固定的,few-shot 的样本是为了指导模型如何遵守以上 16 条规则来进行指令回答,并加入了类似 chain-of-thought 的 Internal Thoughts 步骤,来强化模型在不同的上下文中遵从不同的规则。
3. 微调 以上两步机器样本构造后,经过过滤总共得到了 260K 指令样本,用于模型微调。注意微调阶段不会使用以上的 16 条规则指令和 few-shot 样本,而是会直接使用回答部分。因为需要模型直接把 3H 原则指令通过微调内化到模型参数中,而不是基于条件上文进行符合偏好的回答。
微调后作者发现,以上构造的样本在微调模型后存在两个问题:
部分回答过于简短:个人感觉这和 Prompt+few-shot 的长度过长有关。因为条件上文过长,限制了下文的生成范围,导致回答过短。通俗点就是命题作文你的要求太多自然就没啥好写的了。
部分回答未直接回答用户指令,而是去复述 wikipedia 上的内容:个人感觉这同样是以上的规则指令模型未能完全理解,影响了回答质量。
这里其实有个疑问,就是在大量指令和 In-Context 条件上文下,构造出的模型回答是否本身就是有偏的?去掉条件上文直接去拟合回答后得到的模型是否也是 bias 的?
为了解决以上问题,论文使用第一步对齐微调后,已经内化 3H 原则的模型,使用以下的 Prompt 指令引导模型重新对以上的 260K 指令进行回答生成,引导模型给出更丰富、跟全面的回答。然后再使用生成的样本进一步微调模型。
效果上在 TruthfulQA 的事实性评测,以及 Big-Bench 的 3H 评测上,微调后的模型相较 Llama 都有显著的提升。
3. 多智能体系统展望 重新回来聊 Agent,前四章的 LLM Agent,不论是和数据库和模型还是和搜索引擎交互,更多还是大模型和人之间的交互。这一章我们来聊聊只有大模型智能体的世界!分别介绍斯坦福小镇和 Chatdev 两篇论文。它们的共同特点是使用多个大模型智能体协同完成任务。
协同任务完成/创意生成 :通过多智能体间的沟通,反思,校验,完成复杂任务,激发创意的小火花。
模拟世界 :多智能体模拟社会环境,现实应用是游戏 NPC,脑洞再大一点是不是可以用于社会学研究,因果推断,平行世界模拟?
4. 总结与趋势 通过对 Meta BackTranslation 和 IBM Self Alignment 两种方案的深入分析,我们可以看到当前大模型指令微调领域的主要发展趋势:
数据质量重于数量 :无论是 BackTranslation 的质量过滤还是 IBM 的 3H 原则,都强调了高质量指令数据的重要性。低质量数据不仅无法提升模型性能,反而可能引入噪声和偏差。
自动化数据生成 :利用模型自身能力生成指令和回答(Self-Instruct, BackTranslation),大幅降低了人工标注的成本,使得大规模指令微调成为可能。
偏好对齐的内化 :通过将人类偏好原则(如 3H)显式地写入 Prompt 或训练目标,并在微调过程中内化为模型参数,减少对后期 RLHF 的依赖,实现更高效的对齐。
多智能体协作 :未来的 Agent 系统将不仅仅局限于人机交互,多智能体之间的自主协作将开启更复杂的应用场景,如自动编程、社会模拟等。
在实际应用中,开发者应根据具体需求选择合适的微调策略。如果资源有限且追求快速迭代,可参考 BackTranslation 的半监督思路;如果需要更强的安全性和合规性,IBM 的 Self Alignment 提供了更好的控制手段。随着技术的演进,结合多种方法的混合训练策略可能会成为主流。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online