跳到主要内容LLM 对齐方案升级:WizardLM、BackTranslation 与 Self Alignment | 极客日志编程语言AI算法
LLM 对齐方案升级:WizardLM、BackTranslation 与 Self Alignment
详细解析了三种大语言模型对齐方案。Microsoft 的 WizardLM 通过 Evol-Instruct 对指令进行深度和广度改写,生成多样化复杂指令以提升模型效果。Meta 的 BackTranslation 采用半监督思路,从优质输出反推指令并结合迭代质量过滤扩充样本。IBM 的 Self Alignment 则引入对抗样本和 3H 原则,在微调阶段将人类偏好内化。此外,文章还探讨了多智能体协同的新趋势,如斯坦福小镇和 ChatDev,展示了群体智能在复杂任务和模拟世界中的应用潜力。
颠三倒四0 浏览 LLM 对齐方案再升级
随着大语言模型(LLM)的发展,指令微调(SFT)和人类反馈强化学习(RLHF)成为提升模型对齐效果的关键。本文将深入探讨三种先进的对齐方案:Microsoft 的 WizardLM、Meta 的 BackTranslation 以及 IBM 的 Self Alignment,并简要介绍多智能体协同的新趋势。
Microsoft:WizardLM
核心思路
WizardLM 提出了一套名为 Evol-Instruct 的指令改写方案。其核心观点是:使用大模型直接对种子指令样本进行多样化、复杂化的改写,可以有效提升模型在复杂指令上的遵循能力。该方法显著超过了之前 Vicuna 使用 ShareGPT 微调 LLAMA 的效果,甚至在部分复杂指令测试上表现接近 ChatGPT。
Evol-Instruct 机制
Evol-Instruct 将原始指令集(如 52K 的 Alpaca 指令)通过大模型进行改写。改写过程分为深度改写和广度改写两种类型,共包含 6 种不同的改写 Prompt。经过 4 轮迭代改写,并配合简单的样本过滤,最终生成了 250K 的高质量改写指令用于模型微调。
1. 深度改写
深度改写旨在增加指令的难度和复杂性,具体包括以下五种策略:
- 加入限制条件:在原有指令基础上增加字数或难度限制。
- 指令复杂化:增加问题的深度和广度。
- 指令具象化:将通用概念替换为更具体的概念。
- 增加推理步骤:要求模型展示多步推理过程。
- 输入复杂化:在指令中引入特定格式的数据(如 XML 数据)作为输入。
这种设计允许每次只增加部分难度,通过多轮改写生成不同难度梯度的指令集,从而增强模型的泛化能力。
2. 广度改写
广度改写的目的是扩充指令覆盖的范围,使其涵盖更多的话题和技能领域,确保模型在不同场景下的鲁棒性。
效果评估
在 Evol-Instruct 测试集、Vicuna 测试集及更高难度的测试集上,WizardLM 的效果均略优于 Vicuna 和 Alpaca。尽管部分基准测试中 Vicuna 的表现存在波动,但整体方法论证明了通过指令演化提升模型能力的有效性。
Meta:BackTranslation
论文标题: Self-Alignment with Instruction Backtranslation
相关数据集: ClueWeb, Open Assistant
核心思路
与 WizardLM 从'指令侧'入手不同,BackTranslation 采用半监督思路,从'输出侧'入手。它利用网络上爬取的人工编辑优质内容作为输出,并通过模型反向生成对应的指令,从而扩充已有的指令样本集。
实施步骤
1. Self-Augmentation(自增强)
首先使用 Open Assistant 中人工标注的 3200 条指令样本训练一个初版对齐模型(Llama)。该模型采用反向对齐方式,即给定 Output 生成 Instruction (P(X|Y))。随后,针对清洗后的网页数据作为输出,使用该模型推理生成对应的指令。
2. Iterative Self-Curation(迭代自我筛选)
生成的指令样本可能存在低质量情况,因此需要进行质量过滤。基于种子样本训练的初始模型对生成的指令进行 1-5 分的绝对打分,评估标准包括回答是否明确有用、无争议、能合理解决问题且主语为模型自身。
筛选出的高分样本会与种子样本混合,重新进行 SFT 训练。此过程可多轮迭代,不断用微调后的模型对样本进行打分过滤和混合重训。
在样本构建中,论文使用了不同的 Prompt 前缀来区分样本来源(人工标注 vs 机器生成),以降低模型学习时的混淆。
效果分析
实验表明,使用回译训练的 HumpBack 模型在 Vicuna、Self-Instruct、Open Assistant 等多个测试集上,优于 LIMA 等质量过滤微调模型,甚至超越了部分闭源模型(如 Davinci, Claude)。消融实验显示:
- 高质量样本集提升数量会带来效果提升:与 LIMA 结论略有差异,但在高质量指令下,增加样本量有效。
- 质量的影响大于数量:未过滤的低质样本会稀释训练效果,当低质占比过高时,单纯增加样本量无法提升效果。
IBM: Self Alignment
核心思路
IBM 的 Self Alignment 同样基于改写方案,但在 Self-Instruct 的基础上引入了对抗指令样本和 3H(Helpful, Harmless, Honest)相关的指令 Prompt。其目标是在 SFT 阶段让模型进行偏好对齐,通过外化的偏好原则生成符合人类偏好的回答,再通过微调将偏好内化到模型参数中。
实施流程
1. Self-Instruct 生成指令
在原始 175 个种子指令基础上,人工补充了 20 个不同主题的对抗种子指令。这些指令通常是模型在没有外部信息下无法回答或容易回答错误的(如天气查询、知识问答)。通过这类种子指令引导 Bootstrap 过程,生成更多对抗性指令,注入 3H 偏好。
2. Self-Alignment 生成回答
通过规则指令 + Few-shot 样例指导模型生成符合 3H 偏好的回答。规则指令包含 16 条原则,涵盖伦理、信息准确性、帮助性、问题评估、推理、多角度、诚实度、知识复述、静态知识、澄清、数值敏感度、过时知识、分步推理、平衡视角、创造力及操作性等。
In-context 的 Few-shot 样本固定,指导模型遵守上述规则,并加入 Chain-of-Thought 内部思考步骤以强化遵从性。
3. 微调
构造完成后,经过过滤得到 260K 指令样本用于微调。注意微调阶段直接使用回答部分,不再包含规则指令和 Few-shot 上下文,目的是让模型直接将 3H 原则内化到参数中。
微调后发现部分回答过于简短或未直接回答问题。为此,作者使用第一步微调后的模型,通过新的 Prompt 引导模型重新生成更丰富全面的回答,并进行二次微调。
效果评估
在 TruthfulQA 事实性评测及 Big-Bench 的 3H 评测上,微调后的模型相较 Llama 有显著提升。
多智能体协同新趋势
除了单模型的对齐优化,Agent 领域的研究也值得关注。传统的 LLM Agent 多涉及与大模型、数据库或搜索引擎的人机交互,而新一代研究开始探索纯大模型智能体的世界,例如斯坦福小镇(Stanford Town)和 ChatDev。
应用场景
- 协同任务完成/创意生成:通过多智能体间的沟通、反思、校验,完成复杂任务,激发创意火花。
- 模拟世界:多智能体模拟社会环境,可用于游戏 NPC 设计、社会学研究、因果推断及平行世界模拟。
代表工作
- Stanford Town:构建了包含多个智能体的虚拟城镇,每个智能体拥有独立的记忆、目标和社交关系,能够自主进行对话和行动,模拟真实的社会互动。
- ChatDev:专注于软件开发场景,通过多个智能体角色(如产品经理、程序员、测试员)协作,自动完成软件项目的规划、编码、测试和部署全流程。
总结
- WizardLM 通过指令演化(Evol-Instruct)提升指令复杂度,增强模型遵循能力。
- BackTranslation 利用回译技术从优质输出反推指令,结合迭代筛选提升数据质量。
- Self Alignment 引入对抗样本和 3H 原则,在 SFT 阶段实现偏好内化。
同时,多智能体协同代表了未来 AI 应用的重要方向,通过群体智能解决更复杂的任务。在实际应用中,应根据具体场景选择合适的方法,并注意数据质量对模型效果的决定性影响。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
- Markdown转HTML
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online