小模型引导大模型生成:无需微调实现弱到强泛化
本文介绍了一种名为“弱到强搜索”的新方法,旨在解决大语言模型对齐需要大量资源的问题。该方法通过微调一个小模型,在推理阶段引导大模型最大化微调前后小模型的输出对数概率差,从而避免直接微调大模型。实验显示,该策略在情感控制、摘要生成和指令跟随任务中均能有效提升大模型性能,实现了计算高效的模型扩展与弱到强泛化。

本文介绍了一种名为“弱到强搜索”的新方法,旨在解决大语言模型对齐需要大量资源的问题。该方法通过微调一个小模型,在推理阶段引导大模型最大化微调前后小模型的输出对数概率差,从而避免直接微调大模型。实验显示,该策略在情感控制、摘要生成和指令跟随任务中均能有效提升大模型性能,实现了计算高效的模型扩展与弱到强泛化。

大语言模型通常需要通过微调来符合人类的偏好,但直接微调这些大模型需要大量的资源,并不容易。
在本研究中,我们提出'弱到强搜索'(Weak-to-Strong Search)方法,将大模型的对齐过程转变为推理阶段的一种贪婪搜索方式:我们首先微调一个小模型,然后在大模型解码过程中,引导大模型去最大化微调前后小模型的输出对数概率差,从而实现类似于微调大模型的效果。
这种方法具有以下两大作用:
在实验中,我们展示了'弱到强搜索'在不同任务中的有效性。此方法适用于提升白盒以及黑盒大模型的性能(如 GPT-3.5),而无需额外训练;且此方法在情感控制生成、摘要生成,以及对话任务上都展现出出色的效果。

论文标题: Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

语言模型的对齐目标通常被形式化为以下表达式:

其中 $D$ 是提问分布,$y$ 是语言模型的回复,$r$ 奖励语言模型与人类价值对齐,$eta$ 限制微调后的模型 $p_{\theta}$ 与微调前模型 $p_{ref}$ 的分布差异。
对齐算法主要分为两大类:
(i) 基于搜索的算法,在推理过程中通过基于图的搜索来优化公式 (1); (ii) 基于学习的算法,通过梯度下降来优化公式 (1),目标是得到一个参数化的最优语言模型。我们在本工作提出的算法属于基于搜索的算法。
公式 (1) 的解析解可以通过构造以下拉格朗日函数获得:

此目标函数的有一个众所周知的闭式解,表达了奖励函数 $r$ 和最优语言模型 $p^*$ 之间的二象性:

其中 $Z$ 是配分函数。值得注意的是,这个映射关系不仅体现了语言模型和奖励函数的二象性,同时也蕴含一个重要的实际意义:我们可以使用微调和未微调的语言模型的输出差异来表示一个奖励函数。

在本节中,我们介绍了'弱到强搜索',这是一种基于搜索的算法,通过在微调和未微调小模型之间的对数概率差上进行搜索来对齐大型语言模型。
首先,我们讨论了如何使用语言模型来参数化偏好奖励函数,从而使得奖励最大化问题可以通过简单的贪婪搜索算法来求解。接着,我们介绍了一种实用的束搜索方法——分块束搜索(Chunk-level Beam Search),适用于引导白盒和黑盒大型语言模型。
基于搜索的对齐算法面临的一个挑战是偏好奖励信号的稀疏性。基于 Bradley-Terry 模型的偏好奖励函数 $r(x, y)$ 只有在模型生成完整回复 $y$ 时才会发出最终奖励。没有任何中间奖励或提供中间指导的价值函数时,搜索算法往往会遇到困难。
然而,如果我们使用语言模型对该稀疏奖励函数进行参数化(公式 (3)),则可以同时获得密集的奖励函数和价值函数。
为了获得一个密集的奖励函数,我们可以利用稀疏的偏好奖励函数与密集的语言模型概率之间的二象性。通过在语言模型下显式分解完整回复 $y$ 的对数概率,我们为公式 (3) 得到一种'奖励之和'形式的表达:

结合公式 (1) 和公式 (4),我们用一个逐词元的(per-token)奖励函数重写了原始目标:

其中省略了常数项,因为它们不影响最优解。
需要注意的是,用于参数化奖励函数的参考模型($p_{ref}$)和用于约束推理时搜索空间的参考模型($p_{base}$)可以是不同的。在实际应用中,解耦参考模型非常有用,因为这允许使用一个微调过的和一个未微调的语言模型对(即 $p_{fine-tuned}$ 和 $p_{base}$)来引导任意基础语言模型($p_{target}$)的解码,而无需重新训练。
在此稠密奖励的引导下,我们便能复用常用的贪婪搜索例如 beam search 去优化目标 (5)。但在稠密的奖励下进行贪婪搜索也存在导致短视的决策的风险,因为贪婪搜索往往不会充分考虑未来的奖励,而是优先最大化当下的累计奖励。
虽然这种批评对大多数马尔可夫决策过程是正确,但基于词元级别的马尔科夫决策过程(token-level MDP),生成过程中的累积奖励实际上是长期价值的可靠指示器,从而使得束搜索不那么短视:

换句话说,词元级别的奖励函数之和可以视作一个价值函数 $V$ 提供长远的生成指导。在下一小节,我们将基于此想法,介绍一个实际的推理算法,将 $V$ 视作价值函数来引导模型生成。
注:$y$ 表示一个完整的回复,而 $y_{t}$ 既可以表示一个完整回复也可以表示一个不完整的回复。

▲ 图 2:分块束搜索示意图,参数 $B$ 为束宽。
在分析了使用贪婪搜索算法(如束搜索)优化目标 (5) 的可行性后,我们提出了一种实用的束搜索变体。支撑我们方法的核心算法——分块束搜索(Chunk-level Beam Search,简称 CBS)在图 2 中进行了说明。
关键点在于我们的束搜索在块级别上操作。搜索从提问开始,并始终保持一个假设集 $S_t$,其中包含 $B$ 个状态。
对于 $S_t$ 中的每个状态 $s$,CBS 从 $P(y|x)$ 中采样 $K$ 个长度为 $L$ 的后续块 $y_{chunk}$。这产生了 $B \times K$ 个后继状态。在这些后继状态中,仅保留部分回报 $R$ 最高的前 $B$ 个后继状态,并进一步扩展。
最终,选择中间回报最高的终端状态 $y^$,并从中提取完整的回复 $y^$。
CBS 的最实际应用是在微调和未微调模型($p_{ft}, p_{base}$)比要引导的模型 $p_{target}$ 更小时:
首先,这种情况作为一种模型扩展策略,直接对小模型进行微调 $p_{ft}$,从而引导大模型的解码,实现与直接微调大模型相似的效果。
其次,由于小模型($p_{ft}, p_{base}$)通常比要引导的大模型 $p_{target}$ 弱,这种情况也体现了从弱到强的泛化,通过仅在测试时提供弱的引导来增强强模型的性能。我们将 CBS 的这种应用称为'弱到强搜索'(Weak-to-Strong Search),这是我们研究的重点。
在本节中,我们通过实验评估'弱到强搜索',在仅使用小语言模型的推理时引导下,对齐大型语言模型的能力。
首先,在控制情感生成和摘要生成任务中,我们微调 gpt2 以建模每个任务中所需的行为,然后使用微调和未微调的 gpt2 来引导不同规模的大模型(图 3)。
接着,在更具挑战的指令跟随基准测试 AlpacaEval 2.0 中,我们不再微调小模型,而是直接使用现成的开源 7B 模型及其未微调版本来引导一系列大型模型,包括开源的 70B 模型和一个黑盒模型(图 4)。

▲ 图 3:控制情感生成任务(左)和摘要生成任务(右)。我们用微调前后的 124M 参数的 gpt2 模型引导其他更大的模型进行生成;弱到强搜索(Weak-to-Strong Search)超越了其他推理时对齐基线,实现了近似直接微调(Directly tuned)的效果。

▲ 图 4:问答任务。我们用现成的开源 7B 模型及其未微调的版本(左:zephyr 及其微调前版本;右:tulu 及其微调前版本)以引导其他更大或更强的模型进行生成;弱到强搜索(Weak-to-Strong Search)超越了其他推理时对齐基线,并展现了稳定的弱到强泛化:虽然被引导的模型本身(蓝色柱状图)比提供引导的模型强(加粗虚线),我们的方法依旧能稳定提升强模型的性能。
我们提出了'弱到强搜索',一种在保持大型语言模型冻结的情况下,将大模型的对齐过程转变为在小模型引导下的推理阶段的一种贪婪搜索方式。
这种方法提供了一种计算高效的模型扩展策略,避免了直接微调大型模型的复杂性,同时体现了'弱到强的泛化',通过仅在测试时提供弱引导使强模型更强。实验证明,该方法在控制情感生成、摘要生成和指令跟随任务中是有效的。

在实际部署'弱到强搜索'时,开发者需要注意以下几点:
未来工作可以探索将此方法应用于多模态大模型,或者研究如何在动态环境中自适应调整引导强度,以适应不断变化的用户偏好。此外,结合强化学习进一步优化搜索策略也是一个值得深入的方向。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online