小模型引导大模型生成:无需微调实现弱到强泛化
大语言模型通常需要通过微调来符合人类的偏好,但直接微调这些大模型需要大量的资源,并不容易。
在本研究中,我们提出'弱到强搜索'(Weak-to-Strong Search)方法,将大模型的对齐过程转变为推理阶段的一种贪婪搜索方式:我们首先微调一个小模型,然后在大模型解码过程中,引导大模型去最大化微调前后小模型的输出对数概率差,从而实现类似于微调大模型的效果。
这种方法具有以下两大作用:
- 作为一种计算高效的模型扩展策略,通过微调小模型来对大模型进行推理阶段的引导,避免直接对大型模型进行微调;
- 作为一种弱到强的泛化(Weak-to-Strong Generalization)的实现方式,通过弱推理时引导来提高强模型的性能。
在实验中,我们展示了'弱到强搜索'在不同任务中的有效性。此方法适用于提升白盒以及黑盒大模型的性能(如 GPT-3.5),而无需额外训练;且此方法在情感控制生成、摘要生成,以及对话任务上都展现出出色的效果。

论文标题: Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models
论文链接: https://arxiv.org/abs/2405.19262
Github 地址: https://github.com/ZHZisZZ/weak-to-strong-search

背景
1.1 语言模型的对齐
语言模型的对齐目标通常被形式化为以下表达式:

其中 $D$ 是提问分布,$y$ 是语言模型的回复,$r$ 奖励语言模型与人类价值对齐,$eta$ 限制微调后的模型 $p_{\theta}$ 与微调前模型 $p_{ref}$ 的分布差异。
对齐算法主要分为两大类:
(i) 基于搜索的算法,在推理过程中通过基于图的搜索来优化公式 (1); (ii) 基于学习的算法,通过梯度下降来优化公式 (1),目标是得到一个参数化的最优语言模型。我们在本工作提出的算法属于基于搜索的算法。
1.2 语言模型和奖励函数的二象性
公式 (1) 的解析解可以通过构造以下拉格朗日函数获得:











