小模型引导大模型生成：无需微调实现弱到强泛化

大语言模型通常需要通过微调来符合人类的偏好，但直接微调这些大模型需要大量的资源，并不容易。

在本研究中，我们提出'弱到强搜索'（Weak-to-Strong Search）方法，将大模型的对齐过程转变为推理阶段的一种贪婪搜索方式：我们首先微调一个小模型，然后在大模型解码过程中，引导大模型去最大化微调前后小模型的输出对数概率差，从而实现类似于微调大模型的效果。

这种方法具有以下两大作用：

作为一种计算高效的模型扩展策略，通过微调小模型来对大模型进行推理阶段的引导，避免直接对大型模型进行微调；
作为一种弱到强的泛化（Weak-to-Strong Generalization）的实现方式，通过弱推理时引导来提高强模型的性能。

在实验中，我们展示了'弱到强搜索'在不同任务中的有效性。此方法适用于提升白盒以及黑盒大模型的性能（如 GPT-3.5），而无需额外训练；且此方法在情感控制生成、摘要生成，以及对话任务上都展现出出色的效果。

图 1：'弱到强搜索'通过开源小模型的弱推理时引导，提高了各种大模型在标准问答任务上的表现

论文标题： Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

论文链接： https://arxiv.org/abs/2405.19262

Github 地址： https://github.com/ZHZisZZ/weak-to-strong-search

图 2：分块束搜索示意图

背景

1.1 语言模型的对齐

语言模型的对齐目标通常被形式化为以下表达式：

对齐目标公式

其中 $D$ 是提问分布，$y$ 是语言模型的回复，$r$ 奖励语言模型与人类价值对齐，$eta$ 限制微调后的模型 $p_{\theta}$ 与微调前模型 $p_{ref}$ 的分布差异。

对齐算法主要分为两大类：

(i) 基于搜索的算法，在推理过程中通过基于图的搜索来优化公式 (1)； (ii) 基于学习的算法，通过梯度下降来优化公式 (1)，目标是得到一个参数化的最优语言模型。我们在本工作提出的算法属于基于搜索的算法。

1.2 语言模型和奖励函数的二象性

公式 (1) 的解析解可以通过构造以下拉格朗日函数获得：

拉格朗日函数

小模型引导大模型生成：无需微调实现弱到强泛化