FuseLLM:基于知识融合的大模型集成方法
FuseLLM 提出了一种针对大语言模型的知识融合方法,旨在降低多模型集成的初始化成本。该方法通过因果语言建模(CLM)将不同源模型的概率分布矩阵进行对齐与融合,利用最小编辑距离(MinED)策略解决分词器不一致导致的 Token 对齐问题,并采用 MinCE 或 AvgCE 策略整合知识。实验表明,该方式能有效提取多个模型的优势,提升目标模型性能,适用于大模型比赛及实际部署场景。

FuseLLM 提出了一种针对大语言模型的知识融合方法,旨在降低多模型集成的初始化成本。该方法通过因果语言建模(CLM)将不同源模型的概率分布矩阵进行对齐与融合,利用最小编辑距离(MinED)策略解决分词器不一致导致的 Token 对齐问题,并采用 MinCE 或 AvgCE 策略整合知识。实验表明,该方式能有效提取多个模型的优势,提升目标模型性能,适用于大模型比赛及实际部署场景。

传统的模型融合方法主要分为集成方法和权重合并方法。这两种方法在以往的 NLP 比赛中非常常见,是提升性能的有效手段。然而,上述两种方法通常都需要对每个源模型进行预训练或微调,在大模型场景下,对每个源模型都进行初始化成本过高。
为了减少初始化源大语言模型(LLM)的成本,使集成后的模型能够受益于所有源 LLMs 的优势,本文介绍了一种基于知识融合的方法来进行大模型的融合。该方法旨在创建一个统一的 LLM,使其性能超越任何单一的源 LLM。
因果语言建模是训练语言模型的一种核心目标,它旨在最小化模型预测下一个词的负对数似然。在传统的语言模型训练中,这个目标是通过比较模型生成的词概率分布与实际文本中的词(以 one-hot 编码表示)来实现的。
CLM 的训练目标可以形式化地表示为:
$$\mathcal{L}{CLM} = -\sum{i=1}^{T} \log P(y_i | y_{<i}; \theta)$$
其中 $P(y_i | y_{<i}; \theta)$ 是在模型参数 $\theta$ 下,第 $i$ 个词给定前一个词的预测概率。
为了更一般地看待语言模型,我们将序列预测转换为概率分布矩阵。对于给定的文本序列,模型会生成一个概率分布矩阵 $P$,其中每一行 $p_i$ 代表模型对第 $i$ 个词的预测分布。这个矩阵可以看作是模型对词汇表 $V$ 中每个词的概率预测。
CLM 的训练目标可以重写为概率分布矩阵的形式,通过计算预测分布与真实标签分布之间的差异来衡量损失。这里使用 KL 散度(Kullback-Leibler Divergence)作为两个矩阵之间的差异度量。
$$\mathcal{L} = D_{KL}(P_{target} || P_{source})$$
其中 $P_{target}$ 是 one-hot 编码的标签矩阵,每一行对应于文本序列中的一个词;$P_{source}$ 是模型预测的概率分布矩阵。
小结:从知识融合的角度看,不同 LLMs 生成的概率分布矩阵可以反映它们对文本的理解和知识。因此,通过比较和融合这些概率分布矩阵,可以提取和整合多个模型的知识,从而提升目标模型的性能。
不同的 LLMs 对同一文本生成的不同概率分布矩阵代表了这些模型嵌入的多样化知识。FUSELLM 方法通过概率建模来融合这些源 LLMs 的概率分布,目的是创建一个统一的 LLM,这个新模型能够超越任何单一的源 LLM。
为了实现上述目标,FUSELLM 在与预训练数据集相似的原始文本语料库上对目标 LLM 进行轻量级持续训练。在训练过程中,FUSELLM 不仅依赖于因果语言建模(CLM)目标,还强调最小化目标 LLM 的概率分布与源 LLMs 的概率分布之间的差异。
融合损失函数定义为:
$$\mathcal{L}{fusion} = \sum{k} w_k D_{KL}(P_{target} || P_{source}^{(k)})$$
整体损失函数结合了 CLM 目标和融合损失:
$$\mathcal{L}{total} = \mathcal{L}{CLM} + \lambda \cdot \mathcal{L}_{fusion}$$
其中 $w_k$ 是各个源模型的权重,$\lambda$ 是平衡系数。
由于不同源 LLMs 可能使用不同的分词器(Tokenizer),它们生成的概率分布矩阵可能在词汇表和 Token 上存在对齐问题。为了解决这个问题,FUSELLM 采用了一种基于最小编辑距离(MinED)的策略来对齐这些矩阵,确保不同模型之间的分布矩阵可以正确对齐。
在 LLMs 融合的过程中,确保不同模型生成的标记对齐是至关重要的,因为这直接影响到概率分布矩阵的对齐和后续的知识融合效果。如果标记没有正确对齐,那么即使模型在理解文本方面有优势,也无法有效地将这些优势转移到目标模型中。
Token Alignment 包含两个维度:
文章提到了两种主要的对齐策略:
动态规划对齐(EM)策略 这是一种基于动规划的方法来实现标记对齐。这种方法通过递归地最小化编辑序列的成本来对齐两个标记序列。编辑操作包括插入、删除和替换标记。如果两个标记相同,它们可以直接对齐;如果不同,则需要通过编辑操作来找到最佳的对齐方式。
最小编辑距离(MinED)策略 为了提高对齐的成功率并保留更多的有用信息,文章提出了一种基于最小编辑距离(MinED)的策略。这种方法相对于传统的精确匹配(Exact Matching, EM)策略,能够更灵活地处理标记之间的差异。MinED 策略通过计算两个标记之间的编辑距离来确定它们是否可以对齐,这通常比直接匹配更加宽松,因此能够减少对齐过程中的信息损失。
小结:标记对齐是 FUSELLM 方法中的关键步骤,它确保了不同模型生成的概率分布矩阵可以正确地融合在一起,从而实现有效的知识转移。MinED 策略提供了一种灵活的对齐方法,能够在保持信息完整性的同时,处理不同模型生成的标记差异。
在对齐概率分布矩阵后,FUSELLM 采用两种融合策略来整合源 LLMs 的知识:
FUSELLM 提供了一种高效的 LLMs 集成方法,为大模型融合提供了一个实用的技术路径。通过知识融合而非简单的权重合并,该方法能够在降低初始化成本的同时,有效利用多个源模型的知识优势。未来在 LLM 竞赛或实际部署遇到性能瓶颈时,可以考虑尝试这种知识融合 Trick 来提升模型表现。
该方法的核心理念在于将不同模型的概率分布视为知识的载体,通过数学上的对齐与融合,实现 1+1>2 的效果。这对于资源受限但需要高性能模型的场景具有重要的参考价值。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online