LLM 与 LoRA：高效优化大型语言模型的微调方法

LLM 与 LoRA：高效优化大型语言模型的微调方法 | 极客日志

上述内容讨论了在自然语言处理领域，尤其是在大规模语言模型微调和推理过程中，使用适配器层（Adapter Layers）方法时遇到的一个关键挑战：推理延迟问题。适配器层作为一种高效微调策略，旨在通过在预训练模型的 Transformer 块中插入少量额外参数来适应特定任务，而不必调整整个模型的大量参数。这样做理论上可以减少模型适应新任务所需的资源，但实际上却可能在某些场景下增加推理时间，特别是对于实时应用而言，这是一个重要考量。

适配器层的工作原理与设计

适配器层的设计通常包含两个主要部分：一个降维层（down-projection）和一个升维层（up-projection），中间夹着一个非线性函数（如 ReLU）。这样的设计使得适配器即便拥有较少的参数（相比原模型参数量可能少于 1%），也能有效地捕捉任务特定的信息。例如，Houlsby 等人提出的原始设计在每个 Transformer 块中包含两个这样的适配器层，而 Lin 等人则提议每个块使用一个适配器层并加入额外的 LayerNorm 层以稳定训练。

引入的推理延迟问题

尽管适配器层在参数数量上做了减法，但在实际推理过程中，它们可能引入额外的计算延迟。原因在于：

硬件并行性限制：现代深度学习模型在高性能计算平台上运行时，高度依赖于并行处理来加速计算。适配器层的加入意味着模型的部分计算不能并行执行，因为它们必须按照序列顺序处理，这与原模型中可以高度并行化的 Transformer 层形成对比。在单个 GPU 上运行中等规模模型（如 GPT-2 Medium）时，即使适配器层的参数非常少，也会观察到推理延迟的显著增加。

模型切分的影响：在分布式训练或推理场景中，模型会被分割到多个 GPU 上以进一步加速训练或处理更大的模型。这种切分（sharding）通常需要额外的同步操作（如 AllReduce 和 Broadcast）来确保各个 GPU 间的参数一致性。适配器层的加入增加了模型的深度，这可能会导致更多的同步通信需求，进一步增加延迟，除非通过冗余存储适配器参数来减少这些通信成本。

实例说明

假设你正在开发一个基于云的服务，该服务使用了一个大型语言模型来进行文本生成。为了提高模型在特定领域的表现，决定采用适配器微调技术。原本，模型可以在单个 GPU 上快速响应用户请求，因为原模型设计充分利用了 GPU 的并行计算能力。然而，引入适配器层后，尽管模型在特定任务上的性能有所提升，但由于适配器层的串行处理特性，每个请求的处理时间（即推理延迟）变长了。在用户量大、实时交互要求高的场景下，这种延迟的增加可能会严重影响用户体验。

为了缓解这一问题，研究人员和工程师可能会探索不同的策略，比如优化适配器结构、改进硬件利用效率或者在模型切分时采取更高效的通信策略，以在保持微调效率的同时，最小化对推理延迟的影响。

上述内容描述了 LoRA（Low-Rank Adaptation）方法如何作为一种全微调的泛化形式，允许对预训练模型的参数子集进行训练，并且具有一些独特的优势。以下是对这段内容的说明和示例：

全微调的泛化：通常的全微调会更新模型的所有参数以适应新任务。而全微调的泛化形式，允许我们只选择性地更新模型的一部分参数，而不是全部。

LoRA 方法：LoRA 通过在预训练的权重矩阵中引入低秩的可训练矩阵来实现参数更新，而不是直接更新整个权重矩阵。这减少了训练所需的参数数量。

不需要满秩更新：在 LoRA 中，权重矩阵的更新（即梯度累积）不需要是满秩的。这意味着即使在参数更新中存在一些线性依赖，模型仍然可以有效地学习和适应新任务。

恢复全微调的表达能力：通过将 LoRA 的秩 r 设置为与预训练权重矩阵相同的秩，我们可以在一定程度上模拟全微调的效果。这表明 LoRA 在参数数量增加时，其表达能力可以接近全微调。

训练 LoRA 与训练原始模型的趋近性：随着可训练参数数量的增加，使用 LoRA 进行训练的效果将越来越接近于直接训练原始模型。

与适配器方法和前缀方法的比较：与基于适配器的方法（可能导致模型趋向于一个多层感知器）和基于前缀的方法（可能导致模型无法处理长输入序列）相比，LoRA 提供了一种平衡，既能有效适应新任务，又能保持处理长序列的能力。

示例说明：

假设我们有一个大型的预训练 Transformer 模型，它包含数十亿个参数。如果我们想要将这个模型适应到一个特定的下游任务，比如情感分析，使用全微调我们将不得不更新所有参数，这在计算上可能非常昂贵。

使用 LoRA，我们可以只选择模型中与情感分析最相关的部分权重矩阵进行更新。例如，我们可以只更新模型中与情感表达有关的特定层的权重，通过引入低秩矩阵 B 和 A 来实现这一点。这样，我们只训练这些低秩矩阵的参数，而不是整个权重矩阵，从而大大减少了训练参数的数量和计算成本。

如果我们将 LoRA 应用于模型的所有权重矩阵，并适当设置秩 r，我们就可以近似地恢复全微调的效果，但同时保持了训练效率。这样，我们就可以在不牺牲太多性能的情况下，快速适应新任务。

假设我们有一个预训练的 GPT-3 175B 模型，它是一个具有 1750 亿参数的大型语言模型，我们希望将其适应到特定的下游任务，比如情感分析。由于模型规模庞大，直接对所有参数进行微调（Full Fine-Tuning）成本很高。因此，我们考虑使用 LoRA 方法来减少所需的可训练参数数量。

步骤 1：设定参数预算

我们设定了一个参数预算，即我们只允许模型有 18M 个可训练参数进行调整。这个预算限制了我们可以使用的 LoRA 参数的数量。

步骤 2：选择权重矩阵

在 Transformer 模型中，自注意力模块包含几种类型的权重矩阵：W_q（查询）、W_k（键）、W_v（值）和 W_o（输出）。根据上述内容，我们决定只考虑自注意力模块中的权重矩阵进行 LoRA。

步骤 3：分配秩（Rank）

我们的参数预算允许我们在秩为 8 时适应一种类型的注意力权重，或者在秩为 4 时适应两种类型的注意力权重。这意味着我们可以为每种权重矩阵分配更多的参数，或者用较少的参数适应更多的权重矩阵。

步骤 4：进行 LoRA

我们选择适应 W_q 和 W_v 两种权重矩阵，因为实验表明这种组合可以在下游任务中获得最佳性能。在 LoRA 中，我们不是直接更新这些权重矩阵，而是引入两个低秩矩阵 A 和 B，它们的乘积 BA 近似了权重矩阵的更新△W。

步骤 5：实验结果

实验结果显示，将所有参数仅放在△W_q 或△W_k 上会导致性能显著下降。而同时适应 W_q 和 W_v 可以得到最佳结果。这表明即使是秩为 4，也足以捕获足够的信息来实现有效的任务适应。

步骤 6：解释和应用

通过这个例子，我们了解到在使用 LoRA 进行模型微调时，选择适当的权重矩阵并合理分配秩是非常重要的。这不仅可以减少所需的参数数量，还可以保持或提高模型在特定任务上的性能。此外，由于 LoRA 在推理时不会引入额外的延迟，因此它在实际部署中也非常有用。

LLM 与 LoRA：高效优化大型语言模型的微调方法

LoRA 一文小结

更多推荐文章

相关免费在线工具

1 摘要

2 引言

3 现有方案是否足够好？

4 我们的方法

4.1 低秩参数化更新矩阵

4.2 将 LoRA 应用于 Transformer

5 实证实验

5.1 基线方法

5.2 RoBERTa Base/Large

5.3 DeBERTa XXL

5.4 GPT-2 Medium/Large

5.5 扩展至 GPT-3 175B

6 相关工作

7 理解低秩更新

7.1 我们应该在 Transformer 中应用 LoRA 到哪些权重矩阵？

7.2 LoRA 的最优秩 r 是多少？

7.3 适应矩阵△W 与 W 相比如何？

8 结论与未来工作

更多推荐文章

相关免费在线工具

LLM 与 LoRA：高效优化大型语言模型的微调方法

LoRA 一文小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1 摘要

2 引言

3 现有方案是否足够好？

4 我们的方法

4.1 低秩参数化更新矩阵

4.2 将 LoRA 应用于 Transformer

5 实证实验

5.1 基线方法

5.2 RoBERTa Base/Large

5.3 DeBERTa XXL

5.4 GPT-2 Medium/Large

5.5 扩展至 GPT-3 175B

6 相关工作

7 理解低秩更新

7.1 我们应该在 Transformer 中应用 LoRA 到哪些权重矩阵？

7.2 LoRA 的最优秩 r 是多少？

7.3 适应矩阵△W 与 W 相比如何？

8 结论与未来工作

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具