大语言模型综述（中）：预训练、适配与量化技术详解 | 极客日志

PythonAI算法

大语言模型综述（中）：预训练、适配与量化技术详解

综述由AI生成综述了大语言模型（LLM）的预训练、自适配及量化技术。内容涵盖数据收集与预处理、Transformer 架构优化、并行训练策略、指令调优与对齐方法（RLHF）、参数高效微调（LoRA 等）以及模型量化方案（PTQ/QAT）。旨在为开发者提供从训练到部署的系统性技术参考。

DevOpsTeam发布于 2025/2/7更新于 2026/6/320 浏览

2023 年 6 月，人大和蒙特利尔大学发表了论文《A Survey of Large Language Models》。本文继续介绍 LLM 的预训练和自适配技术。

预训练

数据收集

相较于小规模语言模型，LLM 对模型预训练的高质量数据要求更高，其模型能力很大程度上依赖于预训练语料及其预处理方式。

要开发一个功能强大的 LLM，关键是要从各种数据源收集大量自然语言语料库。现有的 LLM 主要利用各种公共文本数据集作为预训练语料库。许多代表性 LLM 的预训练数据源分布广泛。

收集大量文本数据后，对数据进行预处理对于构建预训练语料库至关重要，尤其是删除噪声、冗余、不相关和潜在有害数据，这些数据可能会极大地影响 LLM 的容量和性能。

LLM 预训练数据的典型预处理流程包括质量滤波、去重、隐私减弱、tokenization 和准备预处理等。与小规模的 PLM 不同，由于对计算资源的需求巨大，通常无法多次迭代 LLM 的预训练。因此，在训练 LLM 之前构建一个准备充分的预训练语料库尤为重要。

架构

下表显示公开资料中几个 LLM 的架构信息（模型卡）。

由于出色的可并行性和能力，Transformer 架构已成为开发各种 LLM 的事实上的支柱，使语言模型能够扩展到数百或数千亿个参数。总体而言，现有 LLM 的主流架构大致可分为三大类，即编码器 - 解码器、因果解码器和前缀解码器。

自 Transformer 发布以来，人们提出了各种改进来提高其训练稳定性、性能和计算效率。Transformer 四个主要部分的相应配置，包括规范化、位置嵌入、激活函数以及注意机制和偏差。

注意机制是 Transformer 的一个重要组成部分，它使得序列中的 token 能够相互交互，并计算输入和输出序列的表示。

全注意。在原始 Transformer 中，注意机制以成对的方式进行，考虑序列中所有 token 对之间的关系。它采用尺度点积注意，其中隐藏状态被映射到 Q、K 和 V。此外，Transformer 使用多头注意而不是单头注意，将 Q、K、V 以不同的变换投影到不同的头中。每个头输出的拼接作为最终输出。
稀疏注意。全注意的一个关键挑战是二次计算复杂度，这在处理长序列时会成为负担。因此，提出了各种有效的 Transformer 变体来降低注意机制的计算复杂度。例如，GPT-3 采用了局部带状稀疏注意。每个查询只能根据位置关注一组 tokens 的子集，而不是整个序列。
多查询注意。多查询注意是指注意机制的一种变体，其中不同的头在 K 和 V 上共享相同的线性变换矩阵。它可以显著节省计算成本，而模型质量只会受到轻微影响。具有多查询注意机制的代表性模型包括 PaLM 和 StarCoder。
Flash Attention。与大多数现有的近似注意方法以牺牲模型质量来提高计算效率不同，Flash Attention 提出从 IO 觉察的角度优化 GPU 上注意模块的速度和内存消耗。现代 GPU 上有不同级别的内存，例如具有快速 IO 的 SRAM 和具有相对较慢 IO 的 HBM。Flash Attention 将输入组织成块并引入必要的重计算，以便更好地利用快速内存 SRAM。Flash Attention 作为 CUDA 中的融合核实现，已集成到 PyTorch、DeepSpeed 和 Megatron-LM 中。

为了获得更强的泛化和训练稳定性，建议选择预先 RMSNorm 进行层归一化，并选择 SwiGLU 或 GeGLU 作为激活函数。此外，在嵌入层之后可能不会立即使用 LN，这可能会导致性能下降。至于位置嵌入，RoPE 或 ALiBi 是更好的选择，因为它在长序列上表现更好。

预训练的关键作用，在于将来自大规模语料库的常识编码到海量模型参数中。对于训练 LLM，有两个常用的预训练任务，即语言建模（LM）和去噪自编码（DAE）。

由于大多数语言任务都可以归结为基于输入的预测问题，这些仅使用解码器的 LLM 可能有利于隐式地学习如何以统一的 LM 方式完成这些任务。一些研究还表明，仅使用解码器的 LLM 可以通过自回归预测下一个 token 自然地迁移到某些任务，而无需微调。LM 的一个重要变体是前缀语言建模任务，它是为具有前缀解码器架构的预训练模型设计的。随机选择前缀中的 tokens 不会用于计算前缀语言建模的损失。在预训练期间看到 tokens 数相同的情况下，前缀语言建模的表现略差于语言建模，因为模型预训练涉及的序列中 tokens 较少。

DAE 任务在实现上似乎比 LM 任务更复杂。因此，它尚未被广泛用于预训练大语言模型。现有的以 DAE 为预训练目标的 LLM 包括 T5 和 GLM-130B。这些模型主要通过自回归的方式训练恢复替换 tokens。

混合去噪（MoD）将 LM 和 DAE 目标视为不同类型的去噪任务，即 S-denoiser（LM）、R-denoiser（DAE，短替换范围和低损坏）和 X-denoiser（DAE，长替换范围或高损坏）。

长上下文。基于 Transformer 的语言模型的主要缺点之一是上下文长度有限，因为涉及时间和内存的二次计算成本。同时，对具有长上下文窗口的 LLM 应用程序的需求日益增加，例如在 PDF 处理和故事写作中。ChatGPT 最近发布了一个更新版本，其上下文窗口大小高达 16K 个 token，这比最初的 4K 个 token 长得多。此外，GPT-4 推出了上下文窗口为 32K 个 token 的变体。

模型训练

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

监督微调。为了使 LM 最初执行所需的行为，它通常需要收集一个监督数据集，其中包含输入提示（指令）和所需的输出，以对 LM 进行微调。这些提示和输出可以由人工标注者为某些特定任务编写，同时确保任务的多样性。例如，Instruct-GPT 要求人工标注为几个生成任务（如开放式问答、头脑风暴、聊天和重写）编写提示（例如，'列出五个如何重拾对职业的热情的想法'）和所需的输出。请注意，在特定设置或场景中，第一步是可选的。
奖励模型训练。第二步是使用人工反馈数据训练 RM。具体来说，用 LM 生成一定数量的输出文本，并使用采样的提示（来自监督数据集或人工生成的提示）作为输入。然后，请人工标注者对这些输入对的偏好进行注释。注释过程可以以多种形式进行，一种常见的方法是通过对生成的候选文本进行排名来进行注释，这可以减少标注者之间的不一致性。然后，训练 RM 预测人类偏好的输出。在 InstructGPT 中，标注者将模型生成的输出从最好到最差进行排序，并训练 RM（即 6B GPT-3）来预测排名。
RL 微调。在此步骤中，对齐（即微调）LM 被形式化为 RL 问题。在这种情况下，预训练的 LM 充当策略，以提示为输入并返回输出文本，它的动作空间是词汇表，状态是当前生成的 token 序列，奖励由 RM 提供。为了避免与初始（调优之前）LM 有较大偏差，通常会在奖励函数中加入一个惩罚项。例如，InstructGPT 使用 PPO 算法针对 RM 优化 LM。对于每个输入提示，InstructGPT 计算当前 LM 生成结果与初始 LM 之间的 KL 散度作为惩罚。值得注意的是，第二步和最后一步可以多次迭代更好地对齐 LLM。由于 RL 算法的不稳定性，最近的研究通过重用具有更高奖励的最佳排名样本，用另一种监督微调取代 RL 调优。

适配器调优。适配器调优将小型神经网络模块（称为适配器）合并到 Transformer 模型中。为了实现适配器模块，提出了一种瓶颈架构，首先将原始特征向量压缩成较小的维度（然后进行非线性变换），然后将其恢复到原始维度。适配器模块将集成到每个 Transformer 层中，通常在 Transformer 层的两个核心部分（即注意层和前馈层）之后串行插入。或者，也可以在 Transformer 层中使用并行适配器，其中它将两个适配器模块与注意层和前馈层并行放置。在微调过程中，适配器模块将根据特定的任务目标进行优化，而原始语言模型的参数在此过程中保持冻结。通过这种方式，可以有效地减少微调过程中可训练参数的数量。
前缀调优。前缀调优在语言模型中的每个 Transformer 层前面添加一系列前缀，这些前缀是一组可训练的连续向量。这些前缀向量是任务特定的，可以被视为虚拟 tokens 嵌入。为了优化前缀向量，提出了一种重参数化技巧，学习一个 MLP 函数，将一个较小的矩阵映射到前缀的参数矩阵，而不是直接优化前缀。事实证明，这种技巧对于稳定训练很有用。优化后，映射函数将被丢弃，只保留派生的前缀向量以增强特定任务的性能。由于只训练前缀参数，因此可以实现参数高效的模型优化。与前缀调优类似，p-tuning v2 将逐层提示向量合并到专门用于自然语言理解的 Transformer 架构中，该架构还利用多任务学习来联合优化共享提示。事实证明，它有助于提高自然语言理解任务中不同参数尺度的模型性能。
提示调优。与前缀调优不同，提示调优主要侧重于在输入层合并可训练的 30 个提示向量。基于离散提示方法，它通过包含一组软提示 tokens（自由形式或前缀形式）来增强输入文本，然后采用提示增强的输入来解决特定的下游任务。在实现过程中，将特定于任务的提示嵌入与输入文本嵌入相结合，随后将其输入到语言模型中。P-tuning 提出了一种自由形式来组合上下文、提示和目标 tokens，可将其应用于自然语言理解和生成的体系结构。进一步通过双向 LSTM 学习软提示 tokens 的表示。另一种代表性方法称为提示调优，直接将前缀提示添加到输入中。在训练期间，只会根据特定于任务的监督来学习提示嵌入。由于该方法在输入层仅包含少量可训练参数，因此已发现其性能高度依赖于底层语言模型的模型能力。
低秩自适应 (LoRA)。LoRA 在每个密集层对近似更新矩阵施加低秩约束，减少可训练参数以适应下游任务。LoRA 的主要优点是它可以大大节省内存和存储使用量（例如 VRAM）。此外，人们只能保留一个大模型副本，同时维护多个特定于任务的低秩分解矩阵以适应不同的下游任务。此外，一些研究还讨论了如何以更具原则性的方式设置秩，例如基于重要性分数的分配和无搜索最佳秩选择。

大语言模型综述（中）：预训练、适配与量化技术详解

预训练

数据收集

架构

模型训练

更多推荐文章

相关免费在线工具

自适配

指令调优

对齐调优

参数高效适配

参数高效微调

LLM 的参数高效调优

内存 - 高效模型适配

量化背景

LLM 的量化方法

实证分析和发现

开源库和量化 LLM

更多推荐文章

相关免费在线工具

大语言模型综述（中）：预训练、适配与量化技术详解

预训练

数据收集

架构

模型训练

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

自适配

指令调优

对齐调优

参数高效适配

参数高效微调

LLM 的参数高效调优

内存 - 高效模型适配

量化背景

LLM 的量化方法

实证分析和发现

开源库和量化 LLM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具