AI 语言大模型关键技术
语言大模型技术主要包括模型预训练、适配微调、提示学习、知识增强和工具学习等核心领域。以下将详细讲解各项关键技术的原理与应用。
1. 语言大模型的预训练
支撑语言大模型高效训练的技术主要包括高性能训练工具、高效预训练策略、高质量训练数据、高效的模型架构等。
高效预训练策略
其主要思路是采用不同的策略以更低成本实现对语言大模型的预训练。
- 设计高效的优化任务目标:使得模型能够利用每个样本更多的监督信息,从而实现模型训练的加速。
- 热启动策略:在训练开始时线性地提高学习率,以解决在预训练中单纯增加批处理大小可能会导致优化困难的问题。
- 渐进式训练策略:不同于传统的训练范式使用相同的超参数同时优化模型每一层,该方法认为不同的层可以共享相似的自注意力模式,首先训练浅层模型,然后复制构建深层模型。
- 知识继承方法:即在模型训练中同时学习文本和已经预训练语言大模型中的知识,以加速模型训练。在中文语言大模型 CPM-2 中,采用知识继承技术经测试可以使大模型在预训练前期提速 37.5%。
- 可预测扩展策略(Predictable Scaling):旨在大模型训练初期,利用大模型和小模型的同源性关系,通过拟合系列较小模型的性能曲线预测大模型性能,指导大模型训练优化。
OpenAI 在 GPT-4 训练中,使用 1000 倍至 10000 倍较少计算资源训练的小模型可靠地预测 GPT-4 某些性能,大幅降低了模型训练成本。

高效的模型架构
BERT 之后的 Transformer 架构在提高自然语言处理效率方面有两个重要优化方向:
(1)统一的序列建模
旨在将多种自然语言处理任务(如分类、信息抽取、翻译、对话等)整合到一个统一的框架,然后在同一模型中执行多个任务,以实现更高效的自然语言处理。该方法可以充分利用大规模训练数据,从而提高了模型在多个任务上的性能和泛化性。这减少了开发和维护多个单独模型的复杂性以及资源消耗,提高模型的通用性。
统一任务序列建模有两种方式:
- 一是转化为序列生成的统一任务,如 T5 和 BART 等将多种自然语言任务统一转化文本到文本的生成任务;
- 二是转化为语言大模型预训练任务,通过语言提示在输入文本中插入人类设计或者自动生成的上下文,实现对不同任务的处理。
(2)计算高效的模型架构
从 Transformer 模型架构本身在处理训练复杂度、编解码效率、训练稳定性、显存利用等方面进行优化。比如,Transformer 其并行处理机制是以低效推理为代价的,解码时每个步骤的复杂度为 O(N),Transformer 模型也是显存密集型模型,输入序列越长、占用的内存越多。
为此,微软设计了一种新的 Transformer 架构 RetNet,其采用线性化注意力 + 尺度保持(Retention)机制,在基本保持模型性能的基础上同时实现模型训练速度、推断速度和内存节约的大幅提升。
针对自注意力显存消耗大,斯坦福大学在 Transformer 中引入 FlashAttention,给出了一种具有 IO 感知,且兼具快速、内存高效的注意力算法,已经被各种主流大模型采用以扩展对超长文本输入的支持。
最近,模块化大模型架构引起广泛关注,其利用大模型的神经激活稀疏性,对稠密模型进行模块化划分,不同任务只经过部分模块计算实现训练和推理加速,典型工作包括 Google 的 Switch Transformers 和 Pathways 架构、清华大学的 MoEfication 架构、FastMoE 架构等。






