大语言模型综述：预训练、微调、应用与评估详解

大语言模型综述：预训练、微调、应用与评估详解 | 极客日志

大语言模型综述

引言

近年来，大语言模型（Large Language Model, LLM）的研究取得了突破性进展。从统计语言模型到神经语言模型，再到预训练语言模型，自然语言处理技术经历了深刻的变革。随着 Transformer 架构的提出和模型规模的扩展，LLM 展现出了超越传统模型的强大能力，包括上下文学习（In-Context Learning）和涌现能力（Emergent Abilities）。本文旨在系统性地梳理大语言模型的研究进展与核心技术，回顾其背景、主要发现及主流技术，特别关注预训练、适配微调、使用和能力评估四个主要方面。

语言建模的发展历史

语言是人类表达和交流的核心能力，实现机器像人类一样理解和使用语言一直是人工智能领域的长期挑战。语言建模（Language Modeling, LM）是提高机器语言智能的主要方法之一，其核心是对词序列的生成概率进行建模，以预测未来或缺失的 tokens。

1. 统计语言模型 (SLM)

统计语言模型兴起于 20 世纪 90 年代，基于马尔可夫假设建立词预测模型。例如，根据最近的上下文预测下一个词。具有固定上下文长度 n 的 SLM 也称为 n 元语言模型（N-gram），如 bigram 和 trigram。SLM 被广泛应用于信息检索和自然语言处理任务。然而，它们通常受到维数灾难的困扰，因为需要估计指数级数量的转换概率，导致高阶语言模型难以准确估计。为此，专门设计的平滑策略（如回退估计和古德 - 图灵估计）被引入以缓解数据稀疏问题。

2. 神经语言模型 (NLM)

神经语言模型通过神经网络（如循环神经网络 RNN）来描述单词序列的概率。关键贡献在于引入了词的分布式表示概念，即在聚合上下文特征（即分布式词向量）的条件下构建词预测函数。Word2Vec 等研究提出了构建简化浅层神经网络来学习分布式单词表示的方法，这些表示在各种 NLP 任务中被证明非常有效。这开创了将语言模型用于表示学习的先河，对 NLP 领域产生了深远影响。

3. 预训练语言模型 (PLM)

作为早期尝试，ELMo 提出通过预训练双向 LSTM 网络来捕捉上下文感知的词表示，然后根据特定下游任务微调。随后，基于自注意力机制的高度并行化 Transformer 架构被提出。BERT 作为双向语言模型，在大规模无标签语料库上使用专门设计的预训练任务。这些预训练的上下文感知词表示作为通用语义特征非常有效，极大地提高了 NLP 任务的性能。这项研究确立了'预训练和微调'的学习范式。遵循这一范式，大量研究建立了不同的架构（如 GPT-2、BART）或改进的预训练策略。在此范式中，通常需要对 PLM 进行微调以适配不同的下游任务。

4. 大语言模型 (LLM)

研究人员发现，扩展 PLM（如扩展模型大小或数据大小）通常会提高下游任务的模型性能，这被称为扩展法则（Scaling Laws）。许多研究通过训练越来越大的 PLM（如 1750 亿参数的 GPT-3 和 5400 亿参数的 PaLM）来探索性能极限。尽管扩展主要在模型大小方面进行，但这些大规模的 PLM 与较小的 PLM（如 BERT、GPT-2）表现出不相同的行为，并在解决一系列复杂任务中展示了惊人的能力，称为涌现能力。例如，GPT-3 可以通过上下文学习来解决小样本任务，而 GPT-2 则表现不佳。因此，研究界将这些大规模的 PLM 命名为'大语言模型'。ChatGPT 作为 LLM 的一个出色应用，将 GPT 系列应用于对话，展现出惊人的与人类对话的能力。

LLM 与 PLM 的主要区别

尽管 PLM 已有广泛讨论，但 LLM 有其独特性：

涌现能力：LLM 表现出一些令人惊讶的涌现能力，这些能力可能在以前较小的 PLM 中没有观察到。这是 LM 在复杂任务上表现的关键，使得 AI 算法具有前所未有的强大和有效性。
交互方式变革：LLM 将彻底改变人类开发和使用 AI 算法的方式。与小型 PLM 不同，访问 LLM 的主要方法是通过提示接口（如 API）。人们必须了解 LLM 的工作原理，并以 LLM 能够遵循的方式形式化他们的任务。
研工界限模糊：LLM 的发展不再明确区分研究和工程。训练 LLM 需要在大规模数据处理和分布式并行训练方面具有丰富的实践经验。为了开发出有能力的 LLM，研究人员必须解决复杂的工程问题，往往需要与工程师合作或成为工程师。

LLM 的影响与挑战

行业影响

LLM 对 AI 社区产生了重大影响。ChatGPT 和 GPT-4 的出现促使人们重新思考通用人工智能（AGI）的可能性。在 NLP 领域，LLM 可以在一定程度上作为通用语言任务解决器；在 IR 领域，传统搜索引擎正受到 AI 聊天机器人的挑战；在计算机视觉领域，研究人员试图开发类似 ChatGPT 的视觉 - 语言模型，支持多模态输入。这一新技术浪潮可能会带来一个基于 LLM 的实际应用的繁荣生态系统，例如利用 Copilot 自动化办公工作。

面临挑战

尽管取得了进步，LLM 的基本原理尚未得到充分探索：

可解释性：为什么涌现能力会出现在 LLM 中，而不是较小的 PLM 中，仍然是难以解释的。研究界缺乏对 LLM 优越能力的关键因素进行深入调查。
训练成本：研究界很难训练出有能力的 LLM。由于计算资源的巨大需求，进行重复、消融研究的成本非常高。实际上，LLM 主要由工业界训练，许多重要的训练细节并未向公众透露。
对齐与安全：将 LLM 与人类价值观或偏好保持一致是具有挑战性的。LLM 可能生成有害、虚构或具有负面影响的内容。因此，需要有效和高效的控制方法来消除使用 LLM 的潜在风险。

综述结构

为了向读者提供对 LLM 的基础认识，本综述从以下四个方面对 LLM 的最近进展进行文献综述：

预训练：如何预训练出一个有能力的 LLM，包括数据选择、架构设计和训练策略。
适配微调：如何从有效性和安全性两个角度有效地微调预训练的 LLM，涵盖指令微调、RLHF 等技术。
使用：如何利用 LLM 解决各种下游任务，包括提示工程、工具调用及 Agent 设计。
能力评估：如何评估 LLM 的能力和现有的经验性发现，包括基准测试和主观评估。

此外，我们还总结了开发 LLM 的可用资源，并讨论了 LLM 现有的问题和未来的发展方向。本文提供了关于 LLM 的最新文献综述，期望能为研究人员和工程师提供帮助。

大语言模型综述：预训练、微调、应用与评估详解