大语言模型 (LLM) 快速理解
自 2022 年 ChatGPT 发布之后,大语言模型(Large Language Model),简称 LLM 掀起了一波狂潮。作为学习理解 LLM 的开始,先来整体理解一下大语言模型的核心概念与架构。
一、发展历史
大语言模型的发展历史可以追溯到早期的语言模型和机器翻译系统,但其真正的起点可以说是随着深度学习技术的兴起而开始。
1.1 统计语言模型
在深度学习技术出现之前,语言模型主要基于传统的统计方法,也称为统计语言模型(SLM)。
SLMs 是基于统计语言方法开始,基本思想是基于马尔可夫假设建立词预测模型,如根据最近的上下文预测下一个词。具有固定上下文长度 n 的 SLM 也称为 n-gram 语言模型。
然而这些模型虽然简单,但在处理长文本序列时存在着词汇稀疏性和上下文理解能力有限等问题。
1.2 神经语言模型
随着神经网络技术的发展,Bengio 等人于 2003 年提出了神经语言模型,将语言模型建模问题转化为了一个神经网络的学习问题。
循环神经网络(RNN)和长短期记忆网络(LSTM)的提出进一步增强了神经语言模型对文本序列的建模能力。这些模型能够捕捉到文本序列中的长程依赖关系,从而提高了语言模型的性能。
2013 年,Google 提出了 Word2Vec 模型,通过词嵌入(Word Embedding)的方式将单词映射到连续的向量空间中,提高了语言模型对单词语义的理解能力。
2017 年,谷歌提出了 Transformer 模型,该模型通过自注意力机制(Self-Attention)实现了并行计算,大大提高了模型的训练速度。
1.3 预训练语言模型
2018 年,OpenAI 发布了第一个版本的 GPT 模型,利用 Transformer 结构进行预训练,这是首个成功利用大规模无监督学习方法来预训练通用语言表示的模型。
2018 年,Google 提出了 BERT 模型,与 GPT 的区别是 GPT 采用了单向的自回归方式进行预训练,而 BERT 通过 MLM 和 NSP 实现双向上下文建模。使得预训练语言模型的性能得到了进一步的提升。
随后就激发了后续一系列的预训练模型的发展,如 XLNet、RoBERTa、T5、GPT-2、GPT-3、GPT 3.5、GPT-4 等等。而大语言模型也是在此过程中被定义下来的。
二、什么是大语言模型
2.1 定义
从大语言模型字面意思来理解,'语言'和'模型'很好理解,就是代表着在自然语言处理上的 AI 模型。而这个大指的是神经网络很大,包括模型的参数数量、训练数据量、计算资源等。
参数数量
大语言模型通常含有数十亿到数千亿个参数,使得模型能够有更强的语言理解、推理和生成能力。
如果只通过 GPT(生成式预训练 Transformer)模型的演进规模来看:
2018 年发布的 GPT-1 包含 1.17 亿个参数,9.85 亿个单词。
2019 年发布的 GPT-2 包含 15 亿个参数。
2020 年发布的 GPT-3 包含 1750 亿个参数。ChatGPT 就是基于这个模型。


