LLM 基础篇（一）：大模型理念与演进

一、大模型概念

大规模语言模型（Large Language Models，简称 LLM），是一种由包含数百亿甚至数千亿参数的深度神经网络构建的语言模型。它使用自监督学习方法，通过海量无标注文本数据进行训练，从而学习语言的统计规律和语义表示。

自 2018 年以来，Google、OpenAI、Meta、百度、华为等公司和研究机构相继发布了包括 BERT、GPT 系列等多种模型，并在几乎所有自然语言处理任务中都表现出色。2019 年大模型呈现爆发式增长，特别是 2022 年 11 月 ChatGPT 发布后，更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互，实现问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的世界知识掌握能力和对语言的理解能力。

一般来说，大模型（Pretrained Foundation Model, Large Language Model）满足如下条件：

百亿级别参数量：例如 GPT-3 为 175B，Ernie-3.0 为 260B，Llama 为 65B，PaLM 为 540B。
零样本/少样本预测能力：即预训练之后不需要或者仅需少量样本就能解决新任务（Zero-shot/Few-shot Learning）。
突现能力（Emergent Ability）：
- 量变引发质变：模型效果随参数量、训练计算量、训练数据数量及质量的增加出现近乎跳变般的提升。
- 不可预测性：不能通过小模型的效果直接外推得出。

二、自然语言处理发展回顾

人工智能发展的主要目标之一是让机器能听会说，能理解会思考。目前人工智能技术正处在从感知智能到认知智能跨越的时间节点。自然语言处理（NLP）是认知智能中的重要内容，也是通往强人工智能的必经之路。

与自然语言处理不同，语言是高度抽象的产物，其基本组成单位并不是明确的物理实体。自然语言表示的发展一定程度上反映了自然语言处理的发展，其变迁很大程度影响着 NLP 的范式：

从离散到连续
从上下文无关到上下文相关
从浅层到深层

三、大模型发展时间线

大模型的发展经历了几个关键阶段：

2013-2017：Word2Vec 等词向量技术兴起，RNN/LSTM 成为主流序列模型。
2017：Transformer 架构提出，彻底改变了序列建模方式，引入 Self-Attention 机制。
2018：Google 推出 BERT（双向编码器），OpenAI 推出 GPT（单向解码器），开启'预训练 + 微调'新范式。
2019-2020：GPT-2、RoBERTa、T5 等模型涌现，参数量开始向千亿级迈进。
2020：GPT-3 发布，参数量达 1750 亿，展示了强大的 Few-shot 学习能力。
2022：ChatGPT 发布，基于 RLHF 技术，实现了类人对话体验；Llama 系列开源，推动社区创新。
2023：多模态大模型（如 DALL-E 3, Stable Diffusion）快速发展，推理速度优化（如 Flash Attention）。

四、大模型分类

根据面向的任务类型，相关预训练模型大致分为两大类：

自然语言理解（NLU）：侧重于对输入文本的分析、分类、抽取信息。代表模型：BERT, RoBERTa。
自然语言生成（NLG）：侧重于根据输入生成连贯的文本。代表模型：GPT 系列，T5。

此外，按开源属性可分为：

开源大模型：如 LLaMA, Falcon, Mistral 等，允许社区下载权重进行二次开发。
闭源大模型：如 GPT-4, Claude, Gemini 等，通常通过 API 提供服务。

LLM 基础篇（一）：大模型理念与演进