AI 大模型起源与发展详解
1. AI 的四次发展浪潮
人工智能的发展并非一蹴而就,而是经历了四个主要阶段:
- 人工智能(1950 年):图灵提出'机器能否思考'的问题,奠定了理论基础。
- 机器学习(1980 年代):开始学习模式与模型,从规则驱动转向数据驱动。
- 深度学习(2010 年):以人脸识别、语音识别为代表,诞生了"AI 四小龙"等应用,卷积神经网络(CNN)成为主流。
- 大语言模型(2020 年至今):生成式人工智能(AIGC)爆发,核心驱动力为数据 + 算力 + 算法。

2. 两大核心学派:连接主义与符号主义
大语言模型本质上是两个学派的结合体:
- 连接主义学派:模拟人脑神经元连接,通过训练权重来学习模式。代表人物包括 Yann LeCun(CNN 之父)、Geoffrey Hinton 等。经典任务包括手写体识别(MNIST)、图像识别(ImageNet)、语音识别及自然语言处理(NLP)。
- 符号主义学派:基于逻辑推理和专家系统,使用 LISP 等语言编写规则。早期 AI 多依赖此路径,但在处理模糊信息时表现不佳。
现代大模型通过大规模参数拟合,实现了类似人类认知的泛化能力,融合了两种学派的优势。
3. 注意力机制(Attention Mechanism)的演进
注意力机制源于对人类视觉的研究。人类在处理信息时存在瓶颈,会选择性关注关键部分而忽略冗余信息。这一机制在机器翻译中得到了广泛应用。
- Encoder-Decoder 架构:早期的序列到序列(Seq2Seq)模型,将输入编码为向量,再解码为输出。
- RNN 与 LSTM:循环神经网络及其变体解决了长序列依赖问题,但计算效率低且难以并行。
- 注意力机制:引入对齐函数(Alignment Function),计算输入与输出的关联权重。通过构造 Context Vector(上下文向量),模型能聚焦于关键位置(Key)。Bengio 团队在 2014 年提出了相关论文,显著提高了可解释性和效果。
4. Transformer 的崛起与 Self-Attention
2017 年 Google 团队发表了《Attention Is All You Need》,标志着 Transformer 架构的诞生。
- Self-Attention(自注意力):允许序列中的每个词直接与其他所有词交互,捕捉长距离依赖关系,无需 RNN 结构。
- 并行计算:相比 RNN,Transformer 支持 GPU 并行计算,大幅提升了训练速度。
- 多头机制(Multi-Head Attention):同时关注不同子空间的信息,增强语义理解能力。
- 位置编码(Positional Encoding):由于 Transformer 没有循环结构,需通过分布函数添加位置信息,确保模型理解词序。
5. GPT 与 BERT:预训练模型的两大分支
从 2018 年开始,预训练模型成为提升语言理解能力的核心范式。Transformer 衍生出两个主要方向:GPT 和 BERT。
5.1 BERT (Bidirectional Encoder Representations from Transformers)
- 发布方:Google 团队。
- 论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。


