AI 大模型起源与发展详解

1. AI 的四次发展浪潮

人工智能的发展并非一蹴而就，而是经历了四个主要阶段：

人工智能（1950 年）：图灵提出'机器能否思考'的问题，奠定了理论基础。
机器学习（1980 年代）：开始学习模式与模型，从规则驱动转向数据驱动。
深度学习（2010 年）：以人脸识别、语音识别为代表，诞生了"AI 四小龙"等应用，卷积神经网络（CNN）成为主流。
大语言模型（2020 年至今）：生成式人工智能（AIGC）爆发，核心驱动力为数据 + 算力 + 算法。

2. 两大核心学派：连接主义与符号主义

大语言模型本质上是两个学派的结合体：

连接主义学派：模拟人脑神经元连接，通过训练权重来学习模式。代表人物包括 Yann LeCun（CNN 之父）、Geoffrey Hinton 等。经典任务包括手写体识别（MNIST）、图像识别（ImageNet）、语音识别及自然语言处理（NLP）。
符号主义学派：基于逻辑推理和专家系统，使用 LISP 等语言编写规则。早期 AI 多依赖此路径，但在处理模糊信息时表现不佳。

现代大模型通过大规模参数拟合，实现了类似人类认知的泛化能力，融合了两种学派的优势。

3. 注意力机制（Attention Mechanism）的演进

注意力机制源于对人类视觉的研究。人类在处理信息时存在瓶颈，会选择性关注关键部分而忽略冗余信息。这一机制在机器翻译中得到了广泛应用。

Encoder-Decoder 架构：早期的序列到序列（Seq2Seq）模型，将输入编码为向量，再解码为输出。
RNN 与 LSTM：循环神经网络及其变体解决了长序列依赖问题，但计算效率低且难以并行。
注意力机制：引入对齐函数（Alignment Function），计算输入与输出的关联权重。通过构造 Context Vector（上下文向量），模型能聚焦于关键位置（Key）。Bengio 团队在 2014 年提出了相关论文，显著提高了可解释性和效果。

4. Transformer 的崛起与 Self-Attention

2017 年 Google 团队发表了《Attention Is All You Need》，标志着 Transformer 架构的诞生。

Self-Attention（自注意力）：允许序列中的每个词直接与其他所有词交互，捕捉长距离依赖关系，无需 RNN 结构。
并行计算：相比 RNN，Transformer 支持 GPU 并行计算，大幅提升了训练速度。
多头机制（Multi-Head Attention）：同时关注不同子空间的信息，增强语义理解能力。
位置编码（Positional Encoding）：由于 Transformer 没有循环结构，需通过分布函数添加位置信息，确保模型理解词序。

5. GPT 与 BERT：预训练模型的两大分支

从 2018 年开始，预训练模型成为提升语言理解能力的核心范式。Transformer 衍生出两个主要方向：GPT 和 BERT。

5.1 BERT (Bidirectional Encoder Representations from Transformers)

发布方：Google 团队。
论文：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。

AI 大模型起源与发展详解

AI 大模型起源与发展详解

1. AI 的四次发展浪潮

2. 两大核心学派：连接主义与符号主义

3. 注意力机制（Attention Mechanism）的演进

4. Transformer 的崛起与 Self-Attention

5. GPT 与 BERT：预训练模型的两大分支

5.1 BERT (Bidirectional Encoder Representations from Transformers)

更多推荐文章

相关免费在线工具

5.2 GPT (Generative Pre-trained Transformer)

5.3 对比总结

6. 语言模型到大型语言模型的演进

6.1 网络框架类型

6.2 模型迭代历程

7. 表示学习与嵌入技术（Embedding）

7.1 One-Hot 编码

7.2 词嵌入（Word Embedding）

7.3 上下文嵌入（Contextual Embedding）

8. 挑战与未来展望

更多推荐文章

相关免费在线工具

AI 大模型起源与发展详解

AI 大模型起源与发展详解

1. AI 的四次发展浪潮

2. 两大核心学派：连接主义与符号主义

3. 注意力机制（Attention Mechanism）的演进

4. Transformer 的崛起与 Self-Attention

5. GPT 与 BERT：预训练模型的两大分支

5.1 BERT (Bidirectional Encoder Representations from Transformers)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5.2 GPT (Generative Pre-trained Transformer)

5.3 对比总结

6. 语言模型到大型语言模型的演进

6.1 网络框架类型

6.2 模型迭代历程

7. 表示学习与嵌入技术（Embedding）

7.1 One-Hot 编码

7.2 词嵌入（Word Embedding）

7.3 上下文嵌入（Contextual Embedding）

8. 挑战与未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具