大语言模型基础原理与技术演进学习笔记

综述由AI生成深入探讨了大语言模型的基础原理与技术演进。首先阐述了 AI 本质上是概率统计，介绍了生成式与判别式模型的区别及马尔可夫假设的作用。其次讲解了向量表示学习与神经网络如何将语义转化为数学空间中的坐标。接着分析了 Transformer 架构的序列优势及 BERT 与 GPT 的差异。最后详细说明了 GPT 训练的核心逻辑，包括人工打分、涌现现象及 RLHF 强化学习对齐技术。文章还展望了 AI 在各行业的应用前景及面临的挑战，强调人机协作的重要性。

GitMaster发布于 2025/2/7更新于 2026/5/2821 浏览

大语言模型基础原理与技术演进学习笔记

引言

人工智能（AI）的发展经历了数十年的起伏与变革。从早期的符号主义到连接主义的复兴，再到如今以大语言模型为代表的生成式 AI 爆发，技术路径始终围绕着如何更有效地模拟人类智能展开。本文基于对 AI 发展历史及核心技术的梳理，重点探讨概率在 AI 中的本质作用、向量表示学习、Transformer 架构以及大模型的训练逻辑，旨在为读者提供一个清晰的技术认知框架。

一、AI 的本质与概率论基础

1.1 AI 是概率的统计与简化

从宏观的时间轴来看，人类面临的所有问题本质上都是概率问题。无论是出生时的随机性，还是日常生活中的决策（如穿衣选择、社交回应），都充满了不确定性。物理定律和逻辑推理虽然追求绝对真理，但在处理复杂系统时往往难以覆盖所有变量。相比之下，概率方法虽然不保证绝对准确，但能提供在绝大多数情况下有效的结果。

AI 的核心在于概率的统计。它建立在庞大的神经网络之上，通过输入数据的概率分布来预测输出结果。因此，通过 AI 建模的语言模型或大部分不确定性系统，其有效性源于统计规律而非确定性定理。这也解释了为何在 AI 发展早期，主流学界曾对其持保留态度，研究者更多依赖竞赛成绩而非传统论文来证明价值。

GPT 等现代语言模型解决问题的本质，是结合上下文语境，推断出下一个 token（词元）出现的概率。Token 是比单词更小的单位，在中文中可能对应偏旁部首，在英文中约为三分之两个单词。模型并非理解句子的语义，而是计算序列中下一个字符的概率分布。

1.2 生成式与判别式 AI

AI 在概率问题的计算上主要分为两种范式：

生成式（Generative）：计算联合概率。例如，对于句子'我是人'，生成式模型会计算'我'出现后，'是'出现的概率，再计算'人'出现的概率。如果事件相互独立，则联合概率为各事件概率的乘积。这种模式能够创造新的内容，是当今大语言模型的主流方向。

判别式（Discriminative）：判断和标注。例如，分析'我是人'这句话的情感倾向是正向、负向还是中性。判别式模型专注于分类边界，常用于传统的自然语言处理任务。

1.3 马尔可夫假设与语言模型

为了降低计算复杂度，语言模型引入了马尔可夫假设。该假设认为，当字数足够多时，一个字的出现往往只受其相邻的几个字的影响。因此，计算上下文的概率时，只需考虑局部上下文即可，无需回溯整个历史序列。这一简化极大地推动了 NLP 技术的发展，使得长文本的概率计算成为可能。

1.4 PageRank 与权重机制

在互联网信息检索中，PageRank 算法通过计算随机游走后停留在某一网页的概率，来决定网页的权重。权威网站发表的数据通常具有更高的权重。这一思想被迁移到 AI 领域，用于评估不同数据源的可信度，确保模型学习到的知识更具权威性。

二、从向量空间到神经网络

2.1 向量表示与语义关联

每个字或词都可以转换为一连串的数值向量。通过计算向量之间的相似度（如余弦值趋近于零表示正交，趋近于一表示高度相关），系统可以在高维空间中记录不同语料的相关性。这种表示学习方法让机器能够理解词语之间的隐含关系，而不仅仅是匹配关键词。

2.2 神经网络语言模型与表示学习

2012 年提出的 Word2Vec 标志着表示学习的兴起。通过神经网络训练，将词汇映射为稠密向量。例如，通过'国王'和'女人'的向量运算，可以推导出'女王'的向量特征；通过'程序员'减去'父亲'加上'母亲'，可以得到'家庭主妇'相关的概念。这表明向量空间中存在某种代数结构，能够捕捉语义逻辑。

在实际应用中，图像识别同样依赖于大量的人工标注数据。为了让机器识别图像内容，需要前期投入大量人力进行标注，让机器学习人工标注的模式。这证明了 AI 的学习过程是通过概率而非定理或真理来逼近真实世界的。

三、Transformer 模型与序列优势

3.1 序列建模的重要性

GPT 系列模型及其前身 Transformer 的核心优势在于对序列的处理。相比于静态向量，序列可以定义同一个语料的多个向量组合。例如，提到'苹果'，通过上下文语意的理解，模型能区分是指水果还是指科技公司设备。这种上下文感知能力是传统模型所欠缺的。

3.2 Transformer 架构解析

Transformer 模型训练的输入和输出均为序列。其整体架构成为了后续语言训练的基石。上半部分通常代表编码器结构（如谷歌 BERT 模型），侧重于双向理解；下半部分代表解码器结构（如 OpenAI GPT），侧重于自回归生成。

BERT 模型虽然理解能力强，但成本较高且不适合生成任务。GPT 模型则需要人类下达指令（Prompt）进行训练。优秀的 Prompt 设计可以让模型发挥更大潜力，因此掌握提示词工程（Prompt Engineering）成为了用户的重要技能。

大语言模型基础原理与技术演进学习笔记

大语言模型基础原理与技术演进学习笔记

引言

一、AI 的本质与概率论基础

1.1 AI 是概率的统计与简化

1.2 生成式与判别式 AI

1.3 马尔可夫假设与语言模型

1.4 PageRank 与权重机制

二、从向量空间到神经网络

2.1 向量表示与语义关联

2.2 神经网络语言模型与表示学习

三、Transformer 模型与序列优势

3.1 序列建模的重要性

3.2 Transformer 架构解析

更多推荐文章

相关免费在线工具

3.3 注意力机制

四、GPT 训练的核心逻辑

4.1 标注与判定

4.2 RLHF 技术与人类对齐

五、行业应用与未来展望

5.1 应用场景

5.2 技术挑战

结语

更多推荐文章

相关免费在线工具

大语言模型基础原理与技术演进学习笔记

大语言模型基础原理与技术演进学习笔记

引言

一、AI 的本质与概率论基础

1.1 AI 是概率的统计与简化

1.2 生成式与判别式 AI

1.3 马尔可夫假设与语言模型

1.4 PageRank 与权重机制

二、从向量空间到神经网络

2.1 向量表示与语义关联

2.2 神经网络语言模型与表示学习

三、Transformer 模型与序列优势

3.1 序列建模的重要性

3.2 Transformer 架构解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 注意力机制

四、GPT 训练的核心逻辑

4.1 标注与判定

4.2 RLHF 技术与人类对齐

五、行业应用与未来展望

5.1 应用场景

5.2 技术挑战

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具