大语言模型基础原理与技术演进学习笔记
引言
人工智能(AI)的发展经历了数十年的起伏与变革。从早期的符号主义到连接主义的复兴,再到如今以大语言模型为代表的生成式 AI 爆发,技术路径始终围绕着如何更有效地模拟人类智能展开。本文基于对 AI 发展历史及核心技术的梳理,重点探讨概率在 AI 中的本质作用、向量表示学习、Transformer 架构以及大模型的训练逻辑,旨在为读者提供一个清晰的技术认知框架。
一、AI 的本质与概率论基础
1.1 AI 是概率的统计与简化
从宏观的时间轴来看,人类面临的所有问题本质上都是概率问题。无论是出生时的随机性,还是日常生活中的决策(如穿衣选择、社交回应),都充满了不确定性。物理定律和逻辑推理虽然追求绝对真理,但在处理复杂系统时往往难以覆盖所有变量。相比之下,概率方法虽然不保证绝对准确,但能提供在绝大多数情况下有效的结果。
AI 的核心在于概率的统计。它建立在庞大的神经网络之上,通过输入数据的概率分布来预测输出结果。因此,通过 AI 建模的语言模型或大部分不确定性系统,其有效性源于统计规律而非确定性定理。这也解释了为何在 AI 发展早期,主流学界曾对其持保留态度,研究者更多依赖竞赛成绩而非传统论文来证明价值。
GPT 等现代语言模型解决问题的本质,是结合上下文语境,推断出下一个 token(词元)出现的概率。Token 是比单词更小的单位,在中文中可能对应偏旁部首,在英文中约为三分之两个单词。模型并非理解句子的语义,而是计算序列中下一个字符的概率分布。
1.2 生成式与判别式 AI
AI 在概率问题的计算上主要分为两种范式:
生成式(Generative):计算联合概率。例如,对于句子'我是人',生成式模型会计算'我'出现后,'是'出现的概率,再计算'人'出现的概率。如果事件相互独立,则联合概率为各事件概率的乘积。这种模式能够创造新的内容,是当今大语言模型的主流方向。
判别式(Discriminative):判断和标注。例如,分析'我是人'这句话的情感倾向是正向、负向还是中性。判别式模型专注于分类边界,常用于传统的自然语言处理任务。
1.3 马尔可夫假设与语言模型
为了降低计算复杂度,语言模型引入了马尔可夫假设。该假设认为,当字数足够多时,一个字的出现往往只受其相邻的几个字的影响。因此,计算上下文的概率时,只需考虑局部上下文即可,无需回溯整个历史序列。这一简化极大地推动了 NLP 技术的发展,使得长文本的概率计算成为可能。
1.4 PageRank 与权重机制
在互联网信息检索中,PageRank 算法通过计算随机游走后停留在某一网页的概率,来决定网页的权重。权威网站发表的数据通常具有更高的权重。这一思想被迁移到 AI 领域,用于评估不同数据源的可信度,确保模型学习到的知识更具权威性。
二、从向量空间到神经网络
2.1 向量表示与语义关联
每个字或词都可以转换为一连串的数值向量。通过计算向量之间的相似度(如余弦值趋近于零表示正交,趋近于一表示高度相关),系统可以在高维空间中记录不同语料的相关性。这种表示学习方法让机器能够理解词语之间的隐含关系,而不仅仅是匹配关键词。
2.2 神经网络语言模型与表示学习
2012 年提出的 Word2Vec 标志着表示学习的兴起。通过神经网络训练,将词汇映射为稠密向量。例如,通过'国王'和'女人'的向量运算,可以推导出'女王'的向量特征;通过'程序员'减去'父亲'加上'母亲',可以得到'家庭主妇'相关的概念。这表明向量空间中存在某种代数结构,能够捕捉语义逻辑。
在实际应用中,图像识别同样依赖于大量的人工标注数据。为了让机器识别图像内容,需要前期投入大量人力进行标注,让机器学习人工标注的模式。这证明了 AI 的学习过程是通过概率而非定理或真理来逼近真实世界的。
三、Transformer 模型与序列优势
3.1 序列建模的重要性
GPT 系列模型及其前身 Transformer 的核心优势在于对序列的处理。相比于静态向量,序列可以定义同一个语料的多个向量组合。例如,提到'苹果',通过上下文语意的理解,模型能区分是指水果还是指科技公司设备。这种上下文感知能力是传统模型所欠缺的。
3.2 Transformer 架构解析
Transformer 模型训练的输入和输出均为序列。其整体架构成为了后续语言训练的基石。上半部分通常代表编码器结构(如谷歌 BERT 模型),侧重于双向理解;下半部分代表解码器结构(如 OpenAI GPT),侧重于自回归生成。
BERT 模型虽然理解能力强,但成本较高且不适合生成任务。GPT 模型则需要人类下达指令(Prompt)进行训练。优秀的 Prompt 设计可以让模型发挥更大潜力,因此掌握提示词工程(Prompt Engineering)成为了用户的重要技能。


