前言
当我们使用 ChatGPT 等对话模型提问时,会发现回答是一个字或一个词逐次生成的。这种流式输出并非为了营造高级感,而是由其底层实现原理决定的。本文将深入解析这一现象背后的技术逻辑。
大模型的本质
特斯拉前 AI 总监 Andrej Karpathy 曾将大语言模型简单描述为两个文件:一个是参数文件,另一个是包含运行这些参数的代码文件。
- 参数文件:组成整个神经网络的权重(Weights),存储了模型学习到的知识。
- 代码文件:用于运行神经网络的逻辑,通常由 Python 编写。
参数从哪里来?
这引出了模型训练的概念。本质上,大模型训练是对互联网海量数据进行有损压缩的过程(约 10TB 文本)。该过程需要巨大的 GPU 集群支持。
以 700 亿参数的 Llama 2 为例,训练需要约 6000 块 GPU,耗时 12 天,生成约 140GB 的'压缩文件',成本高达 200 万美元。一旦获得这个文件,模型便通过数据形成了对世界的理解。
大模型是如何工作的
简单来说,大模型的工作原理是基于神经网络对给定序列中的下一个单词进行概率预测。
例如输入'中华人民共和国',模型会计算下一个词的概率分布。由于训练数据中'共和国'出现的频率极高,模型会给出高概率预测(如 97%),从而形成完整句子。随后,'中华人民共和国'作为新的上下文输入,继续预测后续内容(如'成立于 1949 年')。
维基百科数据显示'中华人民共和国'出现次数众多,这印证了大模型的核心能力:基于统计规律的下一个词预测。你可以将其理解为一个极其强大的成语接龙大师。
神经网络基础
看到'神经网络'不必紧张,其核心逻辑并不复杂。
感知器(Perceptron)
感知器是最简单的神经网络单元,发明于 1957 年。它模拟生物神经元:接受多个输入(x1, x2...),产生一个输出。
假设张三周末是否看电影取决于三个因素:天气、价格、女朋友。每个因素对应一个输入(1 表示成立,0 表示不成立)。
- 若所有输入均为 1,输出为 1(去看电影)。
- 若所有输入均为 0,输出为 0(不去看电影)。
权重和阈值
现实中各因素重要性不同,因此引入权重(Weight)。
- 天气权重:8(决定性因素)
- 价格权重:4
- 女朋友权重:4
若天气好(1)、价格低(1)、无女友(0),加权和为 8 + 4 + 0 = 12。设定阈值为 8,因 12 > 8,模型输出 1(去)。阈值高低代表意愿强烈程度。
训练过程
实际场景中,权重初始化为随机值。通过大量数据(如 1 万人的观影习惯)进行训练,不断调整权重值以优化预测效果。最终训练结果可能是'女朋友'权重占主导,其他为辅。
神经网络训练的本质就是让权重的值调整到最佳,使得整个网络的预测误差最小。
在线实验工具
TensorFlow Playground 是一个图形化教学平台,可直观体验神经网络调参过程。用户可调整超参数、数据集和特征向量,观察网络如何拟合数据分布。
关键概念
- 参数:可通过训练自动学习的数值,如权重和偏置。
- 超参数:训练前设定的控制参数,如学习率、层数。
- 激活函数:引入非线性因素,使网络能处理复杂任务(如 ReLU)。
- 学习率:控制权重更新步长,过大易震荡,过小收敛慢。
- 正则化:防止过拟合,约束模型复杂度。
注意:并非学习越精准越好,过度拟合会导致模型在未见数据上表现不佳。
Transformer 架构
目前绝大多数开源大模型均基于 Transformer 架构。该架构自 2017 年提出以来,成为自然语言处理的主流,核心创新在于自注意力机制(Self-Attention)。


