引言
如今人工智能(AI)热潮席卷而来,深度学习、神经网络等名词已频繁出现在公众视野中。然而,面对这些专业术语,普通读者往往感到隔阂。本文旨在揭开 AI 的面纱,帮助读者初步理解深度学习的基本概念、大模型的运作原理以及注意力机制的核心逻辑。
1. 深度学习学的是什么?
1.1. 神经元与网络
深度学习通过数学模型模拟人脑的神经元网络结构来处理数据。人脑中的神经元通过电信号相互连接,数据在神经网络中传播。深度学习正是模拟这一过程:将输入数据转化为张量(多维向量),经过加权求和与激活函数处理,最终输出预测结果。
| 实际概念 | 数学模型概念 |
|---|---|
| 电信号 | 张量(多维向量) |
| 神经元 | 数学公式:y = G(ax+b) |
| 神经元的连接方式 | 数学公式的参数传递方式(不同网络类型) |
其中,激活函数 G() 决定了神经元是否被激活。常见的激活函数包括 Sigmoid、Tanh 和 ReLU。ReLU(线性整流单元)因其计算简单且能缓解梯度消失问题,在现代深度学习中最为常用。

1.2. 正向传播
各个神经元的权重(a)和偏移量(b)通常随机初始化。正向传播的过程是将一组数据放入模型,从左到右走完整个网络,得到模型的计算值(预测值)。这个过程本质上是数据的特征提取与变换。
1.3. 损失函数
损失函数用于评价模型的表现。其核心思想是衡量预测值与真实值之间的差异。损失函数越小,模型表现越好。
- 监督学习:有标准标签。损失函数可理解为 P(预测值) = |预测值 - 标准值|。例如均方误差(MSE)或交叉熵损失。
- 无监督学习:没有打标。损失函数是一个计算函数,用来评价学习结果的好坏,如聚类算法中的簇内距离最小化。
1.4. 反向传播
反向传播是深度学习训练最重要的环节。它利用链式法则计算损失函数对每个参数的梯度,从而调整参数以尽可能减小损失值。
假设损失值为 L = P(G(ax+b))。我们希望改变 a 的值让 L 变小,因此对 L 关于 a 求导数,让 a 沿着斜率(梯度)下降的方向变化。这就是梯度下降法的核心。

2. NLP 自然语言处理问题的神经网络
自然语言处理(NLP)范畴广泛,当前最受关注的是生成式语言大模型。语言大模型如何完成对话?其训练过程是怎样的?
2.1. 序列建模基础
以【你吃了吗?吃了!】这组对话为例。首先要把输入与输出编码成数学模型能直接计算的数据,之后经过深度学习梯度下降的过程,完成模型训练。但在现实中,问题往往很短,答案很长,简单的序列映射难以捕捉长距离依赖。
2.2. 自回归生成
为了解决长短不一的问题,我们采用自回归的方式:把一段连续的字符串切割成子串,将某个子串作为输入,计算下一个字是什么。
示例:
- 都
- 都是
- 都是勇
- 都是勇敢的
- ...
随着字符串越来越长,编解码过程造成的信息失真会非常严重。早期模型如 RNN 在处理长序列时容易出现梯度消失,导致无法记住开头的内容。



