从神经元基本原理理解 LLM 智能涌现

神经网络的重要参数

大模型如 Llama 3.1 8B、70B、405B（即 80 亿、700 亿、4050 亿参数）中的这些几十亿、几百亿、几千亿的参数主要是指模型中所有可训练的权重和偏置的总和，这些参数分布在模型的各个层、节点和组件中，用于学习数据的复杂表示并生成预测结果。

神经网络参数示意图

'大力出奇迹'，即 Scaling Law：在保持模型架构和训练策略不变的情况下，通过简单地增加模型的参数数量、训练数据量或计算资源，可以在一定程度上提升模型的性能。这种趋势在多个大型语言模型的实验中都得到了验证，表明在当前的技术水平下，参数规模的增长仍然是推动模型性能提升的重要因素。

能够大力出奇迹，可能来源于大模型是由无数简单的神经元构成，就像蜂群由无数工蜂组成。越是简单的个体，不断叠加个体的数量，一定会量变到质变，产生智能涌现。

神经元结构示意

这一切的逻辑，背后的理论支撑是什么？机器学习（Machine Learning）时代已经出现了，从数学的角度那是更早就有了。即神经网络中单个神经元：y = σ(wx + b)，线性回归再叠加一个激活函数。

神经元公式示意

大语言模型（LLM）动辄上千亿的参数如何'大力出奇迹'，如何遵守 Scaling Law，如何产生智能涌现（Emergent）？这些目前都无法证明、不好理解，但是单个神经元的工作原理我们还是能搞清楚的。想搞懂大模型，那就先从了解权重 w、偏置 b 以及激活函数开始吧。

神经元原理图

权重 w 和偏置 b：在神经网络中，模型参数包括每一层的权重 (weight) 和偏置项 (bias)。这些参数在训练过程中通过反向传播算法进行调整，以最小化损失函数。神经网络模型参数的数量和复杂性随着网络层数和每层的神经元数量的增加而增加。

权重与偏置示意

在神经网络中，输入通过加权求和（权重（w）和偏置（b）），然后被一个函数作用，这个函数就是激活函数。它决定了节点是否应该被激活（即，是否让信息通过该节点继续在网络中向后传播）。

神经网络中，如果只有线性变换，那么无论神经网络有多少层，输出都是输入的线性组合。引入非线性激活函数，使得神经网络逼近任何非线性函数。