零数学公式：轻松理解大模型基本原理 | 极客日志

零数学公式：轻松理解大模型基本原理 | 极客日志

• 参数: 通常是指网络中可以通过训练数据自动学习和调整的那些数值，例如权重（weights）和偏置（biases）。这些参数是模型在学习过程中不断调整的，以便更好地预测或分类数据。 • 超参数: 则是指那些控制训练过程本身的参数。不同于模型参数，超参数通常是在训练开始之前设置的，并且在训练过程中保持不变。换句话说，超参数是用来定义模型结构（例如有多少层、每层有多少个神经元）和控制训练过程（例如学习速率、训练轮数）的高级设置。 • 线性: 指的是一种直接比例关系，即输出直接随输入按固定比例变化。用通俗的话说，就像你加速汽车，速度的增加与你踩油门的力度成正比。比如，假设你的工资是按小时计算的，这时候工资（输出）和工作时间（输入）之间就是线性关系。 • 非线性: 则是指输出和输入之间的关系不是直接比例的，即输出不会直接随输入按固定比例变化。通俗来说，就像你对一只橡皮筋施力，开始时很容易拉长，但越往后拉越难，力的增加和橡皮筋的伸长之间就是非线性关系。在现实生活中，很多复杂的现象（如天气变化）都是非线性的。 • 激活函数: 在神经网络中用来引入非线性因素，使得网络能够学习和模拟复杂的输入与输出之间的关系。简单来说，激活函数就像是决定神经元是否应该被激活（即对信息做出反应）的开关。例如，ReLU（Rectified Linear Unit，修正线性单元）激活函数是一种常用的激活函数，它的作用是：如果输入是正数就原样输出，如果是负数就输出 0。这样的非线性特性让神经网络能够处理更加复杂和抽象的任务，比如图像识别和语言处理。 • 学习率: 是在训练神经网络时用来控制模型学习进度的一个参数。简单讲就是每次给权重添加多少值，如果加的越多，容易学习过头，如果加的太低，学习次数就会变多。 • 正则化: 是一种用于避免模型过拟合的技术，可以理解为给模型训练加上一种约束或者惩罚。 • 正则率: （通常用λ表示）则是控制正则化强度的参数。正则率的值越大，对模型复杂度的惩罚就越重，模型就越倾向于更加简单，但过高的正则率可能导致模型过于简单，无法捕捉数据的关键特征，即欠拟合。因此，选择合适的正则率是保持模型泛化能力和拟合能力之间平衡的关键。

更多推荐文章

相关免费在线工具