Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线
线性层 Linear 在transformer模型里面遍地都是,今天介绍一下线性层(Linear Layer)

线性层的定义和目的:
**线性层(Linear Layer)是神经网络中的一种基本层,也被称为全连接层(Fully Connected Layer)或密集层(Dense Layer)。**线性层在神经网络中起到的作用是对输入数据进行线性变换。
线性层的基本操作可以表示为:
y = Wx + b 其中:
- (y) 是输出向量。
- (W) 是权重矩阵,其中的每个元素都是可学习的参数。
- (x) 是输入向量。
- (b) 是偏置向量,也是一个可学习的参数。
线性层会对输入数据 (x) 进行线性变换,通过更新权重 W 和偏置 b 来优化模型。
最佳拟合线

最佳拟合线是最能准确表示一组点的方程。对于给定的输入,方程的输出应该尽可能接近期望的输出。
在上面的图像中,很明显中间的线比左边或右边的线更能拟合蓝色的点。通过回归的数学方式为一组点识别出最佳拟合线。
简单地说就是,算出权重W 和B 得出最佳拟合线。
transformer里面的应用:

1,W权重矩阵就是线性层训练的目的,就是要找到合适的W(weights)。
2,W 是函数`nn.Linear初始化的,默认为随机数。经过不断地训练,更新,最终获得比较好的结果*
原文链接: