Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线

Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线

线性层 Linear 在transformer模型里面遍地都是,今天介绍一下线性层(Linear Layer)

www.zeeklog.com - Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线

线性层的定义和目的:

**线性层(Linear Layer)是神经网络中的一种基本层,也被称为全连接层(Fully Connected Layer)或密集层(Dense Layer)。**线性层在神经网络中起到的作用是对输入数据进行线性变换。

线性层的基本操作可以表示为:

y = Wx + b 

其中:

  • (y) 是输出向量。
  • (W) 是权重矩阵,其中的每个元素都是可学习的参数。
  • (x) 是输入向量。
  • (b) 是偏置向量,也是一个可学习的参数。

线性层会对输入数据 (x) 进行线性变换,通过更新权重 W 和偏置 b 来优化模型。

最佳拟合线

www.zeeklog.com - Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线

最佳拟合线是最能准确表示一组点的方程。对于给定的输入,方程的输出应该尽可能接近期望的输出。

在上面的图像中,很明显中间的线比左边或右边的线更能拟合蓝色的点。通过回归的数学方式为一组点识别出最佳拟合线。

简单地说就是,算出权重W 和B 得出最佳拟合线。

transformer里面的应用:

www.zeeklog.com - Transformer模型-线性层(Linear Layer),全连接层(Fully Connected Layer)或密集层(Dense Layer)的简明介绍:通过训练得出最佳拟合线

1,W权重矩阵就是线性层训练的目的,就是要找到合适的W(weights)。

2,W 是函数`nn.Linear初始化的,默认为随机数。经过不断地训练,更新,最终获得比较好的结果*

 原文链接: