多元线性回归
多元线性回归可以用来模拟两个或多个自变量与一个数值型因变量之间的关系。日常用例包括根据房屋的卧室数量、浴室数量、面积等信息预测房价。先来聊聊多元线性回归的一些关键假设。
- 自变量与因变量的线性关系:具体来说,任何一个自变量(或特征)变化 1 个单位时,因变量应该以恒定的速率变化。
- 没有多重共线性:这意味着特征之间需要相互独立。以房价为例,如果卧室数量和浴室数量之间存在某种相关性,这可能会影响模型的性能。确保没有或最小化多重共线性,也能让你更高效地利用给定的数据。
- 同方差性:这意味着在任何自变量水平下,误差都是恒定的。如果房价预测模型显示,随着预测价格的上升,误差也在增加,那说明该模型不满足同方差性了。可能需要对特征数据进行一些变换,以满足这个假设。
数学原理
多元线性回归可以用下面的公式表示:
$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon$$
- $y$:因变量或目标变量,也就是要预测的东西。
- $\beta_0, \beta_1, \dots, \beta_n$:'Beta'或自变量的系数。$\beta_0$是截距,类似于 $y = mx + b$ 中的 $b$。剩下的系数分别代表剩下的自变量或特征的系数。
- $x_1, x_2, \dots, x_n$:自变量或特征。
- $\epsilon$:'Epsilon',更实际地说是误差项,也就是预测值与实际 $y$ 之间的差距。
也可以用矩阵表示法来表示多元线性回归方程:
$$\mathbf{Y} = \mathbf{X} \mathbf{B} + \mathbf{E}$$
先从 $\mathbf{X}$ 开始,它代表了所有的特征数据,是一个矩阵。注意,这个矩阵的第一列全是 1。这代表了截距项 $\beta_0$ 的占位符。 从数据角度来看,我们有所有的特征数据、目标变量 $\mathbf{Y}$,误差项理论上是未知的,但它只是预测值 $\hat{y}$ 与实际值 $y$ 之间的差距。换句话说,它只是用来补全方程的。所以,我们需要求解的是 $\mathbf{B}$,也就是权重。

最小化代价函数
要找到 $\mathbf{B}$,请注意,我们并不是直接求解它。相反,我们想找到向量 $\mathbf{B}$ 中的值,使得预测值与实际值之间的误差最小化。这是通过最小化关于 $\mathbf{B}$ 的代价函数来实现的,这个代价函数也被称为均方误差。
$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$


