1. 什么是回归算法?
回归算法是一类用于预测数值型结果的机器学习方法。
它的核心目标是建立自变量(如年龄、收入、教育背景)与因变量(如房价、销售额)之间的关系模型。一旦这个关系被确定,模型就可以根据新的自变量输入来预测对应的因变量值。

举个例子:如果我们想依据身高预测体重,可以先收集一批包含身高和体重的样本数据。
基于这些数据,回归算法会拟合出一个数学公式(模型)来描述二者之间的关系。
之后,对于任何一个已知身高但未知体重的人,我们就可以利用这个模型来估算其体重。
2. 什么是 Lasso 回归?
Lasso 回归(最小绝对收缩和选择算子)是一种改进的线性回归技术。
它通过引入'L1 正则化'来防止模型在训练数据上过度拟合。

其关键机制在于,它在模型优化的目标函数中增加了一项惩罚项,该惩罚项与模型系数的绝对值之和成正比。这一机制会倾向于将那些不重要的特征系数压缩至零,从而实现特征自动选择,并最终产生一个更简洁、解释性更强的稀疏模型。
Lasso 回归的核心作用主要体现在两个方面:
- 特征选择:它能够自动地将不重要的自变量的系数压缩至零,从而将这些特征从模型中完全排除。这相当于一个自动的特征筛选过程,有助于我们识别出最关键的影响因素。
- 防止过拟合:通过对模型系数的大小施加惩罚,Lasso 回归限制了模型的复杂度。这可以有效避免模型过度迎合训练数据中的噪声,从而提升其在未知数据上的预测能力,即泛化能力。
Lasso 回归的目标函数由两部分组成:
目标函数 = 残差平方和 + λ × 系数绝对值之和
用数学公式表示为:
minimize {∑(yi - ∑xijβj)² + λ∑|βj|}
- 第一部分:∑(yi - ∑xijβj)² 这是普通线性回归的目标,即最小化预测值与真实值之间的误差平方和(残差平方和),旨在让模型更好地拟合数据。
- 第二部分:λ∑|βj| 这是 Lasso 回归特有的L1 正则化项(惩罚项)。它惩罚的是模型系数 βj 的绝对值之和。参数 λ(lambda) 控制着惩罚的力度:λ 越大,惩罚越重,被压缩至零的系数就越多,模型就越简单。
一个简单案例
假设我们的目标是预测某个地区的房价(单位:千元),并认为其主要受「房屋面积」、「房间数」和「房屋年份」三个因素影响。我们拥有以下数据样本:
| 样本编号 | 面积(平方米) | 房间数 | 房屋年份 | 房价(千元) |
|---|---|---|---|---|
| 1 | 120 | 3 | 10 | 300 |
| 2 | 80 | 2 | 15 | 180 |
| 3 | 150 | 4 | 8 | 350 |
| 4 |




