核心优化路径
在机器学习实践中,线性回归模型常面临信息缺失、过拟合或收敛缓慢等问题。为了构建更稳健的预测模型,我们需要根据具体场景选择合适的优化手段。这些方法并非互斥,往往需要根据训练阶段灵活组合。
1. 增加特征
目的:解决模型信息缺失问题。
这是特征工程的基础部分。例如预测房价 $y$,若已知维度 $x_1, x_2$(分别代表房屋面积、楼层),仅靠这两个维度拟合效果往往不佳。此时可以增加 $x_3$(是否有电梯)、$x_4$(地段评分)等影响房价的维度,让拟合结果 $y$ 更贴合现实。
优势:
- 信息增益直接:引入全新维度,可能直接解决信息缺失。
- 可解释性强:新特征通常有明确的业务含义。
- 风险可控:每个特征的贡献相对独立,便于调试。
局限:
- 数据成本高:需要额外测量、调查或购买数据。
- 非线性捕捉有限:仅靠原始特征线性组合可能无法捕捉复杂模式。
- 依赖领域知识:需人为判断哪些特征有价值,易引入噪声。
2. 升维

目的:解决输出和输入的非线性关系问题。
与增加特征不同,升维增加的维度是通过特征变换得来的。如物理公式 $h = \frac{1}{2}gt^2$,结果 $h$ 和自变量 $t$ 之间是非线性关系,传统线性函数无法正确拟合。但 $h$ 和 $t^2$ 是线性关系,可以通过升维函数 $\Phi(x)$ 替代原变量,用线性回归拟合 $h$ 和 $\Phi(x)$ 的关系。
优势:
- 无需额外数据:充分利用现有数据挖掘深层信息。
- 揭示非线性:通过多项式、交互项捕捉特征间复杂相互作用,如
面积 × 单价比单独特征更能预测总价。 - 潜在模式发现:变换后的特征可能在高维空间形成线性可分结构。
局限:
- 维度爆炸风险:多项式扩展时,维度随阶数指数增长。
- 过拟合风险大:高维空间容易拟合噪声,尤其在小数据集上。
- 可解释性差:
面积²或sin(时间)的物理意义不如原始特征易理解。
3. 降维

目的:解决高维数据的冗余、噪声和计算效率问题。
降维是通过数学变换将高维特征映射到低维空间,同时尽可能保留原始数据的主要信息。当特征数量过多或存在多重共线性时,直接建模容易导致过拟合和计算困难。例如图像识别中,相邻像素高度相关,通过降维方法(如 PCA)可以提取主要成分,用少量不相关的新特征替代原始的高维特征。
:



