主成分回归与偏最小二乘回归深度对比
背景
在现代工程与科研中,高维数据带来的维度灾难是常见痛点。传统多元线性回归面对多重共线性或变量多于样本的情况时,模型往往不稳定甚至无法求解。为了在保留信息的同时降低维度,主成分回归(PCR)和偏最小二乘回归(PLSR)成为了两类主流的降维回归方案。
核心原理
主成分回归 (PCR)
PCR 的思路相对直接:先做主成分分析(PCA),再做回归。
它首先对自变量矩阵 X 进行 PCA 变换,提取出能够最大程度解释原始变量方差的主成分 T。随后,将这些主成分作为新的自变量,使用普通最小二乘法(OLS)建立与因变量 Y 的回归关系。
这种方法的优点在于计算简单且能有效消除多重共线性。但它的局限也很明显——PCA 只关注 X 的方差结构,完全忽略了 Y 的信息。如果某些主成分虽然方差小但对预测 Y 至关重要,PCR 可能会将其丢弃,导致模型精度受损。
偏最小二乘回归 (PLSR)
PLSR 则是一种监督式的降维方法。与 PCR 不同,它在提取潜变量时不仅考虑 X 的内部结构,还同时利用 Y 的信息。
PLSR 通过寻找 X 和 Y 之间的潜在关系,最大化两者的协方差来构建潜变量。这意味着它提取的成分是专门为预测 Y 服务的。在实际应用中,当自变量之间存在高度相关性且样本量较少时,PLSR 通常能比 PCR 提供更稳健的预测结果。
选型建议
选择哪种方法取决于具体场景:
- 如果你的主要目标是理解数据结构,或者 X 的方差分布非常均匀,PCR 是个不错的起点。
- 如果预测精度是首要指标,尤其是存在大量噪声或共线性严重时,PLSR 的表现通常更优。
两者没有绝对的优劣之分,实际项目中建议结合交叉验证的结果来决定最终方案。

