主成分回归与偏最小二乘回归深度对比

在现代工程与科研中，高维数据带来的维度灾难是常见痛点。传统多元线性回归面对多重共线性或变量多于样本的情况时，模型往往不稳定甚至无法求解。为了在保留信息的同时降低维度，主成分回归（PCR）和偏最小二乘回归（PLSR）成为了两类主流的降维回归方案。

PCR 的思路相对直接：先做主成分分析（PCA），再做回归。

它首先对自变量矩阵 X 进行 PCA 变换，提取出能够最大程度解释原始变量方差的主成分 T。随后，将这些主成分作为新的自变量，使用普通最小二乘法（OLS）建立与因变量 Y 的回归关系。

这种方法的优点在于计算简单且能有效消除多重共线性。但它的局限也很明显——PCA 只关注 X 的方差结构，完全忽略了 Y 的信息。如果某些主成分虽然方差小但对预测 Y 至关重要，PCR 可能会将其丢弃，导致模型精度受损。

PLSR 则是一种监督式的降维方法。与 PCR 不同，它在提取潜变量时不仅考虑 X 的内部结构，还同时利用 Y 的信息。

PLSR 通过寻找 X 和 Y 之间的潜在关系，最大化两者的协方差来构建潜变量。这意味着它提取的成分是专门为预测 Y 服务的。在实际应用中，当自变量之间存在高度相关性且样本量较少时，PLSR 通常能比 PCR 提供更稳健的预测结果。

选择哪种方法取决于具体场景：

两者没有绝对的优劣之分，实际项目中建议结合交叉验证的结果来决定最终方案。

更多推荐文章