主成分分析（PCA）原理与实战应用

主成分分析（PCA）原理与实战应用 | 极客日志

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 1. 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names

# 2. 数据标准化 (重要步骤)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 初始化 PCA 模型
# n_components=2 表示降维到 2 维用于可视化
pca = PCA(n_components=2, random_state=42)

# 4. 拟合并转换数据
X_pca = pca.fit_transform(X_scaled)

# 5. 查看解释的方差比例
print(f"解释的方差比例：{pca.explained_variance_ratio_}")
print(f"累计解释方差比例：{np.sum(pca.explained_variance_ratio_)}")

# 6. 转换为 DataFrame 方便查看
pca_df = pd.DataFrame(data=X_pca, columns=['PC1', 'PC2'])
pca_df['target'] = y
print(pca_df.head())

import matplotlib.pyplot as plt
from sklearn.datasets import fetch_olivetti_faces
from sklearn.decomposition import PCA

# 加载 Olivetti 人脸数据集
faces_data = fetch_olivetti_faces()
X = faces_data.data

# 设置参数
n_components = 50  # 保留 50 个主成分
pca = PCA(n_components=n_components, whiten=True, random_state=42)
X_pca = pca.fit_transform(X)

# 可视化部分原始图像和重构图像
n_images = 4
fig, axes = plt.subplots(2, n_images, figsize=(16, 8))

for i in range(n_images):
    idx = i
    # 原始图像
    axes[0, i].imshow(X[idx].reshape(64, 64), cmap='gray')
    axes[0, i].set_title(f'原始图像 {idx+1}')
    axes[0, i].axis('off')
    
    # 重构图像
    reconstructed = pca.inverse_transform(X_pca[idx])
    axes[1, i].imshow(reconstructed.reshape(64, 64), cmap='bone')
    axes[1, i].set_title(f'PCA 重构 {idx+1}')
    axes[1, i].axis('off')

plt.tight_layout()
plt.show()

# 尝试不同的主成分数量
n_components_range = range(1, 100)
explained_variances = []

for n in n_components_range:
    pca_temp = PCA(n_components=n)
    pca_temp.fit(X_scaled)
    explained_variances.append(np.sum(pca_temp.explained_variance_ratio_))

# 绘制曲线
plt.figure(figsize=(10, 6))
plt.plot(n_components_range, explained_variances, marker='o')
plt.xlabel('Number of Components')
plt.ylabel('Explained Variance Ratio')
plt.title('PCA Explained Variance vs Number of Components')
plt.grid(True)
plt.axhline(y=0.95, color='r', linestyle='--', label='95% Threshold')
plt.legend()
plt.show()

主成分分析（PCA）原理与实战应用

主成分分析（PCA）原理与实战应用

1. 概念与定义

1.1 什么是 PCA

1.2 应用领域

2. 核心原理

2.1 方差最大化

2.2 数学基础

3. 算法计算步骤

4. 优缺点分析

4.1 优点

4.2 缺点

5. Python 实战

5.1 基础使用示例

5.2 人脸数据降维可视化

5.3 确定最佳主成分数量

6. 总结

更多推荐文章

相关免费在线工具

主成分分析（PCA）原理与实战应用

主成分分析（PCA）原理与实战应用

1. 概念与定义

1.1 什么是 PCA

1.2 应用领域

2. 核心原理

2.1 方差最大化

2.2 数学基础

3. 算法计算步骤

4. 优缺点分析

4.1 优点

4.2 缺点

5. Python 实战

5.1 基础使用示例

5.2 人脸数据降维可视化

5.3 确定最佳主成分数量

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具