无监督学习的原理、算法与结构发现

无监督学习的原理、算法与结构发现 | 极客日志

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=42)

# 训练 K-Means
kmeans = KMeans(n_clusters=4, n_init=10, random_state=42)
y_pred = kmeans.fit_predict(X)

# 可视化
plt.scatter(X[:,0], X[:,1], c=y_pred, cmap='viridis', s=50)
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], c='red', marker='x', s=200, linewidths=3)
plt.title("K-Means Clustering")
plt.show()

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=4, covariance_type='full', random_state=42)
y_prob = gmm.fit_predict(X)
plt.scatter(X[:,0], X[:,1], c=y_prob, cmap='viridis', s=50)
plt.title("Gaussian Mixture Model")
plt.show()

算法	核心思想	适用场景
DBSCAN	基于密度，自动发现簇数，可识别噪声	非凸簇、含噪声数据
层次聚类	构建树状图（Dendrogram），可任意切分	小数据集、需多粒度分析
谱聚类	利用图拉普拉斯矩阵的特征向量	图结构数据、复杂流形

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print("Explained variance ratio:", pca.explained_variance_ratio_)
plt.scatter(X_pca[:,0], X_pca[:,1], alpha=0.7)
plt.xlabel(f"PC1 ({pca.explained_variance_ratio_[0]:.2%})")
plt.ylabel(f"PC2 ({pca.explained_variance_ratio_[1]:.2%})")
plt.title("PCA Projection")
plt.show()

from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_tsne = tsne.fit_transform(X)
plt.scatter(X_tsne[:,0], X_tsne[:,1], alpha=0.7)
plt.title("t-SNE Embedding")
plt.show()

from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import seaborn as sns

# 1. 加载数据
iris = datasets.load_iris()
X, y_true = iris.data, iris.target
feature_names = iris.feature_names

# 2. 标准化（对聚类和 PCA 至关重要！）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 聚类（K=3，已知真实类别数）
kmeans = KMeans(n_clusters=3, random_state=42).fit(X_scaled)
gmm = GaussianMixture(n_components=3, random_state=42).fit(X_scaled)

# 4. 降维可视化
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_tsne = tsne.fit_transform(X_scaled)

# 5. 绘图对比
fig, axes = plt.subplots(2, 3, figsize=(15, 10))

# 真实标签
axes[0, 0].scatter(X_pca[:, 0], X_pca[:, 1], c=y_true, cmap='tab10')
axes[0, 0].set_title("PCA + True Labels")
axes[1, 0].scatter(X_tsne[:, 0], X_tsne[:, 1], c=y_true, cmap='tab10')
axes[1, 0].set_title("t-SNE + True Labels")

# K-Means
axes[0, 1].scatter(X_pca[:, 0], X_pca[:, 1], c=kmeans.labels_, cmap='tab10')
axes[0, 1].set_title("PCA + K-Means")
axes[1, 1].scatter(X_tsne[:, 0], X_tsne[:, 1], c=kmeans.labels_, cmap='tab10')
axes[1, 1].set_title("t-SNE + K-Means")

# GMM
axes[0, 2].scatter(X_pca[:, 0], X_pca[:, 1], c=gmm.predict(X_scaled), cmap='tab10')
axes[0, 2].set_title("PCA + GMM")
axes[1, 2].scatter(X_tsne[:, 0], X_tsne[:, 1], c=gmm.predict(X_scaled), cmap='tab10')
axes[1, 2].set_title("t-SNE + GMM")

plt.tight_layout()
plt.show()

# 6. 评估聚类质量（无标签时用轮廓系数）
from sklearn.metrics import silhouette_score
print("K-Means Silhouette:", silhouette_score(X_scaled, kmeans.labels_))
print("GMM Silhouette: ", silhouette_score(X_scaled, gmm.predict(X_scaled)))

from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

pipe = Pipeline([('pca', PCA(n_components=0.95)), # 保留 95% 方差
                 ('rf', RandomForestClassifier())])
pipe.fit(X_train, y_train)

# GMM 异常检测
gmm = GaussianMixture(n_components=2).fit(X_scaled)
log_probs = gmm.score_samples(X_scaled)
threshold = np.percentile(log_probs, 5) # 下 5% 为异常
anomalies = log_probs < threshold

无监督学习的原理、算法与结构发现

一、为什么需要无监督学习？

二、无监督学习的三大范式

2.1 聚类（Clustering）：发现数据分组

2.2 降维（Dimensionality Reduction）：压缩与可视化

2.3 密度估计（Density Estimation）：建模数据分布

三、聚类算法详解：从 K-Means 到高斯混合模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 K-Means：几何中心的迭代优化

算法流程（Lloyd 算法）

实践技巧

3.2 高斯混合模型（GMM）：概率化的聚类

模型假设

参数学习：EM 算法

3.3 其他聚类方法简述

四、降维技术：从线性到非线性

4.1 主成分分析（PCA）：最大方差投影

数学推导

重建与解释方差比

4.2 t-SNE：保留局部邻域的非线性降维

核心思想

4.3 UMAP：更快更稳定的流形学习

五、密度估计：建模数据的生成机制

5.1 参数化方法：高斯分布族

5.2 非参数化方法：核密度估计（KDE）

5.3 基于深度学习的密度估计

六、动手实战：端到端无监督分析流程

七、无监督学习的实际应用场景

7.1 特征工程：降维作为预处理

7.2 异常检测：基于密度或重构误差

7.3 预训练表示：无监督学习的复兴

八、评估无监督学习：没有标签怎么办？

8.1 内部指标（Internal Metrics）

8.2 外部指标（External Metrics，若有真实标签）

8.3 可视化评估

九、无监督学习的局限与未来

9.1 核心挑战

9.2 未来方向

十、结语：在混沌中寻找秩序

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具