Python 数据分析：无监督学习、文本及图像处理

Python 数据分析涵盖无监督学习、文本处理及图像分析技术。内容包括主成分分析降维、K-means 与 DBSCAN 等聚类算法、NLTK 与 SpaCy 文本预处理、TF-IDF 特征提取以及 OpenCV 图像操作与人脸检测。通过代码示例展示各模块实现细节与评估指标。

竹影清风发布于 2026/3/23更新于 2026/5/2216 浏览

Python 数据分析：无监督学习、文本及图像处理

无监督学习：PCA 和聚类

无监督学习是机器学习中最重要的分支之一。它使我们能够在没有目标标签的情况下进行预测。在无监督学习中，模型仅通过特征进行学习，因为数据集没有目标标签列。大多数机器学习问题从某些能够自动化过程的事物开始。例如，当你想要开发一个预测模型来检测糖尿病患者时，你需要为数据集中的每个患者设置目标标签。在初期阶段，为任何机器学习问题安排目标标签并非易事，因为这需要改变业务流程来获得标签，无论是通过手动内部标注还是再次收集带标签的数据。

在本章中，我们的重点是学习无监督学习技术，这些技术可以处理没有目标标签的情况。我们将特别介绍降维技术和聚类技术。当我们有大量特征时，降维技术将被使用，以减少这些特征的数量。这将减少模型复杂性和训练成本，因为这意味着我们可以仅通过少量特征就能实现我们想要的结果。

聚类技术根据相似性在数据中找到组。这些组本质上代表了无监督分类。在聚类中，特征观察的类或标签是以无监督的方式找到的。聚类在各种业务操作中非常有用，例如认知搜索、推荐、细分和文档聚类。

本章的主题如下：

无监督学习
降低数据的维度
主成分分析
聚类
使用 K-means 聚类对数据进行划分
层次聚类
DBSCAN 聚类
谱聚类
评估聚类性能

无监督学习

无监督学习意味着通过观察学习，而不是通过示例学习。这种学习类型适用于无标签的数据。降维和聚类就是这种学习的例子。降维用于将大量特征减少到只有少数几个特征，但能产生相同的结果。有几种方法可以减少数据的维度，例如主成分分析（PCA）、t-SNE、小波变换和特征子集选择。

术语'聚类'指的是一组相似的项目，它们彼此密切相关。聚类是一种生成相似单元或项目组的方法。此相似性是基于项目的某些特征或特性计算的。我们可以说，聚类是一组数据点，它们与其聚类中的其他数据点相似，并且与其他聚类的数据点不相似。聚类具有许多应用，例如搜索文档、业务智能、信息安全和推荐系统。

在上图中，我们可以看到聚类如何将数据记录或观察结果分成少数几组，而降维则减少了特征或属性的数量。让我们在接下来的部分详细讨论每个主题。

减少数据的维度

减少维度，即降维，意味着将大量属性或列（特征）缩减为较少数量的属性。该技术的主要目标是获得最佳的特征数用于分类、回归和其他无监督方法。在机器学习中，我们面临一个称为维度灾难的问题。这意味着有大量属性或特征。这意味着更多的数据，导致复杂的模型和过拟合问题。

降低数据的维度有助于应对维度灾难。它可以线性和非线性地转换数据。线性转换技术包括 PCA、线性判别分析和因子分析。非线性转换包括 t-SNE、Hessian 特征映射、谱嵌入和等距特征映射等技术。降维提供以下好处：

过滤冗余和不重要的特征。
减少模型复杂性，使用较少维度的数据。
减少模型生成的内存和计算成本。
它可视化高维数据。

在接下来的部分中，我们将专注于一种重要且流行的降维技术之一，PCA。

PCA

在机器学习中，认为拥有大量数据意味着拥有预测模型的高质量，但大型数据集也带来了更高维度的挑战（或维度灾难）。由于属性数量众多，这导致了预测模型复杂度的增加。PCA 是最常用的降维方法，帮助我们识别原始数据集中的模式和相关性，将其转换为一个低维数据集，同时不丢失信息。

PCA 的主要概念是发现原始数据集中属性之间未见的关系和关联。高度相关的属性是如此相似，以至于它们是冗余的。因此，PCA 去除了这些冗余的属性。例如，如果我们的数据中有 200 个属性或列，那么面对这么多属性时，我们将难以继续处理。在这种情况下，我们需要将这些属性的数量减少到 10 或 20 个变量。PCA 的另一个目标是减少维度，同时不影响重要信息。对于p维数据，PCA 的方程可以写成如下：

主成分是所有属性的加权和。这里，$x_i$是原始数据集中的属性，$w_i$是属性的权重。

让我们举个例子。假设我们将一个城市的街道作为属性，并且假设你想参观这个城市。那么问题是，你会参观多少条街道？显然，你会想参观城市中的热门或主要街道，假设这些街道是 50 条中的 10 条。这 10 条街道将为你提供对这座城市的最佳了解。这些街道就是主成分，因为它们解释了数据（城市街道）中的大部分方差。

执行 PCA

让我们从头开始在 Python 中执行 PCA：

计算给定数据集的相关或协方差矩阵。
求解相关或协方差矩阵的特征值和特征向量。
将特征向量矩阵与原始数据集相乘，你将得到主成分矩阵。

让我们从头开始实现 PCA：

	I	like	pizza	do	not	burgers	and	both	are	junk	food
Doc-1	1	1	1	0	0	0	0	0	0	0	0
Doc-2	1	1	0	1	1	1	0	0	0	0	0
Doc-3	0	0	1	0	0	1	1	1	1	1	1

	I	like	pizza	do	not	burgers	and	both	are	junk	food
Doc-1	0.58	0.58	0.58	0	0	0	0	0	0	0	0
Doc-2	0.58	0.58	0	1.58	1.58	0.58	0	0	0	0	0
Doc-3	0	0	0.58	0	0	0.58	1.58	1.58	1.58	1.58	1.58

Python 数据分析：无监督学习、文本及图像处理