聚类分析的定义
聚类分析是一种无监督学习的统计分析方法。它的核心目标是将数据集中的样本按照某种相似性或距离度量划分成若干个类别(簇)。在聚类过程中,同一个簇内的样本具有较高的相似性,而不同簇之间的样本相似性较低。
举个例子,在市场细分中,企业可以利用聚类分析将消费者划分为不同的群体。每个群体内的消费者在消费习惯、偏好等方面相似,而不同群体之间存在明显差异。这有助于我们更好地理解数据的分布情况。
聚类和分类的区别
虽然聚类和分类都涉及数据的分组,但它们在本质上有显著区别。
学习方式
-
聚类:属于无监督学习。不需要预先定义的类别标签。算法通过数据的内在结构来发现数据的分组模式。例如,在对文本数据进行聚类时,没有事先告诉算法每篇文本属于哪个主题类别,算法通过分析文本内容的相似性(如词语的共现频率等)来将文本分成不同的簇。
-
分类:属于有监督学习。需要有标记的训练数据。这些数据已经明确地标注了每个样本所属的类别。算法通过学习这些已标记数据的特征和类别之间的关系来构建分类模型。例如,在垃圾邮件识别中,训练数据包含已经被标记为'垃圾邮件'或'非垃圾邮件'的邮件样本。
目标
-
聚类:发现数据内在结构。目标是探索数据中隐藏的模式和结构,将数据划分为自然的簇。比如在基因数据分析中,聚类可以将具有相似基因表达模式的样本聚集在一起,从而发现可能具有相似生物学功能的基因簇。
-
分类:预测类别。目标是建立一个模型来预测新数据的类别。它侧重于对未知数据进行准确的类别划分。例如,在医学诊断中,通过分类模型可以根据患者的症状、检查结果等特征来判断患者是否患有某种疾病。
评估方式
-
聚类:通常使用内部指标,如轮廓系数(Silhouette Coefficient)。轮廓系数综合考虑了簇内紧密度和簇间分离度。一个较高的轮廓系数值(接近 1)表示聚类效果较好。还有戴维斯 - 本丁指数(Davies-Bouldin Index)等指标,主要用于衡量聚类结果的质量,但不依赖于外部的类别标签。
-
分类:主要依赖于准确率(Accuracy)、召回率(Recall)、精确率(Precision)、F1-score 等指标。这些指标都是基于已知的类别标签来衡量分类模型的性能。
常见的聚类算法分类
聚类算法种类繁多,我们可以从以下几个维度来理解它们:
1. 划分法(Partitioning Method)
代表算法是 K-Means。这种方法首先确定要将数据分成几类,然后选择几个点作为初始中心点,接着根据某种算法迭代调整数据点的位置,直到达到'类内点足够近,类间点足够远'的效果。
2. 层次法(Hierarchical Method)
这种方法试图在不同层次上对数据集进行划分,从而形成树形的聚类结构。适合处理层级关系明显的场景。
3. 基于密度的方法(Density-based Method)
代表算法是 DBSCAN。这种方法通过将高密度的邻近点连接起来,判断为同类。它对噪声点有很好的处理能力,且不需要预先指定簇的数量。

4. 基于网格的方法(Grid-based Method)
这种方法将数据空间划分为网格单元,将数据对象映射到网格单元中,并计算每个单元的密度。根据预设的阈值判断每个网格单元是否为高密度单元,密度足够大的网格单元形成簇。计算效率通常较高。
5. 基于模型的方法(Model-Based Method)
代表算法有 GMM(高斯混合模型)、SOM(自组织映射)。这种方法为每簇假定了一个模型,寻找数据对给定模型的最佳拟合。适合处理复杂的数据分布。








