聚类分析概述
聚类分析旨在根据数据的相似度将其划分为若干类别。例如,数据点 (1.1, 1.2) 与 (2.1, 2.2) 可根据特征分布归入不同的簇。
K 均值算法流程
K 均值(K-Means)是聚类分析中常用的一种迭代算法,主要步骤如下:
- 初始化:从 n 条记录中随机选择 k 个样本作为初始聚类中心。
- 分配:计算剩余 (n-k) 条记录与 k 个聚类中心的欧氏距离,将每条记录归入距离最近的中心所属的簇。
- 更新与收敛:计算每个簇内数据点的均值,更新聚类中心。若所有簇的方差之和小于设定阈值,则算法收敛并结束;否则重复上述步骤。

