K-means 聚类算法原理与实现详解 | 极客日志

PythonAI算法

K-means 聚类算法原理与实现详解

K-means 聚类算法通过迭代优化簇中心最小化簇内平方误差和，将数据集划分为 K 个簇。核心流程包含随机初始化质心、分配数据点到最近质心、重新计算质心均值，直至收敛。算法优点为简单高效，缺点是对初始值敏感且假设簇为凸形。常结合肘部法或轮廓系数确定最佳 K 值，并使用 K-means++ 优化初始化。Python 中可通过 scikit-learn 库或手动实现该算法。

RustyLab发布于 2026/3/28更新于 2026/7/2737 浏览

K-means 聚类是一种常用的基于距离的聚类算法，旨在将数据集划分为 K 个簇。算法的目标是最小化簇内的点到簇中心的距离总和。下面，我们将从 K-means 的底层原理、算法步骤、数学基础、距离度量方法、参数选择、优缺点和源代码实现等角度进行详细解析。

1. K-means 的核心思想

K-means 的目标是将数据集划分为 K 个簇（clusters），使得每个数据点属于距离最近的簇中心。通过反复调整簇中心的位置，K-means 不断优化簇内的紧密度，从而获得尽量紧凑、彼此分离的簇。

核心思想

簇（Cluster）：K-means 通过最小化簇内距离的平方和，使得数据点在簇内聚集。一个簇是数据点的集合，这些点在某种意义上'彼此相似'。比如，可以将商场顾客分为'学生群体''上班族''退休老人'这三个簇。
簇中心（Centroid）：簇中心是簇中所有点的平均值，表示簇的中心位置。
簇分配和更新：K-means 通过反复迭代，调整簇的分配，使得簇内数据点与质心的距离尽可能小，逐步收敛。

如下图：

以簇中心为中心，划分范围

2. K-means 聚类的工作流程

2.1 核心思想

K-means 使用'最近距离'来分组：

随机选择 K 个质心（初始中心点）。
每个数据点分配到距离最近的质心所属的簇。
重新计算每个簇的质心。
重复步骤 2 和 3，直到质心不再变化（或达到指定的迭代次数）。

2.2 算法步骤（结合例子）

K-means 聚类的流程分为两个主要步骤：分配（Assignment）和更新（Update）。以下是详细步骤：

分配步骤（Assignment Step）：对于数据集中的每个点，将它分配到最近的簇中心对应的簇。这里的'距离'通常使用欧氏距离（Euclidean distance）。
更新步骤（Update Step）：根据当前的簇分配，重新计算每个簇的中心，即计算簇内所有点的均值作为新的簇中心。
重复 3 和 4 步：不断重复分配和更新步骤，直到簇中心不再发生变化（收敛）或达到指定的最大迭代次数。

初始化簇中心：随机选择 K 个数据点作为初始簇中心（centroids）。

选择 K 值：设定簇的数量 K。

例子：

假设我们有以下二维数据点，表示顾客的'消费金额'和'访问次数'：

数据点编号	消费金额（x）	访问次数（y）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

数据点编号	到 C1 的距离	到 C2 的距离	最近质心	分配簇
点 1	0	9.22	C1	簇 1
点 2	1.41	9.22	C1	簇 1
点 3	4.24	5.0	C1	簇 1
点 4	5.66	3.61	C2	簇 2
点 5	9.22	0	C2	簇 2

KMeans(X, K):
    1. 随机选择 K 个点作为初始簇中心
    2. 重复以下步骤，直到簇中心不再发生变化：
        a. 分配每个点到最近的簇中心
        b. 重新计算每个簇的中心，作为簇内所有点的均值
    3. 返回最终的簇分配和簇中心

from sklearn.cluster import KMeans
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [2, 2], [3, 3], [8, 7], [8, 8], [25, 80]])

# 初始化并训练 KMeans 模型
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 获取簇标签和簇中心
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

print("Cluster labels:", labels)
print("Centroids:", centroids)

Cluster labels: [0 0 0 1 1 1]
Centroids: [[ 2. 2.33333333]
             [13.66666667 31.66666667]]

import numpy as np

def initialize_centroids(X, k):
    indices = np.random.choice(len(X), k, replace=False)
    return X[indices]

def closest_centroid(X, centroids):
    distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
    return np.argmin(distances, axis=1)

def update_centroids(X, labels, k):
    return np.array([X[labels == i].mean(axis=0) for i in range(k)])

def kmeans(X, k, max_iters=100, tol=1e-4):
    centroids = initialize_centroids(X, k)
    for i in range(max_iters):
        labels = closest_centroid(X, centroids)
        new_centroids = update_centroids(X, labels, k)
        if np.all(np.abs(new_centroids - centroids) < tol):
            break
        centroids = new_centroids
    return labels, centroids

# 示例数据
X = np.array([[1, 2], [2, 2], [3, 3], [8, 7], [8, 8], [25, 80]])

# 运行 K-means
labels, centroids = kmeans(X, k=2)
print("最终簇:", labels)
print("质心位置:", centroids)

K-means 聚类算法原理与实现详解

1. K-means 的核心思想

核心思想

2. K-means 聚类的工作流程

2.1 核心思想

2.2 算法步骤（结合例子）

例子：

更多推荐文章

相关免费在线工具

第一步：初始化质心

第二步：分配簇

第三步：重新计算质心

第四步：重复分配与更新

3. K-means 的数学公式

欧氏距离

4. K-means 的伪代码

分配步骤（Assignment Step）

更新步骤（Update Step）

5. K-means 的时间复杂度分析

6. K-means 的优缺点

优点

缺点

7. K 值的选择

8. Python 实现 K-means

8.1 使用 scikit-learn 实现 K-means

8.2 手动实现 K-means 算法

9. 收敛性与初始中心的选择

K-means++ 初始中心选择步骤

为什么 K-means++ 更好？

10. 总结

更多推荐文章

相关免费在线工具

K-means 聚类算法原理与实现详解

1. K-means 的核心思想

核心思想

2. K-means 聚类的工作流程

2.1 核心思想

2.2 算法步骤（结合例子）

例子：

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第一步：初始化质心

第二步：分配簇

第三步：重新计算质心

第四步：重复分配与更新

3. K-means 的数学公式

欧氏距离

4. K-means 的伪代码

分配步骤（Assignment Step）

更新步骤（Update Step）

5. K-means 的时间复杂度分析

6. K-means 的优缺点

优点

缺点

7. K 值的选择

8. Python 实现 K-means

8.1 使用 scikit-learn 实现 K-means

8.2 手动实现 K-means 算法

9. 收敛性与初始中心的选择

K-means++ 初始中心选择步骤

为什么 K-means++ 更好？

10. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具