K-means 聚类算法：原理、步骤与 Python 实现 | 极客日志

PythonAI算法

K-means 聚类算法：原理、步骤与 Python 实现

K-means 是一种基于距离的迭代聚类算法，通过最小化簇内平方误差将数据划分为 K 个簇。核心流程包括随机初始化质心、分配样本点到最近质心、更新质心位置，直至收敛。文章详细解析了算法数学原理、时间复杂度、优缺点及 K 值选择方法（如肘部法），并提供了 scikit-learn 调用与手动实现的 Python 代码示例，帮助读者深入理解其工作机制与工程落地细节。

AiEngineer发布于 2026/2/23更新于 2026/7/2228 浏览

K-means 聚类算法详解

K-means 是一种基于距离的迭代聚类算法，旨在将数据集划分为 $K$ 个簇。其核心目标是最小化簇内点到簇中心的距离总和。下面我们从底层原理、算法步骤、数学基础、参数选择到代码实现进行系统解析。

1. 核心思想

K-means 的目标是将数据集划分为 $K$ 个簇（Clusters），使得每个数据点属于距离最近的簇中心。通过反复调整簇中心的位置，算法不断优化簇内的紧密度，从而获得尽量紧凑、彼此分离的簇。

簇（Cluster）：K-means 通过最小化簇内距离的平方和，使得数据点在簇内聚集。一个簇是数据点的集合，这些点在某种意义上'彼此相似'。
簇中心（Centroid）：簇中心是簇中所有点的平均值，表示簇的中心位置。
迭代优化：K-means 通过反复迭代，调整簇的分配，使得簇内数据点与质心的距离尽可能小，逐步收敛。

2. 工作流程

K-means 使用'最近距离'来分组，流程分为两个主要步骤：分配（Assignment）和更新（Update）。

初始化：随机选择 $K$ 个数据点作为初始簇中心（Centroids）。
分配：对于数据集中的每个点，将它分配到最近的簇中心对应的簇。这里的'距离'通常使用欧氏距离。
更新：根据当前的簇分配，重新计算每个簇的中心，即计算簇内所有点的均值作为新的簇中心。
重复：不断重复分配和更新步骤，直到簇中心不再发生变化（收敛）或达到指定的最大迭代次数。

实例演示

假设我们有以下二维数据点，表示顾客的'消费金额'和'访问次数'，目标是将这些点分为 $K=2$ 个簇。

数据点编号	消费金额（x）	访问次数（y）
点 1	1	2
点 2	2	1
点 3	4	5
点 4	5	6
点 5	8	8

第一步：初始化质心 随机选择两个点作为初始质心（假设选择点 1 和点 5）。

C1 = (1, 2)
C2 = (8, 8)

第二步：分配簇 计算每个点到两个质心的欧几里得距离：$d = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}$。

数据点编号	到 C1 的距离	到 C2 的距离	最近质心	分配簇
点 1	0	8.49	C1	簇 1
点 2	1.41	8.06	C1	簇 1
点 3	4.24	5.0	C1	簇 1
点 4	5.0

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

KMeans(X, K):
  1. 随机选择 K 个点作为初始簇中心
  2. 重复以下步骤，直到簇中心不再发生变化：
     a. 分配每个点到最近的簇中心
     b. 重新计算每个簇的中心，作为簇内所有点的均值
  3. 返回最终的簇分配和簇中心

from sklearn.cluster import KMeans
import numpy as np

# 生成示例数据
X = np.array([[1, 2], [2, 2], [3, 3], [8, 7], [8, 8], [25, 80]])

# 初始化并训练模型
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 获取簇标签和簇中心
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

print("Cluster labels:", labels)
print("Centroids:", centroids)

import numpy as np

def initialize_centroids(X, k):
    indices = np.random.choice(len(X), k, replace=False)
    return X[indices]

def closest_centroid(X, centroids):
    distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
    return np.argmin(distances, axis=1)

def update_centroids(X, labels, k):
    return np.array([X[labels == i].mean(axis=0) for i in range(k)])

def kmeans(X, k, max_iters=100, tol=1e-4):
    centroids = initialize_centroids(X, k)
    for i in range(max_iters):
        labels = closest_centroid(X, centroids)
        new_centroids = update_centroids(X, labels, k)
        if np.all(np.abs(new_centroids - centroids) < tol):
            break
        centroids = new_centroids
    return labels, centroids

# 示例数据
X = np.array([[1, 2], [2, 2], [3, 3], [8, 7], [8, 8], [25, 80]])
labels, centroids = kmeans(X, k=2)
print("最终簇:", labels)
print("质心位置:", centroids)

K-means 聚类算法：原理、步骤与 Python 实现

K-means 聚类算法详解

1. 核心思想

2. 工作流程

实例演示

更多推荐文章

相关免费在线工具

3. 数学基础

4. 伪代码

5. 时间复杂度

6. 优缺点分析

7. K 值的选择

8. Python 实现

8.1 使用 scikit-learn

8.2 手动实现

9. 收敛性与 K-means++

10. 总结

更多推荐文章

相关免费在线工具

K-means 聚类算法：原理、步骤与 Python 实现

K-means 聚类算法详解

1. 核心思想

2. 工作流程

实例演示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 数学基础

4. 伪代码

5. 时间复杂度

6. 优缺点分析

7. K 值的选择

8. Python 实现

8.1 使用 scikit-learn

8.2 手动实现

9. 收敛性与 K-means++

10. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具