C++ 从零实现 K-Means 聚类算法详解 | 极客日志

C++AI算法

C++ 从零实现 K-Means 聚类算法详解

使用纯 C++ 从零实现 K-Means 聚类算法的过程。内容包括算法背景、需求分析、核心思想（初始化、分配、更新）、代码实现及解读。通过不依赖第三方库的方式，展示了迭代优化与距离度量的工程实践。文章提供了完整的头文件与源文件代码，并分析了算法的优缺点及扩展方向，适合机器学习初学者理解无监督学习原理及 C++ 数值计算实现。

孤勇者发布于 2026/3/23更新于 2026/7/2519K 浏览

一、项目背景详细介绍

在数据分析、机器学习、模式识别以及人工智能领域中，聚类（Clustering） 是一种极其重要的无监督学习方法。与分类（Classification）不同，聚类并不依赖任何已知标签，而是试图从数据本身的结构中，自动发现潜在的分组模式。

在所有聚类算法中，K-Means 聚类算法 几乎是：

教学中的第一种聚类算法
工程中最常用的基础聚类方法
后续复杂聚类算法（GMM、谱聚类等）的思想基础

📌 如果说'回归'是理解监督学习的起点，那么 K-Means 就是理解无监督学习的起点。

1.1 聚类的现实意义

聚类在现实中的应用极其广泛，例如：

用户画像与用户分群
市场细分与推荐系统
文本主题发现
图像分割
异常检测
数据压缩（向量量化）

在这些应用中，我们通常面对的问题是：

给定一批无标签样本，如何自动将其分成若干'相似'的组？

1.2 为什么要'自己实现'聚类算法？

虽然现成库（如 scikit-learn、OpenCV、MLPack）非常成熟，但亲自实现 K-Means 具有不可替代的教学与工程价值：

理解'距离度量'的工程含义
理解'迭代优化'的数值过程
理解收敛条件与局部最优问题
为后续实现 GMM、EM 算法打基础
可作为自定义系统中的轻量级聚类模块

1.3 本项目的定位

本项目的目标是：

用纯 C++ 从零实现一个教学级但工程可用的 K-Means 聚类算法

特点包括：

不依赖第三方机器学习库
使用标准 C++ 数据结构
代码结构清晰、注释完整
易于扩展到高维数据
适合作为聚类算法学习模板

二、项目需求详细介绍

2.1 功能性需求

本项目需要实现以下功能：

支持对任意维度的数值向量进行聚类
支持指定聚类数目 K
实现完整的 K-Means 迭代流程
输出：
- 每个样本所属的簇编号
- 每个簇的中心点（centroid）

核心接口示例：

class KMeans {
public:
    KMeans(int k, int maxIter);
    void fit(const std::vector<std::vector<double>>& data);
    ;
     std::vector<std::vector<>>& () ;
};

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

输入数据 X，聚类数 K
随机选择 K 个样本作为初始中心
repeat:
    对每个样本: 计算其到各中心的距离
    分配给最近的中心
    对每个簇: 重新计算中心点（均值）
直到中心点变化小于阈值 或达到最大迭代次数

/******************************************************
 * File: kmeans.h
 ******************************************************/
#ifndef KMEANS_H
#define KMEANS_H
#include <vector>

class KMeans {
public:
    KMeans(int k, int maxIterations = 100);
    void fit(const std::vector<std::vector<double>>& data);
    const std::vector<int>& labels() const;
    const std::vector<std::vector<double>>& centroids() const;
private:
    int K; // 聚类数
    int maxIter; // 最大迭代次数
    int dim; // 数据维度
    std::vector<int> labelVec; // 每个样本的簇标签
    std::vector<std::vector<double>> centerVec; // 聚类中心
    double distanceSquared(const std::vector<double>& a, const std::vector<double>& b);
};
#endif

/******************************************************
 * File: kmeans.cpp
 ******************************************************/
#include "kmeans.h"
#include <random>
#include <limits>
#include <stdexcept>
#include <cmath>

KMeans::KMeans(int k, int maxIterations) : K(k), maxIter(maxIterations), dim(0) {
    if (K <= 0) throw std::invalid_argument("K must be positive");
}

double KMeans::distanceSquared(const std::vector<double>& a, const std::vector<double>& b) {
    double sum = 0.0;
    for (size_t i = 0; i < a.size(); ++i) {
        double diff = a[i] - b[i];
        sum += diff * diff;
    }
    return sum;
}

void KMeans::fit(const std::vector<std::vector<double>>& data) {
    if (data.empty()) throw std::invalid_argument("Empty dataset");
    int n = static_cast<int>(data.size());
    dim = static_cast<int>(data[0].size());
    labelVec.assign(n, 0);
    centerVec.assign(K, std::vector<double>(dim, 0.0));

    /* 随机初始化聚类中心 */
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_int_distribution<> dist(0, n - 1);
    for (int k = 0; k < K; ++k) centerVec[k] = data[dist(gen)];

    /* 迭代优化 */
    for (int iter = 0; iter < maxIter; ++iter) {
        bool changed = false;
        /* 分配步骤 */
        for (int i = 0; i < n; ++i) {
            double minDist = std::numeric_limits<double>::max();
            int bestCluster = 0;
            for (int k = 0; k < K; ++k) {
                double d = distanceSquared(data[i], centerVec[k]);
                if (d < minDist) {
                    minDist = d;
                    bestCluster = k;
                }
            }
            if (labelVec[i] != bestCluster) {
                labelVec[i] = bestCluster;
                changed = true;
            }
        }
        /* 若标签不再变化，提前收敛 */
        if (!changed) break;

        /* 更新步骤 */
        std::vector<std::vector<double>> newCenters(
            K, std::vector<double>(dim, 0.0));
        std::vector<int> counts(K, 0);
        for (int i = 0; i < n; ++i) {
            int k = labelVec[i];
            for (int j = 0; j < dim; ++j) newCenters[k][j] += data[i][j];
            counts[k]++;
        }
        for (int k = 0; k < K; ++k) {
            if (counts[k] == 0) continue;
            for (int j = 0; j < dim; ++j) newCenters[k][j] /= counts[k];
        }
        centerVec = newCenters;
    }
}

const std::vector<int>& KMeans::labels() const {
    return labelVec;
}

const std::vector<std::vector<double>>& KMeans::centroids() const {
    return centerVec;
}

/******************************************************
 * File: main.cpp
 ******************************************************/
#include <iostream>
#include "kmeans.h"

int main() {
    std::vector<std::vector<double>> data = {
        {1.0, 2.0},
        {1.5, 1.8},
        {5.0, 8.0},
        {8.0, 8.0},
        {1.0, 0.6},
        {9.0, 11.0}
    };
    KMeans kmeans(2, 100);
    kmeans.fit(data);
    std::cout << "Cluster labels:\n";
    for (int label : kmeans.labels()) std::cout << label << " ";
    std::cout << "\n";
    std::cout << "Centroids:\n";
    for (const auto& c : kmeans.centroids()) {
        for (double v : c) std::cout << v << " ";
        std::cout << "\n";
    }
    return 0;
}

C++ 从零实现 K-Means 聚类算法详解

一、项目背景详细介绍

1.1 聚类的现实意义

1.2 为什么要'自己实现'聚类算法？

1.3 本项目的定位

二、项目需求详细介绍

2.1 功能性需求

更多推荐文章

相关免费在线工具

2.2 非功能性需求

2.3 适用数据类型

三、相关技术详细介绍

3.2 K-Means 的核心思想

3.3 算法特点与局限性

四、实现思路详细介绍

4.1 整体算法流程

4.2 距离度量的选择

4.3 收敛条件设计

五、完整实现代码

六、代码详细解读（仅解读方法作用）

6.1 `fit`

6.2 `distanceSquared`

6.3 `labels` 与 `centroids`

七、项目详细总结

八、项目常见问题及解答

Q1：K-Means 一定能找到最优解吗？

Q2：如何改进初始化？

Q3：是否支持高维数据？

九、扩展方向与性能优化

更多推荐文章

相关免费在线工具

C++ 从零实现 K-Means 聚类算法详解

一、项目背景详细介绍

1.1 聚类的现实意义

1.2 为什么要'自己实现'聚类算法？

1.3 本项目的定位

二、项目需求详细介绍

2.1 功能性需求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 非功能性需求

2.3 适用数据类型

三、相关技术详细介绍

3.2 K-Means 的核心思想

3.3 算法特点与局限性

四、实现思路详细介绍

4.1 整体算法流程

4.2 距离度量的选择

4.3 收敛条件设计

五、完整实现代码

六、代码详细解读（仅解读方法作用）

6.1 fit

6.2 distanceSquared

6.3 labels 与 centroids

七、项目详细总结

八、项目常见问题及解答

Q1：K-Means 一定能找到最优解吗？

Q2：如何改进初始化？

Q3：是否支持高维数据？

九、扩展方向与性能优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6.1 `fit`

6.2 `distanceSquared`

6.3 `labels` 与 `centroids`