C++ 基于传输与交换的 K-Medoids 聚类算法实现 | 极客日志

C++AI算法

C++ 基于传输与交换的 K-Medoids 聚类算法实现

介绍 K-Medoids 聚类算法，对比其与 K-Means 的差异，强调中心为真实样本点且对异常值鲁棒。通过 C++ 从零实现基于“传输（Relocation）”和“交换（Swap）”策略的 PAM 算法。代码包含距离计算、代价函数评估及迭代优化逻辑，适用于中小规模数据集及非欧氏距离场景，提供完整源码与核心方法解读。

BackendPro发布于 2026/3/24更新于 2026/5/2332 浏览

一、项目背景详细介绍

在前面的聚类算法实现中，我们已经系统地介绍并实现了 K-Means 聚类算法。K-Means 以其简单高效著称，但在真实工程与统计建模中，它存在一些先天局限性：

对异常值（Outliers）极其敏感
必须使用'均值'作为中心（不一定是实际样本）
仅适用于欧氏空间
对非凸分布表现较差

在许多实际应用场景中，我们更希望：

聚类中心一定是'真实样本点'，并且对异常值更鲁棒。

这正是 K-Medoids 聚类算法（也称 PAM，Partitioning Around Medoids）的出发点。

1.1 什么是'传输'和'交换'思想？

K-Medoids 并不是通过'求均值'来更新中心，而是通过：

传输（Relocation）：
将样本重新分配到最近的中心（medoid）
交换（Swap）：
尝试用'非中心点'替换当前中心点，看是否能降低整体代价函数

📌 一句话概括：

K-Medoids = '分配（传输） + 中心交换（Swap）' 的组合优化算法。

1.2 K-Medoids 与 K-Means 的核心差异

维度	K-Means	K-Medoids
中心	均值（虚拟点）	实际样本
距离	通常欧氏	任意距离
鲁棒性	差	强
计算量	较低	较高
工程适用性	连续数据	离散 / 非欧氏

1.3 工程与统计中的应用场景

异常值较多的数据
非欧氏距离（编辑距离、图距离）
小样本高可靠性聚类
生物信息学
社交网络分析
推荐系统中的代表点选择

二、项目需求详细介绍

2.1 功能性需求

本项目目标是：

👉 使用'传输 + 交换'策略，在 C++ 中从零实现 K-Medoids 聚类算法

需要支持：

任意维度的数值向量
指定聚类数 K
明确区分：
- 样本分配（Relocation）
- 中心交换（Swap）
输出：
- 每个样本的簇标签
- 每个簇的 medoid 索引

核心接口示例：

class KMedoids { public: KMedoids(int k, int maxIter); void fit(const std::vector<std::vector<double>>& data); const std::vector<int>& labels() const; const std::vector<int>& medoids() const; }

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

随机选择 K 个样本作为初始 medoids
repeat:
  1. 传输（Relocation） - 将每个样本分配到最近的 medoid
  2. 交换（Swap） - 对每个 medoid m: 对每个非 medoid 点 x: 尝试用 x 替换 m 若总代价下降，执行交换
until 无交换发生 或 达到最大迭代次数

/******************************************************
 * File: kmedoids.h
 ******************************************************/
#ifndef KMEDOIDS_H
#define KMEDOIDS_H
#include <vector>
class KMedoids {
public:
    KMedoids(int k, int maxIterations = 100);
    void fit(const std::vector<std::vector<double>>& data);
    const std::vector<int>& labels() const;
    const std::vector<int>& medoids() const;
private:
    int K;
    int maxIter;
    std::vector<int> labelVec; // 每个样本的簇标签
    std::vector<int> medoidIdx; // medoid 在数据中的索引
    double distance(const std::vector<double>& a, const std::vector<double>& b);
    double totalCost(const std::vector<std::vector<double>>& data, const std::vector<int>& medoids);
};
#endif

/******************************************************
 * File: kmedoids.cpp
 ******************************************************/
#include "kmedoids.h"
#include <random>
#include <limits>
#include <stdexcept>
#include <cmath>
#include <algorithm>

KMedoids::KMedoids(int k, int maxIterations) : K(k), maxIter(maxIterations) {
    if (K <= 0) throw std::invalid_argument("K must be positive");
}

double KMedoids::distance(const std::vector<double>& a, const std::vector<double>& b) {
    double sum = 0.0;
    for (size_t i = 0; i < a.size(); ++i) {
        double d = a[i] - b[i];
        sum += d * d;
    }
    return std::sqrt(sum);
}

double KMedoids::totalCost(const std::vector<std::vector<double>>& data, const std::vector<int>& medoids) {
    double cost = 0.0;
    for (size_t i = 0; i < data.size(); ++i) {
        double minDist = std::numeric_limits<double>::max();
        for (int m : medoids) {
            double d = distance(data[i], data[m]);
            if (d < minDist) minDist = d;
        }
        cost += minDist;
    }
    return cost;
}

void KMedoids::fit(const std::vector<std::vector<double>>& data) {
    if (data.empty()) throw std::invalid_argument("Empty dataset");
    int n = static_cast<int>(data.size());
    labelVec.assign(n, 0);

    /* 随机初始化 medoids */
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_int_distribution<> dist(0, n - 1);
    medoidIdx.clear();
    while ((int)medoidIdx.size() < K) {
        int idx = dist(gen);
        if (std::find(medoidIdx.begin(), medoidIdx.end(), idx) == medoidIdx.end())
            medoidIdx.push_back(idx);
    }

    /* 主迭代过程 */
    for (int iter = 0; iter < maxIter; ++iter) {
        /* ---------- 传输（Relocation） ---------- */
        for (int i = 0; i < n; ++i) {
            double minDist = std::numeric_limits<double>::max();
            int best = 0;
            for (int k = 0; k < K; ++k) {
                double d = distance(data[i], data[medoidIdx[k]]);
                if (d < minDist) {
                    minDist = d;
                    best = k;
                }
            }
            labelVec[i] = best;
        }

        /* ---------- 交换（Swap） ---------- */
        bool improved = false;
        double currentCost = totalCost(data, medoidIdx);
        for (int k = 0; k < K; ++k) {
            for (int i = 0; i < n; ++i) {
                if (std::find(medoidIdx.begin(), medoidIdx.end(), i) != medoidIdx.end()) continue;
                std::vector<int> candidate = medoidIdx;
                candidate[k] = i;
                double newCost = totalCost(data, candidate);
                if (newCost < currentCost) {
                    medoidIdx = candidate;
                    currentCost = newCost;
                    improved = true;
                }
            }
        }
        if (!improved) break;
    }
}

const std::vector<int>& KMedoids::labels() const {
    return labelVec;
}

const std::vector<int>& KMedoids::medoids() const {
    return medoidIdx;
}

/******************************************************
 * File: main.cpp
 ******************************************************/
#include <iostream>
#include "kmedoids.h"

int main() {
    std::vector<std::vector<double>> data = {
        {1.0, 2.0},
        {1.2, 1.9},
        {0.8, 2.1},
        {8.0, 8.0},
        {8.2, 7.9},
        {7.9, 8.1}
    };
    KMedoids model(2, 100);
    model.fit(data);
    std::cout << "Cluster labels:\n";
    for (int l : model.labels()) std::cout << l << " ";
    std::cout << "\n";
    std::cout << "Medoid indices:\n";
    for (int m : model.medoids()) std::cout << m << " ";
    std::cout << "\n";
    return 0;
}

C++ 基于传输与交换的 K-Medoids 聚类算法实现

一、项目背景详细介绍

1.1 什么是'传输'和'交换'思想？

1.2 K-Medoids 与 K-Means 的核心差异

1.3 工程与统计中的应用场景

二、项目需求详细介绍

2.1 功能性需求

更多推荐文章

相关免费在线工具

2.2 非功能性需求

2.3 适用规模

三、相关技术详细介绍

3.2 传输（Relocation）步骤

3.3 交换（Swap）步骤

3.4 PAM（Partitioning Around Medoids）

四、实现思路详细介绍

4.1 总体算法流程

4.2 距离度量设计

4.3 时间复杂度说明

五、完整实现代码

六、代码详细解读（仅解读方法作用）

6.1 `fit`

6.2 `totalCost`

6.3 `distance`

七、项目详细总结

八、项目常见问题及解答

Q1：为什么 K-Medoids 比 K-Means 慢？

Q2：什么时候应该用 K-Medoids？

Q3：是否适合大规模数据？

九、扩展方向与性能优化

更多推荐文章

相关免费在线工具

C++ 基于传输与交换的 K-Medoids 聚类算法实现

一、项目背景详细介绍

1.1 什么是'传输'和'交换'思想？

1.2 K-Medoids 与 K-Means 的核心差异

1.3 工程与统计中的应用场景

二、项目需求详细介绍

2.1 功能性需求

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 非功能性需求

2.3 适用规模

三、相关技术详细介绍

3.2 传输（Relocation）步骤

3.3 交换（Swap）步骤

3.4 PAM（Partitioning Around Medoids）

四、实现思路详细介绍

4.1 总体算法流程

4.2 距离度量设计

4.3 时间复杂度说明

五、完整实现代码

六、代码详细解读（仅解读方法作用）

6.1 fit

6.2 totalCost

6.3 distance

七、项目详细总结

八、项目常见问题及解答

Q1：为什么 K-Medoids 比 K-Means 慢？

Q2：什么时候应该用 K-Medoids？

Q3：是否适合大规模数据？

九、扩展方向与性能优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6.1 `fit`

6.2 `totalCost`

6.3 `distance`