机器学习 KNN 算法原理及 C++/Python 实战实现

KNN 算法讲解

实现环境

C++：集成开发环境 VS2022，可视化库 matplot++ Python：集成开发环境 Pycharm，数学库 numpy，可视化库 matplotlib

KNN 算法原理

KNN（K-近邻算法）是一种监督学习中的惰性学习算法，核心是'相似样本在特征空间中彼此靠近'，通过计算新样本与训练样本的距离找 k 个最近邻，再用多数表决（分类）或均值（回归）做预测，无需显式训练模型。

算法的优点

原理简单直观，实现难度低，无需复杂参数训练。
对异常值不敏感，适合类域交叉或重叠较多的数据集。
适配多分类任务，且可灵活切换分类与回归场景。

算法的缺点

预测阶段计算量大，时间与空间复杂度高，数据量大时效率低。
对高维数据敏感，易出现'维度灾难'，需通过降维等手段优化。
样本不平衡时，多数类可能主导预测结果，需做样本均衡处理。

评估标准

用 ROC 曲线评估

ROC 曲线是二分类模型的性能评估曲线，以假正率（FPR）为横轴、真正率（TPR）为纵轴，通过遍历分类模型的分类阈值，绘制出不同阈值下模型的 TPR 与 FPR 对应点并连接成线，直观反映模型在'识别正例'和'避免误判负例'之间的权衡能力。FPR 值是所有反例中被错误当作正例的比例，TPR 值是所有正例中正确识别出来的正例的比例；模型正确识别正例的能力越高、错误识别正例的能力越低，这个模型的分类能力就越强。

计算 FPR、TPR

这里涉及到四个数据：TP(真正例)、FP(假正例)、FN(假反例)、TN(真反例)

TP: 真实正例被模型正确预测为正例； FP: 真实负例被模型错误预测为正例（误检）; FN: 真实正例被模型错误预测为负例（漏检）； TN: 真实负例被模型正确预测为负例。

TPR 计算公式: 文章配图

FPR 计算公式：文章配图

AUC

AUC（ROC 曲线下的面积）是对 ROC 曲线的量化评估，也是比 ROC 曲线更常用的模型性能指标，取值范围为 0~1。AUC 的值越接近 1，表明模型越完美，分类性能越好。

例题分析

问题

海伦一直使用在线约会网站寻找适合自己的约会对象。她曾交往过三种类型的人：

不喜欢的人
一般喜欢的人
非常喜欢的人

这些人包含以下三种特征：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

该网站现在需要尽可能向海伦推荐她喜欢的人，需要我们设计一个分类器，根据用户的以上三种特征，识别出是否该向海伦推荐。

数据集类型

	每年获得的飞行常客里程数	玩视频游戏所耗时间百分比	每周消费的冰淇淋的公升数	样本分类
1	400	0.8	0.5	1

import numpy as np import matplotlib.pyplot as plt tag_map = { "largeDoses": 0, "smallDoses": 1, "didntLike": 2 } # 导入数据 def load_data(filepath): # 读取数据 data = [] with open(filepath, 'r', encoding="utf-8") as f: for line in f: line = line.strip() if not line: continue parts = line.split('\t') if len(parts) != 4: print(f"特征数据无法转换：{line}") continue tag = parts[3] data.append({ "feature": [parts[0], parts[1], parts[2]], "tag": tag_map[tag] }) return data # 归一化利用 numpy 的广播机制 def normalized(features: np.ndarray): # 获取每一列的最大值和最小值 max_val = features.max(axis=0) min_val = features.min(axis=0) ranges = max_val-min_val ranges[ranges < 1e-9] = 1.0 # 比较每个列的相减结果，排除 0 的情况 return (features-min_val)/ranges # 计算欧式距离 def euclidean_dist(test, train): return np.sum((test - train) ** 2, axis=1) # 计算各类标签的概率 def predict_prob(test, train_data, k): train_features = train_data[:,:3] dist = euclidean_dist(test, train_features) k_indices = np.argpartition(dist, k)[:k] # 完成一次快速排序 k_tags = train_data[k_indices, 3].astype(int) prob = np.bincount(k_tags, minlength=3) / k return prob # 选择最大概率作为当前测试样本的预测类型 def predict_type(test, train_data, k): return max(enumerate(predict_prob(test, train_data, k)), key=lambda x:x[1])[0] # 使用 k 折交叉验证，计算准确率和三分类特征混淆矩阵 def k_folds_cross_valid_acc(features: np.ndarray, k, k_fold): # 计算每一折的大小 fold_size = int(len(features)/k_fold) fold_accuracies = 0.0 confusion_mat = np.zeros([3,3], dtype=np.int32) for i in range(k_fold): start = i*fold_size # 防止最后一折不够一折的大小 end = start+fold_size if i != k_fold-1 else len(features) train_data = np.concatenate([features[:start], features[end:]]) correct = 0 test_data = features[start:end] for t in test_data: pred_type = predict_type(t[:3], train_data, k) if pred_type == t[3]: correct += 1 confusion_mat[int(t[3])][pred_type] += 1 fold_accuracies += correct/fold_size return fold_accuracies/k_fold, confusion_mat # 计算模型 roc 曲线的单个点 def count_roc(features: np.ndarray, k_fold, k_neighbor, confidence, genre): fold_size = int(len(features)/k_fold) tp, tn, fp, fn = 0, 0, 0, 0 for i in range(k_fold): start = i*fold_size end = start+fold_size if i != k_fold-1 else len(features) train_data = np.concatenate([features[:start], features[end:]]) test_data = features[start:end] for t in test_data: prob = predict_prob(t[:3], train_data, k_neighbor) if genre == t[3] and prob[genre] >= confidence: tp += 1 elif genre != t[3] and prob[genre] < confidence: tn += 1 elif genre != t[3] and prob[genre] >= confidence: fp += 1 elif genre == t[3] and prob[genre] < confidence: fn += 1 tpr = tp / (tp+fn) if (tp+fn) else 0.0 fpr = fp / (fp+tn) if (fp+tn) else 0.0 return fpr, tpr # 整理并补全 roc 曲线的两个点集 def get_roc(features: np.ndarray, k_fold, k_neighbor, genre): # 生成 1 到 0 步长为 -0.05 的列表 confidence = np.arange(1.0, 0, -0.05) fpr_list = list() tpr_list = list() for conf in confidence: fpr, tpr = count_roc(features, k_fold, k_neighbor, conf, genre) fpr_list.append(fpr) tpr_list.append(tpr) if fpr_list[0] != 0.0: fpr_list.insert(0, 0.0) tpr_list.insert(0, 0.0) if fpr_list[len(fpr_list)-1] != 1.0: fpr_list.append(1.0) tpr_list.append(1.0) return [fpr_list, tpr_list] # 获取 AUC def get_auc(result): auc = 0.0 fpr_list, tpr_list = result if len(fpr_list) < 2: return 0.0 for i in range(len(fpr_list)-1): # 梯形法算 AUC 面积 auc += (fpr_list[i+1]-fpr_list[i])*(tpr_list[i]+tpr_list[i+1])/2 return auc # 通过值寻找键列表 def get_value(dictionary: dict, target_value: int): return [key for key, value in dictionary.items() if value == target_value] # 绘制 roc 曲线 def plot_roc(results, ax): class_names = list(tag_map.keys()) for i in range(len(results)): ax.plot(results[i][0], results[i][1], linewidth=2, label=f"{class_names[i]} AUC: {results[i][2]:0.5f}") ax.plot((0, 1), (0, 1), "--", linewidth=1, label="predicted line") ax.legend(loc="lower right") ax.set_title("ROC Curve") ax.set_xlabel("False Positive Rate") ax.set_ylabel("True Positive Rate") ax.set_xlim(0,1) ax.set_ylim(0,1) # 绘制热力图 def plot_heatmap(heat_conf, ax): class_names = list(tag_map.keys()) im = ax.imshow(heat_conf) ax.set_xticks(range(len(class_names))) ax.set_xticklabels(labels=tag_map.keys(), rotation=45, ha="right", rotation_mode="anchor") ax.set_yticks(range(len(class_names))) ax.set_yticklabels(labels=tag_map.keys()) ax.set_title("Three Distribution") for i in range(len(tag_map)): for j in range(len(tag_map)): value = heat_conf[i, j] # 提高可视化观感 text_color = "black" if im.norm(value) > 0.5 else "white" ax.text(j, i, value, ha="center", va="center", color=text_color, fontweight="bold") cbar = plt.colorbar(im, ax=ax) cbar.set_label("Sample Count") if __name__ == "__main__": # 导入数据 dataset = load_data("datingTestSet.txt") # 检查数据是否导入 if not dataset: print("没有有效数据") exit() # 创建 numpy 数组 feature_list = np.array([d["feature"] for d in dataset], dtype=np.float64) tag_list = np.array([d["tag"] for d in dataset], dtype=np.int32) # 归一化数组 normalized_feature = normalized(feature_list) # 将特征和标签拼接 tag_list = tag_list.reshape(-1, 1) # 将 numpy 数组转置 feature_tag = np.hstack((normalized_feature, tag_list)) # 洗牌 np.random.seed(42) np.random.shuffle(feature_tag) # 选择最大准确率，选择最佳 k 值，并计算出最佳 k 值下的三分类特征混淆矩阵 best_k = 0 best_acc = 0 best_confusion = np.zeros([3, 3], dtype=np.int32) for i in range(3, int(np.sqrt(len(feature_tag))), 2): acc, confusion = k_folds_cross_valid_acc(feature_tag, i, 10) if best_acc < acc: best_k = i best_acc = acc best_confusion = confusion print(f"十折交叉验证的最佳 k 值为：{best_k}，对应的准确率为：{best_acc:0.5f}") # 评估模型：获取 ROC 曲线和 AUC 值 results = list() for i in range(3): res = get_roc(feature_tag, 10, best_k, i) auc = get_auc(res) results.append([*res, auc]) # 评估数据可视化 fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5)) plot_roc(results, ax1) plot_heatmap(best_confusion, ax2) plt.tight_layout() plt.show()

机器学习 KNN 算法原理及 C++/Python 实战实现

KNN 算法讲解

实现环境

KNN 算法原理

算法的优点

算法的缺点

评估标准

用 ROC 曲线评估

计算 FPR、TPR

AUC

例题分析

问题

数据集类型

更多推荐文章

相关免费在线工具

问题剖析

具体实现

大致流程示意图

具体步骤

C++ 实现

环境准备

matplot++ 下载

VS2022 环境搭建

代码实现

头文件

结构体

导入数据

数据预处理

选择最佳 K 值

使用 k 折交叉验证计算准确率和三分类混淆矩阵

网格搜索

计算 FPR 和 TPR

计算 AUC 和可视化实现

结果展示

Python 实现

环境配置

代码实现

运行结果

更多推荐文章

相关免费在线工具

机器学习 KNN 算法原理及 C++/Python 实战实现

KNN 算法讲解

实现环境

KNN 算法原理

算法的优点

算法的缺点

评估标准

用 ROC 曲线评估

计算 FPR、TPR

AUC

例题分析

问题

数据集类型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

问题剖析

具体实现

大致流程示意图

具体步骤

C++ 实现

环境准备

matplot++ 下载

VS2022 环境搭建

代码实现

头文件

结构体

导入数据

数据预处理

选择最佳 K 值

使用 k 折交叉验证计算准确率和三分类混淆矩阵

网格搜索

计算 FPR 和 TPR

计算 AUC 和可视化实现

结果展示

Python 实现

环境配置

代码实现

运行结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具