KNN 算法实战：原理、实现与 K 值调优

KNN算法基于相似样本近邻投票进行分类或回归，原理直观且无需显式训练。通过欧氏距离等度量，结合K值选择与数据标准化，可在鸢尾花数据集上实现高准确率。手动实现KNN加深了内部机制理解，而交叉验证是选择合适K值的有效方法。K值过小导致过拟合，过大则欠拟合。KNN计算成本高，但通过KD树等方法可加速。该算法适用于小规模、低维数据，是机器学习入门的经典算法。

Pythonist发布于 2026/6/160 浏览

KNN 可能是最简单的机器学习算法，它不需要训练，直接根据邻近样本来判断。这个算法背后的想法很朴素——'近朱者赤'。在许多入门案例里，KNN 都能给出不错的结果，比如鸢尾花分类。在这篇文章里，我打算把它的原理、手动实现和调参过程完整走一遍。

算法原理

KNN 做什么？给定一个新样本，它在训练集里找 K 个最近的邻居，然后看这些邻居的标签，少数服从多数（分类），或者取平均值（回归）。所以，核心两件事：怎么定义'近'，以及选多少个邻居。

距离度量最常用的是欧氏距离：

# 欧氏距离的直观计算
dist = np.sqrt(np.sum((x1 - x2)**2))

当然，曼哈顿距离（np.sum(np.abs(x1 - x2))）或余弦相似度也各有各的适用场景。流程很直白：

先归一化数据，避免量纲影响距离计算。
对每个测试样本，算到所有训练样本的距离。
排序后取前 K 个。
分类则多数投票，回归则均值或加权平均。

先跑一个 Scikit-learn 版本

加载鸢尾花数据集，只选前两个特征方便画边界。标准化后，用 KNeighborsClassifier 一跑，准确率就很高：

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(f"Accuracy with K=5: {accuracy_score(y_test, y_pred):.2f}")
# 输出：0.98

自己动手实现一个 KNN

要想真的理解 KNN，还是得自己写一遍。下面这个 CustomKNN 就做两件事：fit 存住数据，predict 算欧氏距离、排序、投票：

算法	核心思想	优点	缺点	适用场景
KNN	近邻投票/平均	简单，无需训练	预测慢，存储大，高维差	小数据分类，实时预测
逻辑回归	概率线性分类	训练快，可解释	仅线性可分，需调参	二分类，概率预测
决策树	特征划分树结构	可解释，能非线性	易过拟合，噪声敏感	规则提取，快速预测

KNN 算法实战：原理、实现与 K 值调优

算法原理

先跑一个 Scikit-learn 版本

自己动手实现一个 KNN

更多推荐文章

选个合适的 K 值

优缺点与一些优化手段

应用场景与算法对比

总结

更多推荐文章

相关免费在线工具

KNN 算法实战：原理、实现与 K 值调优

算法原理

先跑一个 Scikit-learn 版本

自己动手实现一个 KNN

微信扫一扫，关注极客日志

更多推荐文章

选个合适的 K 值

优缺点与一些优化手段

应用场景与算法对比

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具