机器学习：KNN 算法详解 | 极客日志

PythonAI算法

机器学习：KNN 算法详解

KNN 是一种监督学习算法，核心思想基于样本间距离找出 K 个最近邻进行分类或回归预测。K 值选择影响模型泛化能力，过小易过拟合，过大易欠拟合。常用距离度量包括欧氏、曼哈顿、切比雪夫及闵可夫斯基距离。特征预处理如归一化和标准化用于消除量纲差异，提升模型效果。KNN 优点是原理简单无需显式训练，缺点是预测效率低且对高维数据敏感。

魔尊发布于 2026/3/28更新于 2026/5/2929 浏览

一、KNN 算法核心思想

K - 近邻算法（K Nearest Neighbor，简称 KNN）是一种简单且经典的监督学习算法，核心思想可以概括为：'近朱者赤，近墨者黑'。

KNN（K Nearest Neighbors）是一种惰性学习（lazy learning）算法，因为它不会对训练数据进行显式的学习或建模，只是把训练数据存储起来，直到测试阶段才进行计算，通过计算未知样本与训练集中所有样本的"距离"，找出最相似的 K 个邻居，根据这些邻居的类别来决定未知样本的类别。

KNN 不仅适用于分类问题，也可用于回归问题，两者的处理流程相似但目标不同：

任务类型	核心目标	决策规则	适用场景举例
分类	预测离散的类别标签	统计 K 个近邻中占比最高的类别	鸢尾花分类、手写数字识别
回归	预测连续的数值结果	计算 K 个近邻目标值的算术平均值	房价预测、销量预测

核心问题：如何衡量'相似性'？

样本的相似性通过距离来衡量，距离越近则相似度越高，KNN 中最常用的是欧氏距离，后续会详细介绍多种距离度量方式。

二、K 值的选择：影响模型性能的关键

K 值是 KNN 算法中最重要的超参数，其选择直接影响模型效果：

K 值过小：模型容易过拟合，对噪声数据敏感，泛化能力差；
K 值过大：模型趋于'平均化'，距离较远的样本也会影响预测结果，导致欠拟合；
经验选择：通常从 K=5 开始尝试，结合交叉验证选择最优值。

三、KNN 的两种应用场景 & SKlearn API

3.1 分类问题（核心：多数表决）

处理流程：

计算未知样本到每一个训练样本的距离；
将训练样本按距离升序排列；
选取距离最近的 K 个训练样本；
统计 K 个样本中各类别数量，进行多数表决；
未知样本归属到数量最多的类别。

SKlearn API：

from sklearn.neighbors import KNeighborsClassifier # 完整参数示例（含核心参数说明）
knn_clf = KNeighborsClassifier(
    n_neighbors=5, # 核心：选取的邻居数量，默认 5
    weights='uniform', # 权重方式：'uniform'（等权重）/'distance'（距离越近权重越高）
    algorithm='auto', # 近邻搜索算法：'auto'/'ball_tree'/'kd_tree'/'brute'
    p=2, # 闵可夫斯基距离的 p 值：p=1（曼哈顿）/p=2（欧式）/p→∞（切比雪夫）
    metric='minkowski' # 距离度量方式：默认'minkowski'，可指定'euclidean'/'manhattan'等
)

3.2 回归问题（核心：均值预测）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from sklearn.neighbors import KNeighborsRegressor # 完整参数示例（含核心参数说明）
knn_reg = KNeighborsRegressor(
    n_neighbors=5, # 核心：选取的邻居数量，默认 5
    weights='uniform', # 权重方式：'uniform'（等权重平均）/'distance'（加权平均）
    algorithm='auto', # 近邻搜索算法：同分类器，auto 为推荐值
    p=2, # 距离 p 值：p=2 对应欧式距离（默认）
    metric='minkowski' # 距离度量：默认闵可夫斯基，兼容多种距离
)

from sklearn.preprocessing import MinMaxScaler # 初始化归一化器
scaler = MinMaxScaler(feature_range=(0,1)) # 拟合并转换数据
data_scaled = scaler.fit_transform(data)

import numpy as np 
from sklearn.preprocessing import MinMaxScaler 
# 模拟房价特征数据：[面积 (㎡), 总价 (万元), 楼层]
house_data = np.array([
    [80, 200, 5], 
    [100, 300, 10], 
    [120, 400, 15], 
    [90, 250, 8] 
]) 
# 1. 初始化归一化器（默认映射到 [0,1]）
scaler = MinMaxScaler(feature_range=(0, 1)) 
# 2. 拟合并转换数据
house_scaled = scaler.fit_transform(house_data) 
print("原始数据：")
print(house_data) 
print("\n归一化后数据：")
print(house_scaled) 
print("\n各特征最小值：", scaler.data_min_) 
print("各特征最大值：", scaler.data_max_)

原始数据： [[ 80 200 5] [100 300 10] [120 400 15] [ 90 250 8]] 归一化后数据： [[0. 0. 0. ] [0.5 0.5 0.5 ] [1. 1. 1. ] [0.25 0.25 0.3 ]] 各特征最小值： [ 80. 200. 5.] 各特征最大值： [120. 400. 15.]

from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
data_scaled = scaler.fit_transform(data)

import numpy as np 
from sklearn.preprocessing import StandardScaler 
# 模拟学生成绩数据：[数学，英语，语文]（含异常值：最后一行是满分异常）
score_data = np.array([
    [60, 70, 80], 
    [75, 85, 90], 
    [80, 82, 78], 
    [90, 88, 92], 
    [100, 100, 100] # 异常值
]) 
# 1. 初始化标准化器
scaler = StandardScaler() 
# 2. 拟合并转换数据
score_scaled = scaler.fit_transform(score_data) 
print("原始数据：")
print(score_data) 
print("\n标准化后数据：")
print(np.round(score_scaled, 2)) # 保留 2 位小数
print("\n各特征均值：", np.round(scaler.mean_, 2)) 
print("各特征标准差：", np.round(scaler.scale_, 2))

原始数据： [[ 60 70 80] [ 75 85 90] [ 80 82 78] [ 90 88 92] [100 100 100]] 标准化后数据： [[-1.47 -1.53 -0.8 ] [-0.45 0.21 0.2 ] [-0.12 -0.12 -1.01] [ 0.51 0.54 0.41] [ 1.53 0.9 1.2 ]] 各特征均值： [81. 85. 88. ] 各特征标准差： [14.25 9.83 10.02]

机器学习：KNN 算法详解

一、KNN 算法核心思想

核心问题：如何衡量'相似性'？

二、K 值的选择：影响模型性能的关键

三、KNN 的两种应用场景 & SKlearn API

3.1 分类问题（核心：多数表决）

3.2 回归问题（核心：均值预测）

更多推荐文章

相关免费在线工具

四、距离度量方法

4.1 欧氏距离（最常用）

数学定义

4.2 曼哈顿距离

4.3 切比雪夫距离

4.4 闵可夫斯基距离

五、特征预处理：让模型更'公平'

5.1 为什么需要预处理？

5.2 归一化（Min-Max Scaling）

归一化实操案例（房价特征处理）

5.3 标准化（Standard Scaling）

标准化实操案例（学生成绩处理）

六、KNN 算法总结

优点

缺点

适用场景

更多推荐文章

相关免费在线工具

机器学习：KNN 算法详解

一、KNN 算法核心思想

核心问题：如何衡量'相似性'？

二、K 值的选择：影响模型性能的关键

三、KNN 的两种应用场景 & SKlearn API

3.1 分类问题（核心：多数表决）

3.2 回归问题（核心：均值预测）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、距离度量方法

4.1 欧氏距离（最常用）

数学定义

4.2 曼哈顿距离

4.3 切比雪夫距离

4.4 闵可夫斯基距离

五、特征预处理：让模型更'公平'

5.1 为什么需要预处理？

5.2 归一化（Min-Max Scaling）

归一化实操案例（房价特征处理）

5.3 标准化（Standard Scaling）

标准化实操案例（学生成绩处理）

六、KNN 算法总结

优点

缺点

适用场景

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具