KNN 算法：距离度量选择与数据维度归一化

k 近邻（K-Nearest Neighbors，简称 KNN）是一种经典的监督学习算法，广泛应用于分类和回归任务。在工程实践中，例如使用 OpenCV 时，可以通过 cv.ml.KNearest_create() 来调用相关接口。

距离度量的选择

KNN 的核心在于计算样本间的距离，并按递增次序排序。常用的距离度量包括以下几种：

L∞距离（切比雪夫距离） ![x_{i}=[34m(x_{i}^{(1)},x_{i}^{(2)},[34m\cdots,x_{i}^{(n)})^{34m\mathrm{T}} $L_{\infty}(x_{i},x_{j})=\max_{l}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid$

曼哈顿距离（L1 范数） $L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|$

Lp 距离 $L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid^{p})^{\frac{1}{p}}$

欧式距离（L2 范数） $L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|^{2})^{\frac{1}{2}}$

数据维度归一化

当特征处于不同量纲或数量级差异较大时，直接计算距离往往会导致偏差。假设样本特征为 {(x_{i1},x_{i2},\ldots,x_{in})}_{i=1}^m，通常的做法是取每一维度的最大值减最小值：

$M_j=\max_{i=1,\ldots,m}x_{ij}-\min_{i=1,\ldots,m}x_{ij}$

随后在计算距离时，将每个坐标轴除以相应的 M_j 进行归一化：

$d((y_1,\ldots,y_n),(z_1,\ldots,z_n))=\sqrt{\sum_{j=1}^n\left(\frac{y_j}{M_j}-\frac{z_j}{M_j}\right)^2}$

距离度量的选择

KNN 的核心在于计算样本间的距离，并按递增次序排序。常用的距离度量包括以下几种：

L∞距离（切比雪夫距离） ![x_{i}=[34m(x_{i}^{(1)},x_{i}^{(2)},[34m\cdots,x_{i}^{(n)})^{34m\mathrm{T}} $L_{\infty}(x_{i},x_{j})=\max_{l}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid$

曼哈顿距离（L1 范数） $L_{1}(x_{i},x_{j})=\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|$

Lp 距离 $L_{p}(x_{i},x_{j})=(\sum_{l=1}^{n}\mid x_{i}^{(l)}-x_{j}^{(l)}\mid^{p})^{\frac{1}{p}}$

欧式距离（L2 范数） $L_{2}(x_{i},x_{j})=(\sum_{l=1}^{n}|x_{i}^{(l)}-x_{j}^{(l)}|^{2})^{\frac{1}{2}}$

数据维度归一化

$M_j=\max_{i=1,\ldots,m}x_{ij}-\min_{i=1,\ldots,m}x_{ij}$

随后在计算距离时，将每个坐标轴除以相应的 M_j 进行归一化：

$d((y_1,\ldots,y_n),(z_1,\ldots,z_n))=\sqrt{\sum_{j=1}^n\left(\frac{y_j}{M_j}-\frac{z_j}{M_j}\right)^2}$

KNN 算法：距离度量选择与数据维度归一化

距离度量的选择

数据维度归一化

KNN 算法：距离度量选择与数据维度归一化

距离度量的选择

数据维度归一化

更多推荐文章

相关免费在线工具

为什么要做归一化？

更多推荐文章

相关免费在线工具

KNN 算法：距离度量选择与数据维度归一化

距离度量的选择

数据维度归一化

KNN 算法：距离度量选择与数据维度归一化

距离度量的选择

数据维度归一化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

为什么要做归一化？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具