常见机器学习模型评估指标与方法汇总
机器学习模型评估用于衡量训练后模型的性能。内容涵盖分类、回归和聚类三大任务的评估指标。分类部分包括混淆矩阵、准确率、精确率、召回率、F1-score、AUC 及 PR 曲线。回归部分涉及向量距离(欧式、曼哈顿等)、MAE、MSE、RMSE、解释变异和决定系数。聚类部分介绍兰德指数、互信息和轮廓系数。文章还解释了过拟合、欠拟合及泛化能力的概念,为模型优化提供理论依据。

机器学习模型评估用于衡量训练后模型的性能。内容涵盖分类、回归和聚类三大任务的评估指标。分类部分包括混淆矩阵、准确率、精确率、召回率、F1-score、AUC 及 PR 曲线。回归部分涉及向量距离(欧式、曼哈顿等)、MAE、MSE、RMSE、解释变异和决定系数。聚类部分介绍兰德指数、互信息和轮廓系数。文章还解释了过拟合、欠拟合及泛化能力的概念,为模型优化提供理论依据。

模型评估是对训练好的模型性能进行评估,是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
机器学习的任务有回归、分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
(1)欠拟合 欠拟合(或称:拟合不足、欠配,英文:underfitting)是指模型在训练数据上没有获得充分小的误差。造成欠拟合的原因通常是模型学习能力过低,具体地说,就是模型参数过少或者结构过于简单,以至于无法学习到数据的内在结构和特征。例如,当用一个线性模型去拟合非线性数据时,会发生欠拟合。由此,可以通过增加模型参数和复杂度,提高学习能力,从而解决欠拟合问题。
(2)过拟合 过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
无论是欠拟合还是过拟合,都是模型泛化能力差的表现。
泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。 机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。 规律适用于现有数据,同样也适用于新鲜数据。
混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。
准确率是最常用的分类性能指标。 Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的数占样本总数的比例,即正确预测的正反例数 / 总数。
精确率容易和准确率被混为一谈。其实,精确率只是针对预测正确的正样本而不是所有预测正确的样本。 表现为预测出是正的里面有多少真正是正的。可理解为查准率。 Precision = TP/(TP+FP) 即正确预测的正例数 / 预测正例总数
召回率表现出在实际正样本中,分类器能预测出多少。 与真正率相等,可理解为查全率。正确预测为正占全部正样本的比例。 Recall = TP/(TP+FN),即正确预测的正例数 / 实际正例总数
F1-score 主要用于评估模型的稳健性。 F 值是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时,F 值最大。很多推荐系统的评测指标就是用 F 值的。 2/F1 = 1/Precision + 1/Recall
AUC 指标主要用于评估样本不均衡的情况。 逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。 为了直观表示这一现象,引入 ROC。根据分类结果计算得到 ROC 空间中相应的点,连接这些点就形成 ROC curve,横坐标为 False Positive Rate(FPR 假正率),纵坐标为 True Positive Rate(TPR 真正率)。 一般情况下,这个曲线都应该处于 (0,0) 和 (1,1) 连线的上方。
AUC(Area Under Curve)被定义为 ROC 曲线下的面积 (ROC 的积分),通常大于 0.5 小于 1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC 值 (面积) 越大的分类器,性能越好。
PR 曲线的横坐标是精确率 P,纵坐标是召回率 R。评价标准和 ROC 一样,先看平滑不平滑。一般来说,在同一测试集,上面的比下面的好。当 P 和 R 的值接近时,F1 值最大。
拟合(回归)问题比较简单,所用到的衡量指标也相对直观。 假设 yi 是第 i 个样本的真实值,ŷi 是对第 i 个样本的预测值。
(1)欧式距离/几何距离 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在 m 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。
(2)曼哈顿距离 出租车几何或曼哈顿距离(Manhattan Distance)是由赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。 曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离,即 d(i,j)=|xi-xj|+|yi-yj|。
(3)马氏距离 马哈拉诺比斯距离 Mahalanobis Distance,简称马氏距离,是在规范化的主成分空间中的欧氏距离。 马氏距离是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系并且是尺度无关的(scale-invariant),即独立于测量尺度。
(4)余弦距离 余弦距离(也称为余弦相似度):用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 当两个向量是正交(垂直)时,无论其物理距离有多近,其余弦距离始终为最大值 cos90°=0。
平均绝对误差 MAE(Mean Absolute Error)又被称为 l1 范数损失(l1-norm loss)。
平均平方误差 MSE(Mean Squared Error)又被称为 l2 范数损失(l2-norm loss)。
RMSE 虽然广为使用,但是其存在一些缺点,因为它是使用平均误差,而平均值对异常点(outliers)较敏感,如果回归器对某个点的回归值很不理性,那么它的误差则较大,从而会对 RMSE 的值有较大影响,即平均值是非鲁棒的。
解释变异(Explained variance)是根据误差的方差计算得到的。
决定系数(Coefficient of determination)又被称为 R²。
兰德指数(Rand index)需要给定实际类别信息 C,假设 K 是聚类结果,a 表示在 C 与 K 中都是同类别的元素对数,b 表示在 C 与 K 中都是不同类别的元素对数,则兰德指数为:RI = (a+b)/N(N-1)/2。 其中 N 为数据集中可以组成的总元素对数,RI 取值范围为 [0,1],值越大意味着聚类结果与真实情况越吻合。 调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度。ARI 取值范围为 [-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI 衡量的是两个数据分布的吻合程度。
互信息(Mutual Information)也是用来衡量两个数据分布的吻合程度。假设 U 与 V 是对 N 个样本标签的分配情况,则两种分布的熵(熵表示的是不确定程度)分别为 H(U) 和 H(V)。 利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI 与 NMI 取值范围为 [0,1],AMI 取值范围为 [-1,1],它们都是值越大意味着聚类结果与真实情况越吻合。
轮廓系数(Silhouette coefficient)适用于实际类别信息未知的情况。对于单个样本,设 a 是与它同类别中其他样本的平均距离,b 是与它距离最近不同类别中样本的平均距离,轮廓系数为:(b-a)/max(a,b)。 对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。 轮廓系数取值范围是 [-1,1]。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online