常见机器学习模型评估指标与方法汇总
模型评估概述
什么是模型评估
模型评估是对训练好的模型性能进行评估,是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
模型评估的类型
机器学习的任务有回归、分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
过拟合与欠拟合
(1)欠拟合 欠拟合(或称:拟合不足、欠配,英文:underfitting)是指模型在训练数据上没有获得充分小的误差。造成欠拟合的原因通常是模型学习能力过低,具体地说,就是模型参数过少或者结构过于简单,以至于无法学习到数据的内在结构和特征。例如,当用一个线性模型去拟合非线性数据时,会发生欠拟合。由此,可以通过增加模型参数和复杂度,提高学习能力,从而解决欠拟合问题。
(2)过拟合 过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
无论是欠拟合还是过拟合,都是模型泛化能力差的表现。
模型泛化能力
泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。 机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。 规律适用于现有数据,同样也适用于新鲜数据。
常见的分类模型评估指标
混淆矩阵
混淆矩阵是监督学习中的一种可视化工具,主要用于模型的分类结果和实例的真实信息的比较。 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。
准确率 (Accuracy)
准确率是最常用的分类性能指标。 Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的数占样本总数的比例,即正确预测的正反例数 / 总数。
精确率 (Precision)
精确率容易和准确率被混为一谈。其实,精确率只是针对预测正确的正样本而不是所有预测正确的样本。 表现为预测出是正的里面有多少真正是正的。可理解为查准率。 Precision = TP/(TP+FP) 即正确预测的正例数 / 预测正例总数
召回率 (Recall)
召回率表现出在实际正样本中,分类器能预测出多少。 与真正率相等,可理解为查全率。正确预测为正占全部正样本的比例。 Recall = TP/(TP+FN),即正确预测的正例数 / 实际正例总数
F1-score
F1-score 主要用于评估模型的稳健性。 F 值是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时,F 值最大。很多推荐系统的评测指标就是用 F 值的。 2/F1 = 1/Precision + 1/Recall
AUC 指标
AUC 指标主要用于评估样本不均衡的情况。 逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。 为了直观表示这一现象,引入 ROC。根据分类结果计算得到 ROC 空间中相应的点,连接这些点就形成 ROC curve,横坐标为 False Positive Rate(FPR 假正率),纵坐标为 True Positive Rate(TPR 真正率)。 一般情况下,这个曲线都应该处于 (0,0) 和 (1,1) 连线的上方。
AUC(Area Under Curve)被定义为 ROC 曲线下的面积 (ROC 的积分),通常大于 0.5 小于 1。随机挑选一个正样本以及一个负样本,分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC 值 (面积) 越大的分类器,性能越好。
PR 曲线
PR 曲线的横坐标是精确率 P,纵坐标是召回率 R。评价标准和 ROC 一样,先看平滑不平滑。一般来说,在同一测试集,上面的比下面的好。当 P 和 R 的值接近时,F1 值最大。
常见的回归模型评估指标
拟合(回归)问题比较简单,所用到的衡量指标也相对直观。 假设 yi 是第 i 个样本的真实值,ŷi 是对第 i 个样本的预测值。
向量的距离
(1)欧式距离/几何距离 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在 m 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。


