常见机器学习模型评估指标与方法汇总

综述由AI生成机器学习模型评估用于衡量训练后模型的性能。内容涵盖分类、回归和聚类三大任务的评估指标。分类部分包括混淆矩阵、准确率、精确率、召回率、F1-score、AUC 及 PR 曲线。回归部分涉及向量距离（欧式、曼哈顿等）、MAE、MSE、RMSE、解释变异和决定系数。聚类部分介绍兰德指数、互信息和轮廓系数。文章还解释了过拟合、欠拟合及泛化能力的概念，为模型优化提供理论依据。

BackendPro发布于 2025/2/7更新于 2026/5/3019 浏览

常见机器学习模型评估指标与方法汇总

模型评估概述

什么是模型评估

模型评估是对训练好的模型性能进行评估，是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

模型评估的类型

机器学习的任务有回归、分类和聚类，针对不同的任务有不同的评价指标。按照数据集的目标值不同，可以把模型评估分为分类模型评估和回归模型评估。

过拟合与欠拟合

（1）欠拟合 欠拟合（或称：拟合不足、欠配，英文：underfitting）是指模型在训练数据上没有获得充分小的误差。造成欠拟合的原因通常是模型学习能力过低，具体地说，就是模型参数过少或者结构过于简单，以至于无法学习到数据的内在结构和特征。例如，当用一个线性模型去拟合非线性数据时，会发生欠拟合。由此，可以通过增加模型参数和复杂度，提高学习能力，从而解决欠拟合问题。

（2）过拟合 过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

无论是欠拟合还是过拟合，都是模型泛化能力差的表现。

模型泛化能力

泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。机器学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。规律适用于现有数据，同样也适用于新鲜数据。

常见的分类模型评估指标

混淆矩阵

混淆矩阵是监督学习中的一种可视化工具，主要用于模型的分类结果和实例的真实信息的比较。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。

准确率 (Accuracy)

准确率是最常用的分类性能指标。 Accuracy = (TP+TN)/(TP+FN+FP+TN) 预测正确的数占样本总数的比例，即正确预测的正反例数 / 总数。

精确率 (Precision)

精确率容易和准确率被混为一谈。其实，精确率只是针对预测正确的正样本而不是所有预测正确的样本。表现为预测出是正的里面有多少真正是正的。可理解为查准率。 Precision = TP/(TP+FP) 即正确预测的正例数 / 预测正例总数

召回率 (Recall)

召回率表现出在实际正样本中，分类器能预测出多少。与真正率相等，可理解为查全率。正确预测为正占全部正样本的比例。 Recall = TP/(TP+FN)，即正确预测的正例数 / 实际正例总数

F1-score

F1-score 主要用于评估模型的稳健性。 F 值是精确率和召回率的调和值，更接近于两个数较小的那个，所以精确率和召回率接近时，F 值最大。很多推荐系统的评测指标就是用 F 值的。 2/F1 = 1/Precision + 1/Recall

AUC 指标

AUC 指标主要用于评估样本不均衡的情况。逻辑回归里面，对于正负例的界定，通常会设一个阈值，大于阈值的为正类，小于阈值为负类。如果我们减小这个阀值，更多的样本会被识别为正类，提高正类的识别率，但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象，引入 ROC。根据分类结果计算得到 ROC 空间中相应的点，连接这些点就形成 ROC curve，横坐标为 False Positive Rate(FPR 假正率)，纵坐标为 True Positive Rate(TPR 真正率)。一般情况下，这个曲线都应该处于 (0,0) 和 (1,1) 连线的上方。

AUC（Area Under Curve）被定义为 ROC 曲线下的面积 (ROC 的积分)，通常大于 0.5 小于 1。随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是 AUC 值。AUC 值 (面积) 越大的分类器，性能越好。

PR 曲线

PR 曲线的横坐标是精确率 P，纵坐标是召回率 R。评价标准和 ROC 一样，先看平滑不平滑。一般来说，在同一测试集，上面的比下面的好。当 P 和 R 的值接近时，F1 值最大。

常见的回归模型评估指标

拟合（回归）问题比较简单，所用到的衡量指标也相对直观。假设 yi 是第 i 个样本的真实值，ŷi 是对第 i 个样本的预测值。

向量的距离

（1）欧式距离/几何距离 欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在 m 维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。

常见机器学习模型评估指标与方法汇总

常见机器学习模型评估指标与方法汇总

模型评估概述

什么是模型评估

模型评估的类型

过拟合与欠拟合

模型泛化能力

常见的分类模型评估指标

混淆矩阵

准确率 (Accuracy)

精确率 (Precision)

召回率 (Recall)

F1-score

AUC 指标

PR 曲线

常见的回归模型评估指标

向量的距离

更多推荐文章

相关免费在线工具

平均绝对误差 (MAE)

平均平方误差 (MSE)

均方根误差 (RMSE)

解释变异

决定系数

常见的聚类模型评估指标

兰德指数

互信息

轮廓系数

更多推荐文章

相关免费在线工具

常见机器学习模型评估指标与方法汇总

常见机器学习模型评估指标与方法汇总

模型评估概述

什么是模型评估

模型评估的类型

过拟合与欠拟合

模型泛化能力

常见的分类模型评估指标

混淆矩阵

准确率 (Accuracy)

精确率 (Precision)

召回率 (Recall)

F1-score

AUC 指标

PR 曲线

常见的回归模型评估指标

向量的距离

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

平均绝对误差 (MAE)

平均平方误差 (MSE)

均方根误差 (RMSE)

解释变异

决定系数

常见的聚类模型评估指标

兰德指数

互信息

轮廓系数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具