人工智能模型评估:核心指标与方法体系
定义
人工智能模型评估方法和体系用于帮助我们评估和比较不同人工智能模型性能的方法和框架。在人工智能领域,模型评估是至关重要的,因为它可以帮助我们了解模型的优劣,找出改进的方向,以及选择最适合特定任务的模型。
分类任务评估指标
1. 准确率 (Accuracy)
准确率是最直观的性能指标,表示正确预测的数量占总预测数量的比例。
$$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$
- TP (True Positives): 真正例,模型正确预测为正类的样本。
- TN (True Negatives): 真负例,模型正确预测为负类的样本。
- FP (False Positives): 假正例,模型错误地将负类预测为正类(误报)。
- FN (False Negatives): 假负例,模型错误地将正类预测为负类(漏报)。
示例场景:医疗检测中,TP 指模型正确识别出患病者;TN 指正确识别出健康者;FP 指将健康人误判为患病;FN 指将患病者误判为健康。
在实际应用中,我们通常希望 TP 最大化,同时减少 FP 和 FN 的数量。虽然 TN 是正面结果,但在评估模型性能时,我们更关注于减少 FP 和 FN 带来的影响。
from sklearn.metrics import accuracy_score
# 真实标签和预测标签
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1]
accuracy = accuracy_score(y_true, y_pred)
print(f'Accuracy: {accuracy}')
2. 精确率 (Precision)
精确率表示为所有被模型预测为正类的样本中,实际为正类的比例。它反映了模型预测为正类的样本中有多少是真正的正类。
$$ \text{Precision} = \frac{TP}{TP + FP} $$
当误报(FP)代价较高时(如垃圾邮件过滤),精确率尤为重要。
from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred)
print(f'Precision: {precision}')
3. 召回率 (Recall) / 真正率 (TPR)
召回率表示为所有实际为正类的样本中,被正确预测为正类的比例。它反映了模型找出所有正类样本的能力。
$$ \text{Recall} = \frac{TP}{TP + FN} $$
当漏报(FN)代价较高时(如疾病筛查、安全检测),召回率至关重要。


