算法

分类评价指标

Ne0inhk

14 Jan 2025 — 5 min read

文章目录

1. 混淆矩阵

可使用上下左右这个记忆的小诀窍，所以行代表真实值，列代表预测值，和sklearn中的输入格式相同。

如何理解其中字母的含义呢？以FP为例，第二个字母表示的是列（预测值），那么行（真实值）就是预测值(1)取反（False），则真实值即为0。

精准率与召回率也满足上下左右的规律。

1.1 精准率

p r e c i s i o n = T P T P + F P precision=\frac{TP}{TP+FP} precision=TP+FPTP

精准率是查的准。精准率相对应的是漏报率。

1.2 召回率

r e c a l l = T P T P + F N recall=\frac{TP}{TP+FN} recall=TP+FNTP

召回率是查的全。召回率对应的是误报率。

1.3 F1-score

F 1 = 2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l F_1=\frac{2*precision*recall}{precision+recall} F1=precision+recall2∗precision∗recall

由于F1-score的小数，简单理解的话，分子是乘积，分母是加和。

2. ROC曲线

ROC曲线的横轴是FPR，纵轴是TPR。FPR是假正率，它和安全领域中的误报率是等价的，计算公式为 F P F P + T N \frac{FP}{FP +TN} FP+TNFP，误报率是从真实白样本角度来看的。TPR指的是命中率，也是召回率，计算公式为 T P T P + F N \frac{TP}{TP+FN} TP+FNTP，其中漏报率=1-命中率，而漏报率是从真实黑样本角度来看的。

如下图所示，当 d < θ d<\theta d<θ的时候，则认为样本为负样本，所以为FP。当 d > θ d>\theta d>θ的时候，则认为样本为正样本，所以为FN。

3. AUC

为了计算 ROC 曲线上的点，我们可以使用不同的分类阈值多次评估逻辑回归模型，但这样做效率非常低。幸运的是，有一种基于排序的高效算法可以为我们提供此类信息，这种算法称为曲线下面积（Area Under Curve）。

比较有意思的是，如果我们连接对角线，它的面积正好是0.5。对角线的实际含义是：随机判断响应与不响应，正负样本覆盖率应该都是50%，表示随机效果。ROC曲线越陡越好，所以理想值就是1，一个正方形，而最差的随机判断都有0.5，所以一般AUC的值是介于0.5到1之间的。

3.1 AUC的一般判断标准

0.5 - 0.7：效果较低，但用于预测股票已经很不错了

0.7 - 0.85：效果一般

0.85 - 0.95：效果很好

0.95 - 1：效果非常好，但一般不太可能

3.2 AUC的物理意义

曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。以下面的样本为例，逻辑回归预测从左到右以升序排列：

https://blog.ZEEKLOG.net/abcjennifer/article/details/7359370
https://blog.ZEEKLOG.net/Stephen_shijun/article/details/83059863
为什么ROC曲线不受样本不均衡的影响？
https://blog.ZEEKLOG.net/songyunli1111/article/details/82285266

4. 多类别分类指标

4.1 宏F1

多类别的宏F1值等于多个类别的F1值的平均值。需要注意的是，

多类别的宏 F 1 ≠ ( 2 ∗ 多类别的宏精准率 ∗ 多类别的宏召回率 ) 多类别的宏精准率 + 多类别的宏召回率多类别的宏F1 \neq \frac{(2 * 多类别的宏精准率*多类别的宏召回率)}{多类别的宏精准率+多类别的宏召回率} 多类别的宏F1=多类别的宏精准率+多类别的宏召回率(2∗多类别的宏精准率∗多类别的宏召回率)

根据上述截图来看，两者(先求值再平均和后者)并不相同。

多类别分类指标可参考：https://towardsdatascience.com/multi-class-metrics-made-simple-part-ii-the-f1-score-ebe8b2c2ca1

探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(2)

目录前言一、TCU模块框图二、WMMA代码分析 2.1 WMMA矩阵分块 2.2 WMMA矩阵地址偏移计算 2.2.1 WMMA matrixA 2.2.2 WMMA matrixB 2.2.3 WMMA matrixC 2.2.4 tcu_int WMMA源代码总结前言本篇分析Vortex矩阵计算的核心模块TCU WMMA。前文：探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(1)https://blog.ZEEKLOG.net/weixin_

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一：IoTDB开启监控指标采集 * 步骤二：安装、配置Prometheus * 步骤三：安装grafana并配置数据源 * 步骤四：导入IoTDB Grafana看板 * TimechoDB（基于 Apache IoTDB）增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库，以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系，通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率，同时支持边缘轻量部署、

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍） SQL Server 是由微软（Microsoft）开发的一款关系型数据库管理系统（RDBMS），支持结构化查询语言（SQL）进行数据存储、管理和分析。自1989年首次发布以来，SQL Server 已成为企业级数据管理的核心解决方案，广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理（ACID）和商业智能（BI）支持，并支持 Windows 和 Linux 跨平台部署。一、获取 SQL Server 2019 安装包 1. 官方下载方式前往微软官网注册账号后，即可下载 SQL Server Developer 版本（