Python 数据分析进阶：模型评估与图像处理实战 | 极客日志

PythonAI算法

Python 数据分析进阶：模型评估与图像处理实战

深入探讨 Python 数据分析中的模型评估与性能优化。涵盖分类器、回归器及聚类的评估指标，如混淆矩阵、F1 分数、ROC 曲线及均方误差。同时介绍图像处理技术，包括 SIFT/SURF 特征提取、颜色量化、人脸检测及纹理分析。最后讲解并行计算与性能调优，涉及 Numba 编译、多线程、缓存策略及内存分析。旨在帮助开发者构建高效可靠的机器学习与数据处理流程。

Elasticer发布于 2026/3/22更新于 2026/7/2040 浏览

Python 数据分析进阶：模型评估与图像处理实战

评估分类器、回归器和聚类

在机器学习项目中，评估模型表现是至关重要的一环。这不仅关乎算法的准确性，还涉及速度、内存消耗及实际场景的适配性。面对众多评估指标，我们需要根据具体任务选择最合适的标准。

用混淆矩阵直接分类

准确率（Accuracy）是分类器的默认评估指标，但在类别不平衡时往往失效。混淆矩阵能更直观地展示分类结果，区分真阳性、假阳性、真阴性和假阴性。

def plot_cm(preds, y_test, title, cax):
    cm = confusion_matrix(preds.T, y_test)
    normalized_cm = cm / cm.sum().astype(float)
    sns.heatmap(normalized_cm, annot=True, fmt='.2f', 
                vmin=0, vmax=1, 
                xticklabels=['Rain', 'No Rain'], 
                yticklabels=['Rain', 'No Rain'], ax=cax)
    cax.set_xlabel('Predicted class')
    cax.set_ylabel('Expected class')
    cax.set_title('Confusion Matrix for Rain Forecast | ' + title)

加载数据并绘制不同分类器的混淆矩阵：

import numpy as np
from sklearn.metrics import confusion_matrix
import seaborn as sns
import dautil as dl

y_test = np.load('rain_y_test.npy')
sp = dl.plotting.Subplotter(2, 2)

plot_cm(y_test, np.load('rfc.npy'), 'Random Forest', sp.ax)
plot_cm(y_test, np.load('bagging.npy'), 'Bagging', sp.next_ax())
plot_cm(y_test, np.load('votes.npy'), 'Votes', sp.next_ax())
plot_cm(y_test, np.load('stacking.npy'), , sp.next_ax())
plt.show()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import numpy as np
from sklearn import metrics
import ch10util
import dautil as dl

y_test = np.load('rain_y_test.npy')
accuracies = [metrics.accuracy_score(y_test, preds) for preds in ch10util.rain_preds()]
precisions = [metrics.precision_score(y_test, preds) for preds in ch10util.rain_preds()]
recalls = [metrics.recall_score(y_test, preds) for preds in ch10util.rain_preds()]
f1s = [metrics.f1_score(y_test, preds) for preds in ch10util.rain_preds()]

from sklearn import metrics
import numpy as np
import ch10util
import dautil as dl

y_test = np.load('rain_y_test.npy')
roc_aucs = [metrics.roc_auc_score(y_test, preds) for preds in ch10util.rain_preds()]

# 绘制 ROC 曲线示例
for preds, label in zip(ch10util.rain_preds(), ch10util.rain_labels()):
    fpr, tpr, _ = metrics.roc_curve(y_test, preds, pos_label=True)
    # 此处应调用绘图函数

import numpy as np
import matplotlib.pyplot as plt
import dautil as dl
import seaborn as sns
from scipy.stats import probplot

residuals = preds - y_test
probplot(residuals, plot=plt.gca())
sns.distplot(residuals, ax=plt.gca())
plt.show()

from sklearn import metrics
import ch10util
import dautil as dl

# 使用自助法评估指标分布
ch10util.plot_bootstrap('boosting', metrics.mean_squared_error, ax)
ch10util.plot_bootstrap('boosting', metrics.median_absolute_error, ax)

import dautil as dl
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

avgs = []
rng = range(2, 9)
for i in rng:
    kmeans = KMeans(n_clusters=i, random_state=37)
    labels = kmeans.fit_predict(X)
    avg = silhouette_score(X, labels)
    avgs.append(avg)

from sklearn.dummy import DummyClassifier

stratified = DummyClassifier(strategy='stratified', random_state=28)
stratified.fit(X_train, y_train)
preds.append(stratified.predict(X_test))

kappas = [metrics.cohen_kappa_score(y_test, preds) for preds in ch10util.rain_preds()]
mc = [metrics.matthews_corrcoef(y_test, preds) for preds in ch10util.rain_preds()]

apt-get update
apt-get install -y cmake make git g++

import cv2
import matplotlib.pyplot as plt
import dautil as dl
from scipy.misc import face

img = face()
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
sift = cv2.xfeatures2d.SIFT_create()
kps, descs = sift.detectAndCompute(gray, None)
img2 = cv2.drawKeypoints(gray, kps, None, (0, 0, 255))
plt.imshow(img2)
plt.show()

criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
for k in [2, 4, 8]:
    _, label, center = cv2.kmeans(Z, k, None, criteria, 10, cv2.KMEANS_RANDOM_CENTERS)
    center = np.uint8(center)
    res = center[label.flatten()]
    res2 = res.reshape((img.shape))
    plt.imshow(res2)
    plt.show()

_, thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_OTSU)
kernel = np.ones((3, 3), np.uint8)
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel, iterations=2)
bg = cv2.dilate(opening, kernel, iterations=3)

face_cascade = cv2.CascadeClassifier(path)
faces = face_cascade.detectMultiScale(img, 1.3, 5)

from numba import jit

@jit(nopython=True)
def jit_version(x, y, z):
    return x**2 + y**2 + z**2

import numexpr as ne
result = ne.evaluate("2 * a ** 3 + 3 * b ** 9")

import concurrent.futures

def parallel(arr, n):
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=8)
    for x in executor.map(bootstrapper.run, range(n)):
        pass

from functools import lru_cache

@lru_cache(maxsize=None)
def cached_func(arg):
    return expensive_computation(arg)

import pyopencl as cl
program = cl.Program(context, """
__kernel void mean_squared_error(__global const float *a, __global const float *b, __global float *result) {
    int gid = get_global_id(0);
    float temp = a[gid] - b[gid];
    result[gid] = temp * temp;
}
""").build()

Python 数据分析进阶：模型评估与图像处理实战

Python 数据分析进阶：模型评估与图像处理实战

评估分类器、回归器和聚类

用混淆矩阵直接分类

更多推荐文章

相关免费在线工具

计算精度、召回率和 F1 分数

检查接收器操作特性 (ROC) 和曲线下面积 (AUC)

可视化拟合优度

计算均方误差和中值绝对误差

用平均轮廓系数评价聚类

与虚拟分类器/回归器进行比较

检验分类的 Kappa 和马修斯相关系数

分析图像

设置 OpenCV

应用尺度不变特征变换 (SIFT) 和 SURF

量化颜色

图像去噪与分割

人脸检测与纹理特征

并行性和性能

用 Numba 进行即时编译

用 Numexpr 加速数值表达式

多线程与并发任务

异步 IO 与分布式处理

内存分析与缓存策略

流式计数与 GPU 加速

更多推荐文章

相关免费在线工具

Python 数据分析进阶：模型评估与图像处理实战

Python 数据分析进阶：模型评估与图像处理实战

评估分类器、回归器和聚类

用混淆矩阵直接分类

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

计算精度、召回率和 F1 分数

检查接收器操作特性 (ROC) 和曲线下面积 (AUC)

可视化拟合优度

计算均方误差和中值绝对误差

用平均轮廓系数评价聚类

与虚拟分类器/回归器进行比较

检验分类的 Kappa 和马修斯相关系数

分析图像

设置 OpenCV

应用尺度不变特征变换 (SIFT) 和 SURF

量化颜色

图像去噪与分割

人脸检测与纹理特征

并行性和性能

用 Numba 进行即时编译

用 Numexpr 加速数值表达式

多线程与并发任务

异步 IO 与分布式处理

内存分析与缓存策略

流式计数与 GPU 加速

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具