算法

python数据分析从入门到进阶：分类算法：下（含详细代码）

Ne0inhk

23 Feb 2025 — 9 min read

🍁1.前言

在上一篇文章中，我们介绍了如何对mnist数据集建立一个二分类模型，我们当时解决的问题是给我一张图片，判断是否是数字7，但是我们不仅仅对数字7感兴趣，我们希望给我一张任意的图片，计算机能告诉我这张图片是数字几。这是一个多分类问题。一些算法（如SGD分类器、随机森林分类器和朴素贝叶斯分类器）能处理多个类。其他（如logistic回归）是严格的二元分类器。但是我们可以通过一些策略来实现使用二分类器进行多分类

OvR：一种方法是对于0-9十个类别，我们对每个类建立一个二分类器。判断是否属于该类，具体实现方法是，给我一张图片，分别使用这十个分类器预测属于该类的概率。选择概率最大的那一类作为预测结果
OvO：另一种方法是对于0-9十个类别，每一次选两个类别进行比较，比较属于哪一类的概率更大。对于minist数据集，则必须在所有45个分类器进行比较，看看哪个类赢的最多。OvO的主要优点是，每个分类器只需要在训练集的一部分进行训练，即选择需要区分的两个类的数据集。然而，对于大多数二进制分类算法，OvR是首选。

当我们使用二分类器来处理多分类任务时，sklearn会自动选择OvO或者OvR来处理。例如我们以支持向量机（SVM）为例

🍂 2.从二元分类到多分类

# 导入数据集 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1, as_frame=False)

import numpy as np X, y = mnist["data"], mnist["target"] y = y.astype(np.uint)#更改y数据类型为整数

# 将数据划分为测试集和训练集 X_train,X_test,y_train,y_test = X[:6000],X[6000:],y[:6000],y[6000:]

from sklearn.svm import SVC svm_clf = SVC(gamma="auto", random_state=123) svm_clf.fit(X_train, y_train) # y_train svm_clf.predict([X[0]])

array([5], dtype=uint32)

还记得，我们在分类算法上介绍的，第一张图片是数字5，预测正确. 其实SVC默认是采用了OvR策略，我们通过decision_function可以看到每一个样本有10个scores

some_digit_scores = svm_clf.decision_function([X[0]]) some_digit_scores

array([[ 1.8249344 , 8.01830986, 0.81268669, 4.8465137 , 5.87200033, 9.29462954, 3.8465137 , 6.94086295, -0.21310287, 2.83645231]])

可以看出，最大的是5

np.argmax(some_digit_scores)

# 查看一共有几类 svm_clf.classes_

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint32)

注意：训练分类器时，它会将目标类列表按值排序存储在其classes_属性中。在这种情况下，classes_数组中每个类的索引都可以方便地匹配类本身。在本例中，索引5处的类恰好是类5

下面我们使用随机森林模型看看结果

from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(random_state=123) rf_clf.fit(X_train, y_train) # y_train rf_clf.predict([X[0]])

array([5], dtype=uint32)

🍃3.误差分析

首先看看混淆矩阵。需要使用Cross_val_predict函数进行预测，然后调用confusion_matrix()

from sklearn.metrics import confusion_matrix from sklearn.model_selection import cross_val_predict

首先这里我将X进行标准化处理

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train.astype(np.float64))

y_train_pred = cross_val_predict(svm_clf, X_train_scaled, y_train, cv=3) conf_mx = confusion_matrix(y_train, y_train_pred) conf_mx

array([[576, 0, 4, 2, 3, 2, 2, 0, 3, 0], [ 0, 649, 9, 1, 3, 1, 0, 3, 4, 1], [ 4, 5, 531, 7, 8, 2, 3, 9, 11, 1], [ 0, 5, 28, 542, 2, 14, 1, 9, 5, 2], [ 0, 2, 14, 0, 578, 1, 2, 6, 0, 20], [ 3, 4, 9, 16, 7, 450, 10, 7, 3, 5], [ 3, 2, 23, 0, 2, 7, 567, 2, 2, 0], [ 2, 8, 14, 0, 7, 0, 0, 593, 0, 27], [ 4, 7, 15, 8, 2, 15, 6, 2, 488, 4], [ 4, 2, 9, 7, 13, 2, 0, 25, 3, 536]], dtype=int64)

这是有很多类。使用Matplotlib的matshow（）函数查看混淆矩阵的图像表示通常更方便：

plt.matshow(conf_mx, cmap=plt.cm.gray) plt.show()

www.zeeklog.com - python数据分析从入门到进阶：分类算法：下（含详细代码）

这个混淆矩阵看起来不错，因为大多数图像都在主对角线上，这意味着它们被正确分类。5比其他数字略暗，这可能意味着数据集中5的图像较少，或者分类器在5上的性能不如其他数字。现在我们来比较错误率。

row_sums = conf_mx.sum(axis=1, keepdims=True)#计算数量 norm_conf_mx = conf_mx / row_sums#计算错误率的混淆矩阵

np.fill_diagonal(norm_conf_mx, 0) plt.matshow(norm_conf_mx, cmap=plt.cm.gray) plt.show()

注意，行代表正确的类，列代表预测的列，可以看出2这个数字这一列很亮，说明有很多其他类被误判为2，但是2这一行却又错判为其他类。通过分析混淆矩阵可以让我们深入了解改进分类器的方法。本例中可以先优化数字2，来减少其他数字对2的错判。例如，您可以尝试为看起来像（但不是）的数字收集更多的训练数据，以便分类器可以学习将它们与真实的2区分开来。或者你可以设计一些新的特性来帮助分类器，例如，编写一个算法来计算每个数字圆圈的数量（例如，8有两个，6有一个，5没有）。或者，你可以对图像进行预处理（例如，使用Scikit Image、Pillow或OpenCV），以使某些图案（例如闭合环）更加突出。

分析单个错误也是一种很好的方法，可以了解分类器正在做什么，以及它失败的原因，但这更困难、更耗时。例如，让我们绘制数字5和3

def plot_digits(instances, images_per_row=10, **options): size = 28 images_per_row = min(len(instances), images_per_row)#每一行的数字 n_rows = (len(instances) - 1) // images_per_row + 1 n_empty = n_rows * images_per_row - len(instances) padded_instances = np.concatenate([instances, np.zeros((n_empty, size * size))], axis=0) image_grid = padded_instances.reshape((n_rows, images_per_row, size, size)) big_image = image_grid.transpose(0, 2, 1, 3).reshape(n_rows * size, images_per_row * size) plt.imshow(big_image, cmap = mpl.cm.binary, **options) plt.axis("off")

cl_a, cl_b = 3,5 X_aa = X_train[(y_train == cl_a) & (y_train_pred == cl_a)] X_ab = X_train[(y_train == cl_a) & (y_train_pred == cl_b)] X_ba = X_train[(y_train == cl_b) & (y_train_pred == cl_a)] X_bb = X_train[(y_train == cl_b) & (y_train_pred == cl_b)] plt.figure(figsize=(8,8)) plt.subplot(221); plot_digits(X_aa[:25], images_per_row=5)#每一行五个数字 plt.subplot(222); plot_digits(X_ab[:25], images_per_row=5) plt.subplot(223); plot_digits(X_ba[:25], images_per_row=5) plt.subplot(224); plot_digits(X_bb[:25], images_per_row=5) plt.show()

上面一行第二张图是错把3误判为5，第二行第一幅图是错把5判为3的情况

🌷4. 多标签分类

到目前为止，每个分类器都是分给一个类，在某些情况下，我们可能希望一个分类器输出多个类，例如一个人脸识别器；如果它能识别一个图片多个人，那么这就是一个多标签分类器。下面我们照样以mnist数据集为例, 假设此时我们的目标一个是大于7的数，另一个是偶数。下面使用KNN算法为例

from sklearn.neighbors import KNeighborsClassifier y_train_large = (y_train >= 7) y_train_odd = (y_train % 2 == 0) y_multilabel = np.c_[y_train_large, y_train_odd] knn_clf = KNeighborsClassifier() knn_clf.fit(X_train, y_multilabel)