机器学习：逻辑回归算法原理与实战

概要介绍

文章配图

对于逻辑回归我们可以从一个问题入手，到底什么是逻辑回归的算法思想？

面试官问'请描述逻辑回归的算法思想'这个问题时，其实是在考察你对这个基础模型的本质理解——是只会调用 sklearn.linear_model.LogisticRegression，还是真正明白它为什么叫'回归'却做分类，它的核心在算什么。

'逻辑回归虽然名字里有'回归'，但它实际上是一种用于解决二分类问题的线性模型。它的核心思想是：先拟合决策边界（线性回归的活儿），再把线性输出映射到 0 到 1 之间的概率 (Sigmoid 函数的活儿），最后根据概率进行分类。'

文章配图

所以，逻辑回归的核心思想可以概括为：线性回归 + Sigmoid 转换 + 最大似然估计。它简单、可解释性强、训练快，是很多复杂模型（如神经网络、推荐系统）的基础组件。

逻辑回归模型介绍：

概述：属于有监督学习，即有特征、有标签，且标签是离散的。主要适用于二分类，是分类算法的一种。
原理：把线性回归处理后的预测值 -> 通过 Sigmoid 激活函数，映射到 [0, 1] 概率 -> 基于自定义的阈值，结合概率来分类。
1. 基于线性回归，结合特征值，计算出标签值。
2. 把上述算出来的标签值传给激活函数 (Sigmoid)，映射成 [0, 1] 区间的值。
3. 结合手动设置的阈值，来划分区间即可。例如：阈值 = 0.6，则结果 > 0.6 为 A 类，否则 B 类。
损失函数：极大似然估计函数的负数形式，先基于极大似然函数计算，然后转成对数似然函数，结合梯度下降，计算最小值即可。
总结：
1. 逻辑回归原理：把线性回归的输出，作为逻辑回归的输入。
2. 默认情况下：采用样本少的当做正例，其它是反例 (也叫假例)。
3. 损失函数的设计原则：真实例子是正例的情况下，概率值越大越好。

理解分类评估方法并进行详细的描述：

准确率：所有样本中预测正确的样本比例 (包括正例和反例)。
精确率：预测为正例样本中真正例样本的比例，查准率。
召回率：真实为正例的样本中，预测为正例样本的比例，查全率。
F1-score：精确率和召回率的组合。
ROC 曲线和 AUC 指标：
- ROC 是以 FPR(FP/ALL_反例) 和 TPR(TP/ALL_正例) 绘制的模型评估曲线。
- AUC 是 ROC 曲线下面积，取值在 0-1 之间，一般是大于 0.5 的，表示模型的评估能力如何，越接近 1 越优秀。

""" 案例：癌症预测案例，目的：演示逻辑回归相关 API。逻辑回归：概述：它属于分类算法的一种，一般用于二分法。原理： 1. 基于线性回归，结合特征值，计算出标签值。 2. 把上述算出来的标签值传给激活函数 (Sigmoid)，映射成 [0, 1] 区间的值。 3. 结合手动设置的阈值，来划分区间即可。损失函数：先基于极大似然函数计算，然后转成对数似然函数，结合梯度下降，计算最小值即可。 """ # 导包 import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 1. 准备数据 data = pd.read_csv('./data/breast-cancer-wisconsin.csv') data.info() # 699 行 * 11 列，看不到空值，因为有？标记。 # 2. 数据的预处理 # 2.1 用 np.NaN 来替换？ data = data.replace('?', np.nan) data.info() # 2.2 因为有缺失值，但是缺失值不多，我们删除即可。按行删除。 data.dropna(axis=0, inplace=True) data.info() # 3. 特征工程 # 3.1 获取特征值和目标值 (标签值) x = data.iloc[:, 1:-1] # 从索引为 1 的列开始获取，直至最后一列 (不包括) y = data.Class # 3.2 查看结果 print(len(x), len(y)) print(x.head(10)) print(y.head(10)) # 3.3 拆分训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=22) # 3.4 数据集相差不大，可以不做标准化处理，但是为了让步骤更完整，我们还是做一下。 transfer = StandardScaler() x_train = transfer.fit_transform(x_train) x_test = transfer.transform(x_test) # 4. 模型训练 # 4.1 创建模型，逻辑回归模型 estimator = LogisticRegression() # 4.2 训练模型 estimator.fit(x_train, y_train) # 5. 模型预测 y_predict = estimator.predict(x_test) print(f'预测值：{y_predict}') # 6. 模型评估 print(f'准确率：{estimator.score(x_test, y_test)}') print(f'准确率：{accuracy_score(y_test, y_predict)}')

""" 案例：演示混淆矩阵和精确率、召回率、F1 值。混淆矩阵：概述：用来描述真实值和预测值之间关系的。图解：预测标签 (正例) | 预测标签 (反例) 真实标签 (正例) | 真正例 (TP) | 伪反例 (FN) 真实标签 (反例) | 伪正例 (FP) | 真反例 (TN) 单词：True: 真，False: 假 (伪)，Positive: 正例，Negative: 反例结论： 1. 模拟使用分类少的充当正例。 2. 精确率 = 真正例在预测正例中的占比，即：tp / (tp + fp) 3. 召回率 = 真正例在真实正例中的占比，即：tp / (tp + fn) 4. F1 值 = 2 * (精确率 * 召回率) / (精确率 + 召回率) """ import pandas as pd from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score # 需求：已知有 10 个样本，6 个恶性肿瘤 (正例)，4 个良性肿瘤 (反例)。 # 模型 A 预测结果为：预测对了 3 个恶性肿瘤，预测对了 4 个良性肿瘤 # 模型 B 预测结果为：预测对了 6 个恶性肿瘤，预测对了 1 个良性肿瘤 # 1. 定义变量，记录：样本数据 y_train = ['恶性', '恶性', '恶性', '恶性', '恶性', '恶性', '良性', '良性', '良性', '良性'] # 2. 定义变量，记录：模型 A 的预测结果 y_pred_A = ['恶性', '恶性', '恶性', '良性', '良性', '良性', '良性', '良性', '良性', '良性'] # 3. 定义变量，记录：模型 B 的预测结果 y_pred_B = ['恶性', '恶性', '恶性', '恶性', '恶性', '恶性', '良性', '恶性', '恶性', '恶性'] # 4. 用标签标记正例，反例 label = ['恶性', '良性'] df_label = ['恶性 (正例)', '良性 (反例)'] # 5. 针对于真实值 (y_train) 和模型 A 的预测结果 (y_pred_A)，搭建混淆矩阵 cm_A = confusion_matrix(y_train, y_pred_A, labels=label) print(f'混淆矩阵 A:\n {cm_A}') # 6. 为了测试结果更好看，把上述的混淆矩阵转换成 DataFrame df_A = pd.DataFrame(cm_A, index=df_label, columns=df_label) print(f'混淆矩阵 A 的 DataFrame 对象形式：\n {df_A}') # 7. 针对于真实值 (y_train) 和模型 B 的预测结果 (y_pred_B)，搭建混淆矩阵 cm_B = confusion_matrix(y_train, y_pred_B, labels=label) print(f'混淆矩阵 B:\n {cm_B}') # 8. 为了测试结果更好看，把上述的混淆矩阵转换成 DataFrame df_B = pd.DataFrame(cm_B, index=df_label, columns=df_label) print(f'混淆矩阵 B 的 DataFrame 对象形式：\n {df_B}') # 9. 计算 A 模型的精确率、召回率、F1 值 print(f'模型 A 精确率：{precision_score(y_train, y_pred_A, pos_label="恶性")}') print(f'模型 A 召回率：{recall_score(y_train, y_pred_A, pos_label="恶性")}') print(f'模型 A F1 值：{f1_score(y_train, y_pred_A, pos_label="恶性")}') # 10. 计算 B 模型的精确率、召回率、F1 值 print(f'模型 B 精确率：{precision_score(y_train, y_pred_B, pos_label="恶性")}') print(f'模型 B 召回率：{recall_score(y_train, y_pred_B, pos_label="恶性")}') print(f'模型 B F1 值：{f1_score(y_train, y_pred_B, pos_label="恶性")}')

""" 案例：电信客户流失分析。目的： 1. 演示逻辑回归的相关操作，主要是：二分法 (流失，不流失) 2. 演示逻辑回归的评估操作，主要是：混淆矩阵、准确率、召回率、F1 值、ROC 曲线、AUC 值、分类评估报告 """ import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, classification_report from sklearn.model_selection import train_test_split def dm01_数据预处理(): # 1. 读取数据 data = pd.read_csv('./data/churn.csv') data.info() # 2. 因为上述的 Churn, gender 是字符串类型，我们对其做热编码 (one-hot) 处理 data = pd.get_dummies(data) data.info() print(data.head(10)) # 3. 删除列，因为热编码之后，会多出一个列，我们删除掉 data.drop(['gender_Male', 'Churn_No'], axis=1, inplace=True) print(data.head(10)) # 4. 修改列名 data.rename(columns={'Churn_Yes': 'flag'}, inplace=True) print(data.head(10)) # 5. 查看下数据集中，标签是否是均衡的 print(data.flag.value_counts()) # False -> 不流失，True -> 流失 def dm02_会员流失可视化情况(): data = pd.read_csv('./data/churn.csv') data = pd.get_dummies(data) data.drop(['gender_Male', 'Churn_No'], axis=1, inplace=True) data.rename(columns={'Churn_Yes': 'flag'}, inplace=True) print(data.flag.value_counts()) print(data.columns) # 通过计数柱状图，绘制 (月度) 会员的流失情况 sns.countplot(data, x='Contract_Month', hue='flag') plt.show() def dm03_逻辑回归模型训练评估(): data = pd.read_csv('./data/churn.csv') data = pd.get_dummies(data) data.drop(['gender_Male', 'Churn_No'], axis=1, inplace=True) data.rename(columns={'Churn_Yes': 'flag'}, inplace=True) # 特征列和标签列 x = data[['Contract_Month', 'PaymentElectronic', 'internet_other']] y = data['flag'] # 拆分训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=22) # 创建逻辑回归模型，并训练 estimator = LogisticRegression() estimator.fit(x_train, y_train) # 模型预测 y_predict = estimator.predict(x_test) print(f'预测值为：{y_predict}') # 模型评估 print(f'准确率：{estimator.score(x_test, y_test)}') print(f'精确率：{precision_score(y_test, y_predict)}') print(f'召回率：{recall_score(y_test, y_predict)}') print(f'F1 值：{f1_score(y_test, y_predict)}') print(f'roc 曲线：{roc_auc_score(y_test, y_predict)}') print(f'分类评估报告：{classification_report(y_test, y_predict)}') if __name__ == '__main__': dm03_逻辑回归模型训练评估()

机器学习：逻辑回归算法原理与实战

概要介绍

更多推荐文章

相关免费在线工具

入门案例

混淆矩阵 - 精确率 - 召回率

ROC 曲线的绘制

客户流失案例分析

一、分类评估报告参数详解

1. 行（类别）

2. 列（评估指标）

二、底层三行汇总指标解读

1. `accuracy` (准确率)

2. `macro avg` (宏平均)

3. `weighted avg` (加权平均)

三、结合代码和业务场景的分析

1. 业务背景

2. 模型表现分析

3. 代码逻辑印证

四、总结与优化建议

更多推荐文章

相关免费在线工具

机器学习：逻辑回归算法原理与实战

概要介绍

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

入门案例

混淆矩阵 - 精确率 - 召回率

ROC 曲线的绘制

客户流失案例分析

一、分类评估报告参数详解

1. 行（类别）

2. 列（评估指标）

二、底层三行汇总指标解读

1. accuracy (准确率)

2. macro avg (宏平均)

3. weighted avg (加权平均)

三、结合代码和业务场景的分析

1. 业务背景

2. 模型表现分析

3. 代码逻辑印证

四、总结与优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. `accuracy` (准确率)

2. `macro avg` (宏平均)

3. `weighted avg` (加权平均)