逻辑回归详解：从原理到代码实现

逻辑回归详解：从原理到代码实现 | 极客日志

步骤	线性回归 (Linear Regression)	逻辑回归 (Logistic Regression)
输出	连续数值	概率值 (0~1)
激活函数	无 (恒等函数)	Sigmoid (1/(1+e^-z))
损失函数	均方误差 (MSE)	交叉熵损失 (Cross-Entropy)
梯度形式	类似，但代入的损失导数不同	形式简洁：1/m * X^T(Ŷ-Y)

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

z = np.linspace(-10, 10, 100)
plt.plot(z, sigmoid(z))
plt.title("Sigmoid 函数：将任意实数映射到 (0,1)")
plt.xlabel("z (线性输出)")
plt.ylabel("Probability (概率)")
plt.grid(True)
plt.show()

pip install numpy pandas matplotlib scikit-learn

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

np.random.seed(42)

# 生成数据：x=复习小时数，y=是否通过 (0/1)
# 假设复习时间越长，通过概率越大
n_samples = 200
X = np.random.uniform(0, 10, (n_samples, 1))  # 0-10 小时

# 构造一个 Sigmoid 关系的概率
true_z = 0.8 * X - 4  # 真实的线性关系
true_prob = 1 / (1 + np.exp(-true_z))
y = (true_prob > np.random.rand(n_samples, 1)).astype(int)  # 根据概率生成 0 或 1

print(f"数据形状：X={X.shape}, y={y.shape}")
print(f"正样本比例：{y.mean():.2f}")

# 可视化原始数据
plt.figure(figsize=(8, 6))
plt.scatter(X, y, alpha=0.6, c=y, cmap='coolwarm', label='样本数据')
plt.xlabel('复习时长 (小时)')
plt.ylabel('是否通过 (0:否，1:是)')
plt.title('复习时长与考试通过率')
plt.yticks([0, 1])
plt.grid(True, alpha=0.3)
plt.show()

数据形状：X=(200, 1), y=(200, 1) 正样本比例：0.49

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

np.random.seed(42)

# 生成数据：x=复习小时数，y=是否通过 (0/1)
n_samples = 200
X = np.random.uniform(0, 10, (n_samples, 1))
true_z = 0.8 * X - 4
true_prob = 1 / (1 + np.exp(-true_z))
y = (true_prob > np.random.rand(n_samples, 1)).astype(int)

print(f"\n{'='*70}")
print("📌 手撕逻辑回归：从零实现")
print("="*70)

class MyLogisticRegression:
    def __init__(self, learning_rate=0.1, n_iterations=1000):
        self.lr = learning_rate
        self.n_iter = n_iterations
        self.w = None
        self.b = None
        self.loss_history = []

    def sigmoid(self, z):
        # 防止溢出，裁剪 z 的值
        z = np.clip(z, -500, 500)
        return 1 / (1 + np.exp(-z))

    def fit(self, X, y):
        m, n = X.shape
        # 初始化参数
        self.w = np.zeros((n, 1))
        self.b = 0

        for i in range(self.n_iter):
            # 1. 前向传播：计算预测概率
            z = np.dot(X, self.w) + self.b
            y_pred = self.sigmoid(z)

            # 2. 计算损失 (交叉熵)
            # 添加微小值 epsilon 防止 log(0)
            epsilon = 1e-15
            loss = -np.mean(y * np.log(y_pred + epsilon) + (1 - y) * np.log(1 - y_pred + epsilon))
            self.loss_history.append(loss)

            # 3. 反向传播：计算梯度
            dw = (1 / m) * np.dot(X.T, (y_pred - y))
            db = (1 / m) * np.sum(y_pred - y)

            # 4. 更新参数
            self.w -= self.lr * dw
            self.b -= self.lr * db

            if i % 100 == 0:
                print(f"迭代 {i}: Loss = {loss:.4f}")

    def predict_proba(self, X):
        z = np.dot(X, self.w) + self.b
        return self.sigmoid(z)

    def predict(self, X, threshold=0.5):
        proba = self.predict_proba(X)
        return (proba >= threshold).astype(int)

# 训练模型
model_hand = MyLogisticRegression(learning_rate=0.5, n_iterations=1000)
model_hand.fit(X, y)

# 预测
y_pred_hand = model_hand.predict(X)
acc_hand = accuracy_score(y, y_pred_hand)

print(f"\n手撕模型结果:")
print(f" 权重 w: {model_hand.w[0][0]:.4f}")
print(f" 偏置 b: {model_hand.b:.4f}")
print(f" 准确率：{acc_hand:.4f}")

# 可视化决策边界
x_line = np.linspace(0, 10, 100).reshape(-1, 1)
prob_line = model_hand.predict_proba(x_line)

plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X, y, alpha=0.6, c=y, cmap='coolwarm')
plt.plot(x_line, prob_line, 'r-', linewidth=2, label='预测概率曲线')
plt.axhline(0.5, color='gray', linestyle='--', label='决策阈值 (0.5)')
plt.xlabel('复习时长')
plt.ylabel('概率 / 标签')
plt.title('Sigmoid 概率曲线与决策边界')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.plot(model_hand.loss_history)
plt.xlabel('迭代次数')
plt.ylabel('交叉熵损失')
plt.title('损失函数收敛过程')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

数据形状：X=(200, 1), y=(200, 1) 正样本比例：0.49
======================================================================
📌 手撕逻辑回归：从零实现
======================================================================
迭代 0: Loss = 0.6931
迭代 100: Loss = 0.3991
迭代 200: Loss = 0.3940
迭代 300: Loss = 0.3936
迭代 400: Loss = 0.3935
迭代 500: Loss = 0.3935
迭代 600: Loss = 0.3935
迭代 700: Loss = 0.3935
迭代 800: Loss = 0.3935
迭代 900: Loss = 0.3935
手撕模型结果:
 权重 w: 0.7430
 偏置 b: -3.5882
 准确率：0.8250

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

np.random.seed(42)

# 生成数据：x=复习小时数，y=是否通过 (0/1)
n_samples = 200
X = np.random.uniform(0, 10, (n_samples, 1))
true_z = 0.8 * X - 4
true_prob = 1 / (1 + np.exp(-true_z))
y = (true_prob > np.random.rand(n_samples, 1)).astype(int)

print(f"\n{'='*70}")
print("📌 sklearn 实现：工业级调用")
print("="*70)

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 划分数据集（严谨做法）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
# solver='lbfgs' 是默认优化算法，适合中小数据集
model_sk = LogisticRegression(solver='lbfgs', max_iter=1000)
model_sk.fit(X_train, y_train)

# 预测
y_pred_sk = model_sk.predict(X_test)
y_prob_sk = model_sk.predict_proba(X_test)[:, 1]  # 获取正类的概率

# 评估
acc_sk = accuracy_score(y_test, y_pred_sk)

print(f"sklearn 模型结果:")
print(f" 权重 w: {model_sk.coef_[0][0]:.4f}")
print(f" 偏置 b: {model_sk.intercept_[0]:.4f}")
print(f" 测试集准确率：{acc_sk:.4f}")

# 详细报告
print("\n分类报告:")
print(classification_report(y_test, y_pred_sk, target_names=['未通过', '通过']))

# 混淆矩阵
cm = confusion_matrix(y_test, y_pred_sk)
print(f"混淆矩阵:\n{cm}")

======================================================================
📌 sklearn 实现：工业级调用
======================================================================
sklearn 模型结果:
 权重 w: 0.7289
 偏置 b: -3.4579
 测试集准确率：0.8250
分类报告:
 precision recall f1-score support
未通过 0.85 0.81 0.83 21
通过 0.80 0.84 0.82 19
accuracy 0.82 40
macro avg 0.82 0.83 0.82 40
weighted avg 0.83 0.82 0.83 40
混淆矩阵:
[[17 4]
 [ 3 16]]

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("\n" + "="*70)
print("📌 进阶：多分类实战（鸢尾花数据集）")
print("="*70)

# 加载数据
iris = load_iris()
X_iris = iris.data[:, :2]  # 只取前两个特征方便可视化
y_iris = iris.target

# 逻辑回归对特征缩放敏感，建议标准化
scaler = StandardScaler()
X_iris_scaled = scaler.fit_transform(X_iris)

# 训练多分类模型
# 【修复点】：移除了 multi_class='ovr' 参数，因为新版 sklearn 已废弃该参数
# 新版默认就是 ovr 策略
model_multi = LogisticRegression(solver='lbfgs', max_iter=1000)
model_multi.fit(X_iris_scaled, y_iris)

print(f"特征名称：{iris.feature_names[:2]}")
print(f"类别：{iris.target_names}")
print(f"模型权重形状：{model_multi.coef_.shape} (3 个分类器，每个 2 个特征)")

# 可视化决策边界
h = 0.02
x_min, x_max = X_iris_scaled[:, 0].min() - 1, X_iris_scaled[:, 0].max() + 1
y_min, y_max = X_iris_scaled[:, 1].min() - 1, X_iris_scaled[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = model_multi.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.figure(figsize=(8, 6))
# 使用 viridis colormap
plt.contourf(xx, yy, Z, alpha=0.3, cmap='viridis')
scatter = plt.scatter(X_iris_scaled[:, 0], X_iris_scaled[:, 1], c=y_iris, edgecolors='k', cmap='viridis')

# 添加图例说明颜色对应的类别
handles, _ = scatter.legend_elements()
labels = [iris.target_names[i] for i in range(len(iris.target_names))]
plt.legend(handles, labels, title="Classes")

plt.xlabel(iris.feature_names[0] + " (标准化后)")
plt.ylabel(iris.feature_names[1] + " (标准化后)")
plt.title('逻辑回归多分类决策边界 (OvR)')
plt.show()

print(f"多分类准确率：{model_multi.score(X_iris_scaled, y_iris):.4f}")

# 可选：打印详细分类报告
y_pred = model_multi.predict(X_iris_scaled)
print("\n分类报告:")
print(classification_report(y_iris, y_pred, target_names=iris.target_names))

======================================================================
📌 进阶：多分类实战（鸢尾花数据集）
======================================================================
特征名称：['sepal length (cm)', 'sepal width (cm)']
类别：['setosa' 'versicolor' 'virginica']
模型权重形状：(3, 2) (3 个分类器，每个 2 个特征)
多分类准确率：0.8133
分类报告:
 precision recall f1-score support
setosa 1.00 0.98 0.99 50
versicolor 0.71 0.74 0.73 50
virginica 0.73 0.72 0.73 50
accuracy 0.81 150
macro avg 0.82 0.81 0.81 150
weighted avg 0.82 0.81 0.81 150

项目	线性回归	逻辑回归
任务	回归（连续值）	分类（0/1 概率）
输出	任意实数	0~1 概率
核心函数	无	Sigmoid
损失函数	MSE	交叉熵
优化	最小二乘 / 梯度下降	梯度下降
可解释	高	极高

逻辑回归详解：从原理到代码实现

逻辑回归：别看叫回归，其实是分类

为什么逻辑回归是工业界最稳定的分类模型？

第一部分：先搞懂：为什么叫'回归'却是'分类'？

1.1 名字的由来：历史的误会

1.2 核心思想：从'预测数值'到'预测概率'

1.3 训练过程：和线性回归几乎一样

第 1 步：初始化参数

第 2 步：前向传播 (Forward Pass)

第 3 步：计算损失 (Loss Calculation)

更多推荐文章

相关免费在线工具

第 4 步：反向传播与参数更新 (Backward Pass & Update)

第 5 步：迭代收敛

第二部分：核心原理——三个关键组件

2.1 激活函数：Sigmoid（把数值变概率）

2.2 损失函数：交叉熵（Cross-Entropy）

2.3 优化算法：梯度下降

第三部分：实战演练——从零手撕逻辑回归

环境准备

3.1 第一步：生成二分类模拟数据

3.2 第二步：手撕逻辑回归（核心代码）

3.3 第三步：sklearn 实现（工业级标准）

第四部分：进阶——多分类问题（OvR vs OvO）

4.1 策略一：One-vs-Rest (OvR) —— 一对多

4.2 策略二：One-vs-One (OvO) —— 一对一

4.3 代码演示：鸢尾花多分类

第五部分：常见问题与避坑指南

Q1：为什么逻辑回归对异常值敏感？

Q2：为什么要做特征缩放（StandardScaler）？

Q3：逻辑回归能处理非线性关系吗？

Q4：正则化（Regularization）是什么？

写在最后：为什么它依然是王者？

核心要点回顾

逻辑回归和线性回归的对比总结

更多推荐文章

相关免费在线工具

逻辑回归详解：从原理到代码实现

逻辑回归：别看叫回归，其实是分类

为什么逻辑回归是工业界最稳定的分类模型？

第一部分：先搞懂：为什么叫'回归'却是'分类'？

1.1 名字的由来：历史的误会

1.2 核心思想：从'预测数值'到'预测概率'

1.3 训练过程：和线性回归几乎一样

第 1 步：初始化参数

第 2 步：前向传播 (Forward Pass)

第 3 步：计算损失 (Loss Calculation)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第 4 步：反向传播与参数更新 (Backward Pass & Update)

第 5 步：迭代收敛

第二部分：核心原理——三个关键组件

2.1 激活函数：Sigmoid（把数值变概率）

2.2 损失函数：交叉熵（Cross-Entropy）

2.3 优化算法：梯度下降

第三部分：实战演练——从零手撕逻辑回归

环境准备

3.1 第一步：生成二分类模拟数据

3.2 第二步：手撕逻辑回归（核心代码）

3.3 第三步：sklearn 实现（工业级标准）

第四部分：进阶——多分类问题（OvR vs OvO）

4.1 策略一：One-vs-Rest (OvR) —— 一对多

4.2 策略二：One-vs-One (OvO) —— 一对一

4.3 代码演示：鸢尾花多分类

第五部分：常见问题与避坑指南

Q1：为什么逻辑回归对异常值敏感？

Q2：为什么要做特征缩放（StandardScaler）？

Q3：逻辑回归能处理非线性关系吗？

Q4：正则化（Regularization）是什么？

写在最后：为什么它依然是王者？

核心要点回顾

逻辑回归和线性回归的对比总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具