逻辑回归详解：原理、推导、实现与实战 | 极客日志

PythonAI算法

逻辑回归详解：原理、推导、实现与实战

逻辑回归这一经典二分类算法。内容涵盖核心概念、与线性回归的区别、Sigmoid 函数与概率建模、交叉熵损失函数设计及梯度下降参数求解过程。通过 Python 手动实现与 sklearn 库调用对比，展示了代码实践。此外还讨论了正则化（L1/L2/ElasticNet）解决过拟合、One-vs-Rest 与 One-vs-One 多分类策略、优缺点分析及典型应用场景。文章旨在帮助读者掌握逻辑回归的理论与工程落地能力。

黑客发布于 2026/3/28更新于 2026/7/2848 浏览

引言

逻辑回归（Logistic Regression）是机器学习中经典的二分类算法，虽名为'回归'，实则属于分类模型。它凭借简单高效、可解释性强、泛化能力稳定的特点，在工业界（如风控建模、用户转化预测）和学术研究中被广泛应用。本文将从基础概念切入，深入剖析逻辑回归的数学原理、损失函数设计、参数求解过程，再通过 Python 手动实现与 sklearn 库实操验证，补充正则化优化、多分类拓展及实战注意事项，适合机器学习入门者及需要夯实分类算法基础的开发者阅读。

一、逻辑回归核心概念与定位

1.1 逻辑回归与线性回归的区别

线性回归的核心是拟合自变量与连续因变量的线性关系，输出结果为连续值；而逻辑回归针对分类问题，输出结果是样本属于某一类别的概率（范围 0~1），再通过阈值判断类别。两者的核心差异如下：

对比维度	线性回归	逻辑回归
模型类型	回归模型（无监督）	分类模型（监督学习）
输出范围	$(-\infty, +\infty)$ 连续值	$[0, 1]$ 概率值
损失函数	均方误差（MSE）	交叉熵损失（Cross-Entropy）
适用场景	预测连续值（如房价、销量）	二分类/多分类（如风控、垃圾邮件识别）

1.2 逻辑回归的核心思想

逻辑回归的核心是'将线性回归的输出映射到$[0,1]$区间，转化为分类概率'。具体步骤：

设定阈值（通常为 0.5），若 $p \ge 0.5$ 则判定为正类，否则为负类。

通过 Sigmoid 函数将线性输出 $z$ 映射为概率 $p$，表示样本属于正类的概率；

先构建自变量的线性组合：

$$z = w_0 + w_1x_1 + w_2x_2 + ... + w_dx_d = w^Tx$$

（其中 $w_0$ 为偏置项，$w$ 为权重向量，$x$ 为特征向量）；

二、核心数学原理：Sigmoid 函数与概率建模

2.1 Sigmoid 函数（激活函数）

Sigmoid 函数（也叫 Logistic 函数）是逻辑回归的核心激活函数，其作用是将线性输出 $z$（范围$(-\infty, +\infty)$）压缩到$[0,1]$区间，满足概率的取值要求。

2.1.1 函数公式

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

2.1.2 函数特性

可导性：导数公式简洁，便于后续梯度下降求解，导数为 $$\sigma'(z) = \sigma(z)(1 - \sigma(z))$$。
边界特性：$z \to +\infty$ 时，$\sigma(z) \to 1$；$z \to -\infty$ 时，$\sigma(z) \to 0$；$z=0$ 时，$\sigma(z)=0.5$；
单调性：当 $z$ 增大时，$\sigma(z)$ 单调递增，导数在 $z=0$ 时取得最大值 0.25；

2.1.3 函数可视化

import numpy as np
import matplotlib.pyplot as plt

# 定义 Sigmoid 函数
def sigmoid():
      / ( + np.exp(-z))


z = np.linspace(-, , )
sigma_z = sigmoid(z)


plt.figure(figsize=(, ))
plt.plot(z, sigma_z, , linewidth=)
plt.axvline(x=, color=, linestyle=, alpha=) 
plt.axhline(y=, color=, linestyle=, alpha=) 
plt.xlabel()
plt.ylabel()
plt.title()
plt.grid(, alpha=)
plt.show()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install numpy pandas matplotlib scikit-learn

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 1. 数据加载与预处理（二分类任务）
iris = load_iris()
X = iris.data[:, :2] # 取前 2 个特征，便于可视化
y = iris.target # 筛选前两类（y=0 和 y=1），转为二分类问题
mask = (y == 0) | (y == 1)
X = X[mask]
y = y[mask]

# 标准化（逻辑回归对量纲敏感，必须预处理）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 添加偏置项 x0=1（特征矩阵首列全为 1）
X_scaled = np.hstack([np.ones((X_scaled.shape[0], 1)), X_scaled])

# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42
)

# 2. 定义逻辑回归类（梯度下降实现）
class LogisticRegressionManual:
    def __init__(self, learning_rate=0.01, max_iter=1000, tol=1e-4):
        self.lr = learning_rate # 学习率
        self.max_iter = max_iter # 最大迭代次数
        self.tol = tol # 收敛阈值
        self.w = None # 权重参数（含偏置项）

    # Sigmoid 函数
    def sigmoid(self, z):
        # 避免指数溢出：z 过大时 e^-z 趋近于 0，z 过小时 e^-z 趋近于 +∞
        z = np.clip(z, -100, 100)
        return 1 / (1 + np.exp(-z))

    # 训练模型
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.w = np.zeros(n_features) # 初始化权重为 0
        for _ in range(self.max_iter):
            # 计算线性输出 z 和预测概率
            z = np.dot(X, self.w)
            y_pred_prob = self.sigmoid(z)
            # 计算梯度
            gradient = np.dot(X.T, (y_pred_prob - y)) / n_samples
            # 判断收敛（梯度绝对值最大值小于阈值）
            if np.max(np.abs(gradient)) < self.tol:
                break
            # 更新权重
            self.w -= self.lr * gradient

    # 预测（返回类别标签）
    def predict(self, X):
        z = np.dot(X, self.w)
        y_pred_prob = self.sigmoid(z)
        return np.where(y_pred_prob >= 0.5, 1, 0)

# 3. 训练与评估
lr_manual = LogisticRegressionManual(learning_rate=0.1, max_iter=2000)
lr_manual.fit(X_train, y_train)
y_pred_manual = lr_manual.predict(X_test)

# 计算准确率
acc_manual = accuracy_score(y_test, y_pred_manual)
print(f"手动实现逻辑回归准确率：{acc_manual:.4f}")
print(f"最优权重（含偏置项）：{lr_manual.w}")

# 4. 可视化决策边界
plt.figure(figsize=(8, 6))
# 绘制样本点
plt.scatter(X_test[:, 1], X_test[:, 2], c=y_test, cmap='viridis', edgecolors='black', label='True Label')
# 绘制决策边界 （z=w0 + w1x1 + w2x2 = 0 → x2 = -(w0 + w1x1)/w2）
x1 = np.linspace(X_test[:, 1].min(), X_test[:, 1].max(), 100)
x2 = -(lr_manual.w[0] + lr_manual.w[1] * x1) / lr_manual.w[2]
plt.plot(x1, x2, 'r-', label='Decision Boundary')
plt.xlabel('Feature 1 (Standardized)')
plt.ylabel('Feature 2 (Standardized)')
plt.title('Logistic Regression (Manual Implementation)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# 1. 数据预处理（同上，无需手动添加偏置项，sklearn 自动处理）
# X_train、X_test、y_train、y_test 已在手动实现中定义

# 2. 初始化并训练模型（指定二分类，关闭正则化便于对比手动结果）
lr_sklearn = LogisticRegression(
    penalty='none', # 关闭正则化
    solver='liblinear', # 适合小样本二分类
    random_state=42
)
lr_sklearn.fit(X_train[:, 1:], y_train) # 去掉手动添加的偏置项（sklearn 自动处理）

# 3. 预测与评估
y_pred_sklearn = lr_sklearn.predict(X_test[:, 1:])
acc_sklearn = accuracy_score(y_test, y_pred_sklearn)

# 输出详细评估指标
print(f"sklearn 逻辑回归准确率：{acc_sklearn:.4f}")
print("分类报告：")
print(classification_report(y_test, y_pred_sklearn))
print("混淆矩阵：")
print(confusion_matrix(y_test, y_pred_sklearn))

# 输出模型参数（系数 + 偏置项）
print(f"特征系数：{lr_sklearn.coef_}")
print(f"偏置项：{lr_sklearn.intercept_}")

# 4. 可视化决策边界（与手动实现对比）
plt.figure(figsize=(8, 6))
plt.scatter(X_test[:, 1], X_test[:, 2], c=y_test, cmap='viridis', edgecolors='black', label='True Label')
# 决策边界： w0 + w1x1 + w2x2 = 0 → x2 = -(w0 + w1x1)/w2
x1 = np.linspace(X_test[:, 1].min(), X_test[:, 1].max(), 100)
x2 = -(lr_sklearn.intercept_[0] + lr_sklearn.coef_[0][0] * x1) / lr_sklearn.coef_[0][1]
plt.plot(x1, x2, 'r-', label='Decision Boundary')
plt.xlabel('Feature 1 (Standardized)')
plt.ylabel('Feature 2 (Standardized)')
plt.title('Logistic Regression (sklearn Implementation)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# L1 正则化示例
lr_l1 = LogisticRegression(
    penalty='l1', # L1 正则化
    solver='liblinear', # L1 正则化需搭配 liblinear 求解器
    C=0.1, # 正则化强度倒数（C 越小，正则化越强）
    random_state=42
)
lr_l1.fit(X_train[:, 1:], y_train)

# L2 正则化示例（默认）
lr_l2 = LogisticRegression(
    penalty='l2', # L2 正则化
    solver='liblinear',
    C=0.1,
    random_state=42
)
lr_l2.fit(X_train[:, 1:], y_train)

# 对比权重（L1 会使部分权重趋近于 0）
print("L1 正则化权重：", lr_l1.coef_)
print("L2 正则化权重：", lr_l2.coef_)

# 使用完整鸢尾花数据集（3 分类）
X_full = iris.data
y_full = iris.target
X_full_scaled = scaler.fit_transform(X_full)
X_train_full, X_test_full, y_train_full, y_test_full = train_test_split(
    X_full_scaled, y_full, test_size=0.3, random_state=42
)

# OvR 策略（默认）
lr_ovr = LogisticRegression(
    multi_class='ovr', # 多分类策略：OvR
    solver='liblinear',
    random_state=42
)
lr_ovr.fit(X_train_full, y_train_full)
y_pred_ovr = lr_ovr.predict(X_test_full)

# OvO 策略
lr_ovo = LogisticRegression(
    multi_class='multinomial', # 多分类策略： OvO
    solver='lbfgs', # 需搭配 lbfgs/sag/saga 求解器
    random_state=42
)
lr_ovo.fit(X_train_full, y_train_full)
y_pred_ovo = lr_ovo.predict(X_test_full)

# 评估
print("OvR 准确率：", accuracy_score(y_test_full, y_pred_ovr))
print("OvO 准确率：", accuracy_score(y_test_full, y_pred_ovo))

逻辑回归详解：原理、推导、实现与实战

引言

一、逻辑回归核心概念与定位

1.1 逻辑回归与线性回归的区别

1.2 逻辑回归的核心思想

二、核心数学原理：Sigmoid 函数与概率建模

2.1 Sigmoid 函数（激活函数）

2.1.1 函数公式

2.1.2 函数特性

2.1.3 函数可视化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 概率建模与类别判定

三、损失函数设计与数学推导

3.1 交叉熵损失函数（二分类）

3.1.1 单个样本的损失

3.1.2 全局损失函数（所有样本）

3.2 梯度推导与参数求解（梯度下降法）

3.2.1 梯度计算

3.2.2 梯度下降更新规则

3.2.3 学习率的影响

四、Python 实现逻辑回归（手动实现+sklearn 库）

4.1 环境准备

4.2 手动实现逻辑回归（梯度下降）

4.3 sklearn 库实现逻辑回归（工程首选）

五、正则化：解决逻辑回归过拟合

5.1 常见正则化方式

5.1.1 L1 正则化（Lasso）

5.1.2 L2 正则化（Ridge）

5.1.3 ElasticNet（L1+L2）

5.2 sklearn 中正则化的使用

六、逻辑回归的多分类拓展

6.1 One-vs-Rest（OvR，一对多）

6.2 One-vs-One（OvO，一对一）

6.3 sklearn 多分类实现

七、逻辑回归的优缺点与应用场景

7.1 优点

7.2 缺点

7.3 典型应用场景

八、实战技巧与常见问题

8.1 关键实战技巧

8.2 常见问题与解决方案

九、总结与拓展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具