机器学习中的逻辑回归

什么是逻辑回归？

想象一下，你在玩一个游戏：根据一些线索，猜一个人是'猫派'还是'狗派'。机器学习里的逻辑回归（Logistic Regression）就是这样一个'猜分类'的算法。它不是用来预测连续的数字（比如房价），而是用来预测'属于哪一类'的概率，比如'是'或'否'、'spam 邮件'还是'正常邮件'。

它叫'回归'，但其实是分类算法，因为它基于线性回归，但加了个'魔法'来处理分类问题。简单说，它先用一条直线拟合数据，然后把结果挤压成 0 到 1 之间的概率。

线性回归 vs 逻辑回归：为什么需要区别？

线性回归就像画一条直线来预测连续值，比如根据房子大小预测价格。但如果用它来分类，比如预测'是否会下雨'（0 或 1），它可能会给出负数或大于 1 的值，这没意义。

逻辑回归解决了这个问题：它用同样的直线，但输出不是直接的数值，而是概率。

线性回归与逻辑回归对比

如上图所示，线性回归的线可以无限延伸，而逻辑回归的输出被限制在 0 和 1 之间，看起来像一条 S 形的曲线。

Sigmoid 函数：逻辑回归的核心'魔法'

逻辑回归的秘密武器是 Sigmoid 函数。它把线性方程的输出（叫 $z = w^\top x + b$，其中 $w$ 是权重，$x$ 是特征，$b$ 是偏置）转化成概率。

公式如下：

$$\phi(z) = \frac{1}{1 + e^{-z}}$$

如果 $z$ 很大正数，$\phi(z)$ 接近 1（比如'很可能属于这一类'）。
如果 $z$ 很大负数，$\phi(z)$ 接近 0。
如果 $z=0$，$\phi(z)=0.5$（不确定）。

这就像一个'挤压机'，把无限的直线输出挤成 0-1 的概率曲线。

Sigmoid 函数曲线

这张图画的是 Sigmoid（逻辑）函数：

$$\phi(z) = \frac{1}{1+e^{-z}}$$

纵轴是 $\phi(z)$（被'压缩'到 0∼1 之间）
曲线是典型的 S 型：$z$ 很大时输出接近 1；$z$ 很小时输出接近 0；在 $z=0$ 时刚好 $\phi(0)=0.5$

横轴是 $z$（可以取任意实数，$-\infty \sim +\infty$）

这正是机器学习里 逻辑回归（Logistic Regression） 的核心：把'线性打分'变成'概率'。

1) 逻辑回归在做什么？

逻辑回归用于 二分类（比如：垃圾邮件/非垃圾邮件，违约/不违约）。

它先算一个线性组合：

$$z = w^\top x + b$$

$x$：特征向量（比如邮箱里'中奖''免费'等词出现次数）
$w$：权重（每个特征的重要性）
$b$：偏置（整体阈值）

然后把这个 $z$ 丢进图里的 Sigmoid：

$$p(y=1\mid x) = \phi(z) = \frac{1}{1+e^{-(w^\top x+b)}}$$

于是输出就成了一个概率：

接近 1：更像正类 $y=1$
接近 0：更像负类 $y=0$

2) 决策边界：为什么图里 $z=0$ 很关键？

因为 $\phi(0)=0.5$。常见分类规则是：

机器学习中的逻辑回归

什么是逻辑回归？

线性回归 vs 逻辑回归：为什么需要区别？

Sigmoid 函数：逻辑回归的核心'魔法'

1) 逻辑回归在做什么？

2) 决策边界：为什么图里 $z=0$ 很关键？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3) 它为什么叫'回归'，但在做'分类'？

4) 训练时学什么？用什么损失函数？

5) 图里'S 型'还暗示了两个很重要的性质

6) 正则化：防止'权重太极端'

7) 多分类怎么办？

手动计算示例

例子设定（二分类：垃圾邮件=1，正常邮件=0）

样本 A：$x=[2,1]$（'免费'2 次，'会议'1 次）

1) 算 $z$

2) 算概率 $p=\sigma(1.4)$

3) 做分类（阈值 0.5）

顺便算一下'这次预测有多好'：交叉熵损失

样本 B：$x=[0,3]$（'免费'0 次，'会议'3 次）

1) 算 $z$

2) 算概率

这张图里'$z=0$ 对应 0.5'的意义（决策边界）

训练过程演示（SGD & Mini-batch）

1) 关键结论：逻辑回归的梯度特别简单

2) 对样本 A 做一次 SGD（假设真实是垃圾邮件 $y=1$）

(1) 误差项

(2) 梯度

(3) 用学习率 $\eta=0.1$ 更新（SGD）

3) 对样本 B 做一次 SGD（假设真实是正常邮件 $y=0$）

(1) 误差项

(2) 梯度

(3) 学习率 $\eta=0.1$ 更新（从原始参数出发演示）

4) mini-batch：求平均梯度

平均的 $g_w$

平均的 $g_b$

5) 用平均梯度更新一次参数

6) （可选验证）更新后概率有没有'往对的方向走'？

样本 A（希望更接近 1）

样本 B（希望更接近 0）

直观理解

1. 整体原理：像一个天气预报 App

2. Sigmoid 函数：像一个懒洋洋的开关灯

3. 决策边界：像球场上的中场线

4. 损失函数和训练：像打高尔夫找洞

5. 优点与局限：像一把瑞士军刀

总结：逻辑回归的优点和局限

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具