引言
学习决策树最容易卡在三个地方:
- 熵(Entropy)到底在算什么?为什么'越乱越大'?
- 信息增益(Information Gain)怎么就能选出'更好的特征'?
- 基尼指数(Gini)为什么越小越好?和熵有什么区别?
本文聚焦三种经典决策树算法,并用带数字的例子把指标讲透。
1. 决策树是什么?
决策树是一种树形结构模型:
- 内部节点:在某个特征上做判断(例如'是否有房?')
- 分支:判断结果(有/无)
- 叶子节点:最终输出(分类标签或回归值)
决策树的建模流程通常是:
- 特征选择:选一个'最能让数据变纯'的特征做划分
- 树的生成:递归地继续划分子节点
- 剪枝:防止树太复杂导致过拟合
生活中的类比也很好理解:比如'相亲决策树',可能会按'年龄→长相→收入→是否公务员…'一步步筛选,本质也是在不断'缩小不确定性'。
训练一棵树的关键问题只有一个:
当前节点到底选哪个特征来划分,才能让数据变得更'纯'?
于是就出现了三套'衡量纯度/划分好坏'的标准:
- ID3:信息增益(Entropy → Information Gain)
- C4.5:增益率(Gain Ratio)
- CART:基尼指数(Gini)
下面逐个讲清楚。
2. ID3 决策树:信息熵 & 信息增益
2.1 信息熵:为什么'越乱越大'?
信息熵衡量不确定性/混乱程度:
- 类别分布越平均 → 越不确定 → 熵越大
- 类别越集中(几乎都是同一类)→ 越确定 → 熵越小
公式(了解含义即可):
说明:log 的底数取 2(bit)或 e(nat)都可以,只是数值尺度不同,比较大小、选特征的结论不变。
例子 1:α 与 β 谁更'乱'?
- 数据 α:
ABCDEFGH(8 种符号,每个概率 1/8)

- 数据 β:
AAAABBCD
A=1/2,B=1/4,C=1/8,D=1/8

✅ 结论:α 更乱(熵更大),β 更集中(熵更小)。



















