机器学习：决策树三兄弟 ID3、C4.5、CART 详解

引言

学习决策树最容易卡在三个地方：

熵（Entropy）到底在算什么？为什么'越乱越大'？
信息增益（Information Gain）怎么就能选出'更好的特征'？
基尼指数（Gini）为什么越小越好？和熵有什么区别？

本文聚焦三种经典决策树算法，并用带数字的例子把指标讲透。

1. 决策树是什么？

决策树是一种树形结构模型：

内部节点：在某个特征上做判断（例如'是否有房？'）
分支：判断结果（有/无）
叶子节点：最终输出（分类标签或回归值）

决策树的建模流程通常是：

特征选择：选一个'最能让数据变纯'的特征做划分
树的生成：递归地继续划分子节点
剪枝：防止树太复杂导致过拟合

生活中的类比也很好理解：比如'相亲决策树'，可能会按'年龄→长相→收入→是否公务员…'一步步筛选，本质也是在不断'缩小不确定性'。

训练一棵树的关键问题只有一个：

当前节点到底选哪个特征来划分，才能让数据变得更'纯'？

于是就出现了三套'衡量纯度/划分好坏'的标准：

ID3：信息增益（Entropy → Information Gain）
C4.5：增益率（Gain Ratio）
CART：基尼指数（Gini）

下面逐个讲清楚。

2. ID3 决策树：信息熵 & 信息增益

2.1 信息熵：为什么'越乱越大'？

信息熵衡量不确定性/混乱程度：

类别分布越平均 → 越不确定 → 熵越大
类别越集中（几乎都是同一类）→ 越确定 → 熵越小

公式（了解含义即可）：

说明：log 的底数取 2（bit）或 e（nat）都可以，只是数值尺度不同，比较大小、选特征的结论不变。

例子 1：α 与 β 谁更'乱'？

数据 α：ABCDEFGH（8 种符号，每个概率 1/8）

文章配图

数据 β：AAAABBCD
A=1/2，B=1/4，C=1/8，D=1/8

文章配图

✅ 结论：α 更乱（熵更大），β 更集中（熵更小）。

算法	核心指标	选择规则	分支方式	典型特点
ID3	信息增益	越大越好	多叉	简单直观，但偏爱取值多特征
C4.5	增益率	越大越好	多叉	用惩罚项修正 ID3 的多值偏好
CART	基尼指数	越小越好	二叉	工程常见；对类别特征常二分组合，对连续特征找阈值

机器学习：决策树三兄弟 ID3、C4.5、CART 详解

引言

1. 决策树是什么？

2. ID3 决策树：信息熵 & 信息增益

2.1 信息熵：为什么'越乱越大'？

例子 1：α 与 β 谁更'乱'？

例子 2：三分类分布的'纯度直觉'

更多推荐文章

相关免费在线工具

2.2 信息增益：ID3 怎么选'最优特征'？

例子：6 条样本手算信息增益

2.3 ID3 的建树流程

2.4 ID3 的缺点（也是 C4.5 出现的原因）

3. C4.5 决策树：增益率（专治 ID3 多值偏好）

3.1 增益率公式（记住'除以惩罚项'即可）

3.2 例子：特征 a 只有 2 个取值，特征 b 有 6 个取值，该选谁？

4. CART 决策树：基尼指数（分类常用）

4.1 基尼指数：怎么理解'越小越纯'？

4.2 例子：是否有房（手算 Gini）

4.3 例子：婚姻状况的二叉切分（CART 的经典特点）

4.4 连续特征怎么切？（年收入）

5. ID3 / C4.5 / CART 总结对比

6. 小结

更多推荐文章

相关免费在线工具

样本	特征 a	目标值
1	α	A
2	α	A
3	β	B
4	α	A
5	β	B
6	α	B

机器学习：决策树三兄弟 ID3、C4.5、CART 详解

引言

1. 决策树是什么？

2. ID3 决策树：信息熵 & 信息增益

2.1 信息熵：为什么'越乱越大'？

例子 1：α 与 β 谁更'乱'？

例子 2：三分类分布的'纯度直觉'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 信息增益：ID3 怎么选'最优特征'？

例子：6 条样本手算信息增益

2.3 ID3 的建树流程

2.4 ID3 的缺点（也是 C4.5 出现的原因）

3. C4.5 决策树：增益率（专治 ID3 多值偏好）

3.1 增益率公式（记住'除以惩罚项'即可）

3.2 例子：特征 a 只有 2 个取值，特征 b 有 6 个取值，该选谁？

4. CART 决策树：基尼指数（分类常用）

4.1 基尼指数：怎么理解'越小越纯'？

4.2 例子：是否有房（手算 Gini）

4.3 例子：婚姻状况的二叉切分（CART 的经典特点）

4.4 连续特征怎么切？（年收入）

5. ID3 / C4.5 / CART 总结对比

6. 小结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具