决策树（Decision Tree）详解：数学原理、算法对比与 Python 代码实现

一、决策树是什么？

决策树是一种监督学习算法，既可用于分类（Classification）也可用于回归（Regression）。它通过一系列的**'条件判断'将数据集划分成不同的子集，最终在树的叶节点给出类别或数值预测**。

结构直观：类似流程图或**'二十问'游戏**，每个节点是一次特征判断，每个分支是判断结果，叶节点给出最终决策。
可解释性强：每一步决策都可追溯，便于业务理解和模型解释。

二、决策树的基本结构

根节点（Root Node）：包含全部数据，进行第一次特征划分。
分支（Branch/Edge）：根据判断结果分流数据。
叶节点（Leaf Node）：终点，给出类别或数值预测。

内部节点（Internal Node）：对某个特征做条件判断（如 $X_1 < 5$）。

例如：

判断**'天气'是否晴朗**，若是则继续判断'温度'，否则直接输出'不要出门'。

三、决策树的核心思想：分裂与纯度

1. 递归划分

从根节点出发，递归地选择**'最佳特征'进行分裂，使得每次分裂后子集的'纯度'**最大化。
纯度高意味着子集中的样本大多属于同一类别。

2. 纯度度量

常用的纯度指标有：

方差（Variance）（回归树）：

$Var(S) = \frac{1}{n} \sum_{i=1}^n (y_i - \overline{y})^2$

基尼指数（Gini Index）：

$Gini(S) = 1 - \sum_{i=1}^C p_i^2$

信息熵（Entropy）：

$H(S) = -\sum_{i=1}^C p_i \log_2 p_i$

$p_i$ 为第 $i$ 类样本在 $S$ 中的比例。

3. 信息增益（Information Gain）

衡量分裂前后纯度提升的程度，信息增益越大，分裂越有效。

$IG(S, A) = H(S) - \sum_{v \in \text{values}(A)} \frac{|S_v|}{|S|} H(S_v)$

一、决策树是什么？

结构直观：类似流程图或**'二十问'游戏**，每个节点是一次特征判断，每个分支是判断结果，叶节点给出最终决策。
可解释性强：每一步决策都可追溯，便于业务理解和模型解释。

二、决策树的基本结构

根节点（Root Node）：包含全部数据，进行第一次特征划分。
分支（Branch/Edge）：根据判断结果分流数据。
叶节点（Leaf Node）：终点，给出类别或数值预测。

内部节点（Internal Node）：对某个特征做条件判断（如 $X_1 < 5$）。

例如：

判断**'天气'是否晴朗**，若是则继续判断'温度'，否则直接输出'不要出门'。

三、决策树的核心思想：分裂与纯度

1. 递归划分

从根节点出发，递归地选择**'最佳特征'进行分裂，使得每次分裂后子集的'纯度'**最大化。
纯度高意味着子集中的样本大多属于同一类别。

2. 纯度度量

常用的纯度指标有：

方差（Variance）（回归树）：

$Var(S) = \frac{1}{n} \sum_{i=1}^n (y_i - \overline{y})^2$

基尼指数（Gini Index）：

$Gini(S) = 1 - \sum_{i=1}^C p_i^2$

信息熵（Entropy）：

$H(S) = -\sum_{i=1}^C p_i \log_2 p_i$

$p_i$ 为第 $i$ 类样本在 $S$ 中的比例。

3. 信息增益（Information Gain）

衡量分裂前后纯度提升的程度，信息增益越大，分裂越有效。

$IG(S, A) = H(S) - \sum_{v \in \text{values}(A)} \frac{|S_v|}{|S|} H(S_v)$

算法	分裂标准	支持特征类型	树结构	主要应用	优缺点
ID3	信息增益	离散特征	多叉树	分类	简单易懂，偏向多值特征，不支持连续特征
C4.5	信息增益率	离散 + 连续特征	多叉树	分类	支持连续特征和缺失值，泛化能力强
CART	基尼指数（分类）/方差（回归）	离散 + 连续特征	二叉树	分类 + 回归	通用性强，支持回归，结构简单

决策树（Decision Tree）详解：数学原理、算法对比与 Python 代码实现

一、决策树是什么？

二、决策树的基本结构

三、决策树的核心思想：分裂与纯度

1. 递归划分

2. 纯度度量

3. 信息增益（Information Gain）

决策树（Decision Tree）详解：数学原理、算法对比与 Python 代码实现

一、决策树是什么？

二、决策树的基本结构

三、决策树的核心思想：分裂与纯度

1. 递归划分

2. 纯度度量

3. 信息增益（Information Gain）

更多推荐文章

相关免费在线工具

四、决策树的常见算法详解

1. ID3 算法

2. C4.5 算法

3. CART 算法（Classification and Regression Trees）

小结对比表

五、决策树的优缺点与工程角色

优点

缺点

工程角色

六、决策树的构建流程与数学推导

1. 树的递归生长流程

2. 数学推导示例：信息增益

七、决策树的代码实现与可视化

1. 分类决策树代码示例

2. 回归决策树代码示例

八、工程与教学启示

九、结论

更多推荐文章

相关免费在线工具

决策树（Decision Tree）详解：数学原理、算法对比与 Python 代码实现

一、决策树是什么？

二、决策树的基本结构

三、决策树的核心思想：分裂与纯度

1. 递归划分

2. 纯度度量

3. 信息增益（Information Gain）

决策树（Decision Tree）详解：数学原理、算法对比与 Python 代码实现

一、决策树是什么？

二、决策树的基本结构

三、决策树的核心思想：分裂与纯度

1. 递归划分

2. 纯度度量

3. 信息增益（Information Gain）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、决策树的常见算法详解

1. ID3 算法

2. C4.5 算法

3. CART 算法（Classification and Regression Trees）

小结对比表

五、决策树的优缺点与工程角色

优点

缺点

工程角色

六、决策树的构建流程与数学推导

1. 树的递归生长流程

2. 数学推导示例：信息增益

七、决策树的代码实现与可视化

1. 分类决策树代码示例

2. 回归决策树代码示例

八、工程与教学启示

九、结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具