一、决策树是什么?
决策树是一种监督学习算法,既可用于分类(Classification)也可用于回归(Regression)。它通过一系列的**'条件判断'将数据集划分成不同的子集,最终在树的叶节点给出类别或数值预测**。
- 结构直观:类似流程图或**'二十问'游戏**,每个节点是一次特征判断,每个分支是判断结果,叶节点给出最终决策。
- 可解释性强:每一步决策都可追溯,便于业务理解和模型解释。
二、决策树的基本结构
- 根节点(Root Node):包含全部数据,进行第一次特征划分。
- 分支(Branch/Edge):根据判断结果分流数据。
- 叶节点(Leaf Node):终点,给出类别或数值预测。
内部节点(Internal Node):对某个特征做条件判断(如 $X_1 < 5$)。
例如:
- 判断**'天气'是否晴朗**,若是则继续判断'温度',否则直接输出'不要出门'。
三、决策树的核心思想:分裂与纯度
1. 递归划分
- 从根节点出发,递归地选择**'最佳特征'进行分裂,使得每次分裂后子集的'纯度'**最大化。
- 纯度高意味着子集中的样本大多属于同一类别。
2. 纯度度量
常用的纯度指标有:
方差(Variance)(回归树):
基尼指数(Gini Index):
信息熵(Entropy):
$p_i$ 为第 $i$ 类样本在 $S$ 中的比例。
3. 信息增益(Information Gain)
衡量分裂前后纯度提升的程度,信息增益越大,分裂越有效。




