决策树基本原理及 Python 实现与后剪枝处理 | 极客日志

PythonAI算法

决策树基本原理及 Python 实现与后剪枝处理

综述由AI生成决策树核心原理，对比信息增益与基尼指数。通过 Python sklearn 库实现鸢尾花数据集分类，演示无剪枝与代价复杂度剪枝（CCP）的完整流程。重点讲解如何利用交叉验证选择最优 ccp_alpha 参数以避免过拟合，并分析剪枝前后树结构差异。此外，总结了特征缩放、类别不平衡等工程实践中的常见陷阱及解决方案，提供从理论推导到代码落地的决策树使用指南。

菩提发布于 2026/3/28更新于 2026/6/334 浏览

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

关键问题：ID3 用信息增益，CART 用基尼指数，选哪个更好？

指标	信息增益（ID3）	基尼指数（CART）
计算复杂度	需计算对数（计算量大）	仅需平方运算（计算快）
分裂效果	信息增益高 → 纯度提升大（但易选多值特征）	基尼指数小 → 纯度高（对连续特征更友好）
数学公式	$Gain(S,A) = Ent(S) - \sum_{v} \frac{	S_v
鸢尾花示例	特征 `花萼长度`：Gain=0.478 → 被选为根节点	特征 `花萼长度`：Gini=0.344 → 被选为根节点

为什么 CART 选基尼指数？
以鸢尾花数据集为例，计算 花萼长度 分裂后的纯度：信息增益：
$Ent(S) = -0.333\log_2 0.333 - 0.333\log_2 0.333 - 0.333\log_2 0.333 = 1.585$
$Ent(S>5.0)=0, Ent(S\le5.0)=1.0$
$Gain = 1.585 - \frac{50}{150}\times 0 - \frac{100}{150}\times 1.0 = 0.918$

基尼指数：
$Gini(S) = 1 - (0.333^2 \times 3) = 0.667$
$Gini(S>5.0)=0, Gini(S\le5.0)=1-(0.5^2 \times 2)=0.5$
$Gini_{split} = \frac{50}{150}\times 0 + \frac{100}{150}\times 0.5 = 0.333$
$Gain = Gini(S) - Gini_{split} = 0.667 - 0.333 = 0.334$

结论：基尼指数计算更快，且与信息增益趋势一致（高 Gain 对应低 Gini）。

二、Python 实现：深度代码解析

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, classification_report
import numpy as np
import matplotlib.pyplot as plt

# ========== 1. 数据加载与预处理 ==========
iris = load_iris()
X, y = iris.data, iris.target
feature_names = iris.feature_names 
target_names = iris.target_names 


X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=, random_state=, stratify=y 
)


dt_default = DecisionTreeClassifier(
    random_state=,
    max_depth=, 
    min_samples_split=, 
    min_samples_leaf= 
)
dt_default.fit(X_train, y_train)


()
() 
() 
(classification_report(y_test, dt_default.predict(X_test)))



path = dt_default.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas, impurities = path.ccp_alphas, path.impurities


clfs = []
 alpha  ccp_alphas:
    clf = DecisionTreeClassifier(
        random_state=,
        ccp_alpha=alpha 
    )
    clf.fit(X_train, y_train)
    clfs.append(clf)


cv_scores = []
 i, alpha  (ccp_alphas):
    scores = cross_val_score(clfs[i], X_train, y_train, cv=)
    cv_scores.append(np.mean(scores))


best_alpha = ccp_alphas[np.argmax(cv_scores)]
()


dt_pruned = DecisionTreeClassifier(
    random_state=,
    ccp_alpha=best_alpha
)
dt_pruned.fit(X_train, y_train)


()
()
()
()
()


plt.figure(figsize=(, ))


plt.subplot(, , )
plot_tree(dt_default, feature_names=feature_names, class_names=target_names, filled=)
plt.title()


plt.subplot(, , )
plot_tree(dt_pruned, feature_names=feature_names, class_names=target_names, filled=)
plt.title()

plt.tight_layout()
plt.savefig(, dpi=)
plt.show()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 错误做法（泄露测试集）：
# best_alpha = ccp_alphas[np.argmax([clf.score(X_test, y_test) for clf in clfs])]

# 正确做法（用 CV）：
cv_scores = [cross_val_score(clf, X_train, y_train, cv=5).mean() for clf in clfs]
best_alpha = ccp_alphas[np.argmax(cv_scores)]

`ccp_alpha` 值	树结构特点	适用场景
`0.0`	无剪枝（最复杂）	数据量极大、噪声极低
`0.001～0.01`	适度剪枝（推荐起点）	通用场景（鸢尾花/乳腺癌数据集）
`>0.05`	过度剪枝（树太简单）	数据噪声大、特征无关性强

指标	无剪枝	后剪枝（最优α）
树深度	5	3
节点数	11	5
根节点分裂条件	`petal length <= 2.45`	`petal length <= 2.45`
关键差异	分裂了花萼长度、花宽	仅用花瓣长度分裂
过拟合表现	在测试集上将 `versicolor` 误判为 `virginica`	无误判

dt = DecisionTreeClassifier(
    class_weight='balanced', # 自动调整权重
    min_samples_leaf=5 # 确保叶节点有足够样本
)

print("特征重要性:", dt_pruned.feature_importances_)
# 输出：[0. 0. 0.8 0.2] → 花瓣长度最重要

模型	优点	缺点	适用场景
单决策树	可解释性强	容易过拟合	需解释结果的场景
随机森林	泛化能力强（平均多个树）	黑盒模型，可解释性差	预测精度优先的场景

参数	调优优先级	作用	推荐范围
`ccp_alpha`	★★★★★	控制过拟合	从 0.001 开始尝试
`max_depth`	★★★★☆	限制树深度	3～10（根据数据量）
`min_samples_split`	★★★☆☆	最小分裂样本数	2～10
`min_samples_leaf`	★★☆☆☆	叶子最小样本数	1～5

决策树基本原理及 Python 实现与后剪枝处理

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

二、Python 实现：深度代码解析

更多推荐文章

相关免费在线工具

三、后剪枝：关键细节深度解析

3.1 为什么交叉验证比直接用测试集选参数更好？

3.2 `ccp_alpha` 的物理意义与选择技巧

3.3 剪枝前后树结构对比（鸢尾花数据集）

四、工程实践：避免决策树的 5 个常见坑

1. 特征缩放问题

2. 类别不平衡的处理

3. 连续特征的最优分裂点

4. 剪枝后模型解释性

5. 与随机森林的对比

五、总结：决策树的终极使用指南

1. 必须做的步骤

2. 参数调优优先级

3. 为什么后剪枝优于前剪枝？

更多推荐文章

相关免费在线工具

决策树基本原理及 Python 实现与后剪枝处理

一、决策树核心原理：深度解析

1.1 信息增益 vs 基尼指数：为什么 CART 用基尼指数？

二、Python 实现：深度代码解析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、后剪枝：关键细节深度解析

3.1 为什么交叉验证比直接用测试集选参数更好？

3.2 ccp_alpha 的物理意义与选择技巧

3.3 剪枝前后树结构对比（鸢尾花数据集）

四、工程实践：避免决策树的 5 个常见坑

1. 特征缩放问题

2. 类别不平衡的处理

3. 连续特征的最优分裂点

4. 剪枝后模型解释性

5. 与随机森林的对比

五、总结：决策树的终极使用指南

1. 必须做的步骤

2. 参数调优优先级

3. 为什么后剪枝优于前剪枝？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 `ccp_alpha` 的物理意义与选择技巧