从树到森林——决策树、随机森林与可解释性博弈

'如果你不能向酒吧侍者解释清楚你的模型，那你可能还没真正理解它。' 而决策树，正是那个既能讲清道理，又能打胜仗的算法。

一、为什么需要树模型？

线性模型优雅、透明，但它有一个致命假设：特征与目标之间是线性关系。现实世界却充满非线性、交互效应和分段规则：

'如果年龄 > 60 且血压 > 140，则高风险'；
'当用户点击过广告 A 且未购买，则推送优惠券 B'。

这些条件判断天然适合用'树'来表达。

🎯 本章目标：理解决策树如何通过'提问'进行预测；掌握信息增益、基尼不纯度等分裂准则；实现一棵简单的决策树；理解集成思想：从单棵树到随机森林；辩证看待'可解释性'：树真的那么透明吗？

二、决策树：用问答游戏做预测

1. 直觉：像玩'20 个问题'游戏

想象你在猜一个名人：

'是男性吗？' → 是
'还活着吗？' → 否
'是科学家吗？' → 是
……

每一步都根据答案缩小范围，最终锁定目标。

决策树正是如此：通过一系列 if-else 规则，将样本分到不同叶子节点，每个叶子给出一个预测值（分类标签或回归均值）。

文章配图

2. 树的结构

根节点（Root）：第一个判断条件；
内部节点（Internal Node）：中间判断；
叶子节点（Leaf）：最终预测结果；
分裂（Split）：选择一个特征和阈值，将数据分为两组。

💡 决策树不需要特征缩放、能自动处理类别变量、对异常值鲁棒——这是它广受欢迎的原因。

三、如何构建一棵好树？——分裂准则

关键问题：在每个节点，该选哪个特征、哪个阈值来分裂？

目标：让子节点尽可能'纯净'（即同一类样本聚集在一起）。

1. 分类任务：基尼不纯度 vs 信息熵

基尼不纯度（Gini Impurity）

对于一个节点，若有 K 个类别，第 k 类占比为 $p_k$，则：

$$ Gini = 1 - \sum_{k=1}^{K} p_k^2 $$

Gini = 0：完全纯净（所有样本属于同一类）；
Gini 最大：各类均匀分布。

信息熵（Entropy）

源自信息论：

$$ Entropy = -\sum_{k=1}^{K} p_k \log_2 p_k $$

Entropy = 0：完全确定；
Entropy 越大：不确定性越高。

✅ 实践中，基尼不纯度计算更快（无对数），效果与熵相近，sklearn 默认使用 Gini。

2. 回归任务：方差减少（Variance Reduction）

import numpy as np from collections import Counter class Node: def __init__(self, feature=None, threshold=None, left=None, right=None, *, value=None): self.feature = feature # 分裂特征索引 self.threshold = threshold # 分裂阈值 self.left = left # 左子树 self.right = right # 右子树 self.value = value # 叶子节点的预测值（若为 None，则是内部节点） def is_leaf_node(self): return self.value is not None class DecisionTree: def __init__(self, min_samples_split=2, max_depth=100, n_feats=None): self.min_samples_split = min_samples_split self.max_depth = max_depth self.n_feats = n_feats # 随机选择部分特征（为后续随机森林做准备） self.root = None def fit(self, X, y): self.n_feats = X.shape[1] if not self.n_feats else min(self.n_feats, X.shape[1]) self.root = self._grow_tree(X, y) def _grow_tree(self, X, y, depth=0): n_samples, n_features = X.shape n_labels = len(np.unique(y)) # 停止条件 if (depth >= self.max_depth or n_labels == 1 or n_samples < self.min_samples_split): leaf_value = self._most_common_label(y) return Node(value=leaf_value) # 随机选择特征子集 feat_idxs = np.random.choice(n_features, self.n_feats, replace=False) # 寻找最佳分裂 best_feat, best_thresh = self._best_split(X, y, feat_idxs) # 创建子节点 left_idxs, right_idxs = self._split(X[:, best_feat], best_thresh) left = self._grow_tree(X[left_idxs, :], y[left_idxs], depth + 1) right = self._grow_tree(X[right_idxs, :], y[right_idxs], depth + 1) return Node(best_feat, best_thresh, left, right) def _best_split(self, X, y, feat_idxs): best_gain = -1 split_idx, split_thresh = None, None for feat_idx in feat_idxs: X_column = X[:, feat_idx] thresholds = np.unique(X_column) for th in thresholds: gain = self._information_gain(y, X_column, th) if gain > best_gain: best_gain = gain split_idx = feat_idx split_thresh = th return split_idx, split_thresh def _information_gain(self, y, X_column, split_thresh): # 父节点不纯度 parent_gini = self._gini(y) # 分割 left_idxs, right_idxs = self._split(X_column, split_thresh) if len(left_idxs) == 0 or len(right_idxs) == 0: return 0 # 加权子节点不纯度 n = len(y) n_l, n_r = len(left_idxs), len(right_idxs) gini_l, gini_r = self._gini(y[left_idxs]), self._gini(y[right_idxs]) child_gini = (n_l / n) * gini_l + (n_r / n) * gini_r # 信息增益 = 父 - 子 ig = parent_gini - child_gini return ig def _gini(self, y): hist = np.bincount(y) ps = hist / len(y) return 1 - np.sum(ps ** 2) def _split(self, X_column, split_thresh): left_idxs = np.argwhere(X_column <= split_thresh).flatten() right_idxs = np.argwhere(X_column > split_thresh).flatten() return left_idxs, right_idxs def _most_common_label(self, y): counter = Counter(y) return counter.most_common(1)[0][0] def predict(self, X): return np.array([self._traverse_tree(x, self.root) for x in X]) def _traverse_tree(self, x, node): if node.is_leaf_node(): return node.value if x[node.feature] <= node.threshold: return self._traverse_tree(x, node.left) return self._traverse_tree(x, node.right)

方法	说明
`max_depth`	限制树的最大深度
`min_samples_split`	内部节点至少需多少样本才分裂
`min_samples_leaf`	叶子节点至少需多少样本
`max_features`	每次分裂只考虑部分特征

维度	线性模型	树模型
可解释性	全局清晰（系数意义明确）	局部清晰（路径可追溯），全局模糊
非线性能力	弱（需手动特征工程）	强（自动捕捉交互与非线性）
特征缩放	必须（影响系数大小）	不需要
缺失值处理	需预处理	部分实现支持（如 LightGBM）
训练速度	快（尤其解析解）	中等（单树快，森林慢）
预测速度	极快	快（但森林需遍历多棵树）
默认性能	中等	高（尤其随机森林）

从树到森林——决策树、随机森林与可解释性博弈