决策树算法介绍:原理与案例实现

决策树算法介绍:原理与案例实现

决策树算法介绍:原理与案例实现

www.zeeklog.com - 决策树算法介绍:原理与案例实现

决策树算法介绍:原理与案例实现

一、决策树算法概述

决策树是一种基本的分类与回归方法,它基于树形结构进行决策。决策树的每一个节点都表示一个对象属性的测试,每个分支代表该属性测试的一个输出,每个叶节点则代表一个类别或值。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的剪枝。





二、决策树算法原理

1. 特征选择

特征选择是决策树学习的核心。它决定了在树的每个节点上选择哪个属性进行测试。常用的特征选择准则有信息增益、增益比和基尼不纯度。

  • 信息增益:表示划分数据集前后信息的不确定性减少的程度。选择信息增益最大的属性作为当前节点的测试属性。
  • 增益比:在信息增益的基础上考虑了属性的取值数量,避免了对取值数量较多的属性的偏好。
  • 基尼不纯度:在CART(分类与回归树)算法中,使用基尼不纯度作为特征选择的准则。基尼不纯度越小,表示纯度越高。

2. 决策树的生成

根据选择的特征选择准则,从根节点开始,递归地为每个节点选择最优的划分属性,并根据该属性的不同取值建立子节点。直到满足停止条件(如所有样本属于同一类,或所有属性的信息增益均很小等)为止。

3. 决策树的剪枝

为了避免过拟合,需要对生成的决策树进行剪枝。剪枝分为预剪枝和后剪枝两种。

  • 预剪枝:在决策树生成过程中,提前停止树的生长。例如,当划分某个节点时,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点。
  • 后剪枝:在决策树生成后,对树进行剪枝。通常从树的底部开始,逐个将子树替换为叶节点,并比较剪枝前后决策树的性能。若剪枝后性能提升,则保留剪枝后的结果。





三、案例实现

下面我们使用Python中的scikit-learn库来实现一个简单的决策树分类器,并应用于鸢尾花(Iris)数据集。

1. 数据准备

首先,我们需要加载鸢尾花数据集,并将其划分为训练集和测试集。

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split iris = load_iris() X = iris.data y = iris.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 

2. 决策树分类器训练

接下来,我们使用DecisionTreeClassifier类来训练决策树分类器。

from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier(criterion='gini') # 使用基尼不纯度作为特征选择准则 clf.fit(X_train, y_train) 

3. 模型评估

最后,我们使用测试集来评估模型的性能。

from sklearn.metrics import accuracy_score y_pred = clf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}') 

这样,我们就完成了一个简单的决策树分类器的实现和评估。通过调整决策树的各种参数(如最大深度、最小样本数等),我们可以进一步优化模型的性能。





四、决策树算法的优势与局限

1. 优势

易于理解和解释:决策树的结构非常直观,就像一棵倒置的树,从根节点开始,根据特征属性的不同取值,逐步向下分裂,直到达到叶子节点,形成最终的分类或回归结果。这种结构使得非专业的用户也能轻松理解其决策过程,并给出明确的解释。

能够处理数值和分类数据:决策树算法非常灵活,既可以处理数值型数据,也可以处理分类型数据。在处理数值型数据时,它可以根据特征属性的取值范围进行划分;在处理分类型数据时,它可以根据特征属性的不同取值进行划分。这使得决策树算法无需进行特殊的预处理,就能直接应用于各种类型的数据集。

能够处理缺失值:在实际应用中,数据集中往往存在缺失值。然而,决策树算法在训练过程中可以自动处理包含缺失值的样本。具体来说,当某个样本在某个特征属性上存在缺失值时,该样本会同时被划分到所有可能的子节点中,并根据子节点的纯度进行加权计算。这种处理方式使得决策树算法在处理缺失值时更加灵活和有效。

能够处理非线性关系:通过递归地划分特征空间,决策树能够捕获数据中的非线性关系。与传统的线性模型相比,决策树能够更好地适应复杂的数据分布和变化趋势,从而更准确地描述数据之间的关系。

2. 局限

容易过拟合:由于决策树是贪心算法,它倾向于生成尽可能大的树,以尽可能地拟合训练数据。然而,当树的复杂度过高时,就会导致过拟合现象的发生。虽然通过剪枝可以一定程度上缓解这个问题,但并不能完全避免。

对数据的微小变化敏感:决策树对数据集的微小变化可能非常敏感。当数据集发生微小的变化时,可能会导致决策树的结构发生较大的变化,从而生成完全不同的决策树。这种敏感性使得决策树算法在某些情况下不够稳定。

不适合处理高维数据:当特征数量较多时,决策树可能会变得非常复杂且难以解释。此外,由于在高维空间中样本的稀疏性,决策树可能难以找到有效的划分边界,从而导致模型的性能下降。





五、决策树算法的进阶应用

1. 随机森林

随机森林是一种基于决策树的集成学习方法。它通过构建多个决策树,并将它们的预测结果进行集成,以提高模型的稳定性和准确性。具体来说,随机森林在构建每个决策树时,都会随机选择一部分样本和一部分特征进行训练,从而增加模型的多样性。在预测时,随机森林会将所有决策树的预测结果进行平均或投票,以得到最终的预测结果。这种集成学习方式使得随机森林在处理各种复杂问题时都表现出色。

2. 梯度提升决策树(GBDT)

梯度提升决策树(Gradient Boosting Decision Tree,GBDT)是一种基于决策树的集成学习方法,它通过迭代地构建多个决策树,并将它们的预测结果进行加权求和来得到最终的预测结果。在每次迭代中,GBDT都会根据当前模型的残差来构建一个新的决策树,并将该决策树的预测结果作为下一个迭代的基础。通过这种方式,GBDT能够逐步优化模型的性能,并在回归和分类问题中都表现出优秀的性能。特别是在处理结构化数据(如表格数据)时,GBDT更是表现出了强大的能力。

3. XGBoost 和 LightGBM

XGBoost 和 LightGBM 是两个基于梯度提升决策树的优化框架。它们通过引入一些新的优化策略(如正则化项、列子采样、并行计算等)来进一步提高模型的性能和训练速度。其中,XGBoost 采用了二阶泰勒展开来近似损失函数,并加入了正则化项来防止过拟合;而 LightGBM 则采用了基于梯度的单边采样(Gradient-based One-Side Sampling,GOSS)和互斥特征捆绑(Exclusive Feature Bundling,EFB)等技术来加速模型的训练和减少内存消耗。这两个框架在机器学习和数据挖掘领域得到了广泛的应用,并在许多竞赛中取得了优异的成绩。





六、决策树算法的改进策略

1. 剪枝

为了缓解决策树容易过拟合的问题,可以采用剪枝策略。剪枝分为预剪枝和后剪枝两种。预剪枝在构建决策树的过程中就进行限制,如限制树的最大深度、限制每个节点的最小样本数等。通过限制树的复杂度,预剪枝可以在一定程度上防止过拟合的发生。后剪枝则是先构建完整的决策树,然后从底部开始逐层剪去不必要的节点。具体来说,后剪枝会评估每个节点的贡献度(如基尼不纯度或信息增益等),并剪去贡献度较小的节点。这种处理方式可以进一步减少模型的复杂度,降低过拟合风险。然而,剪枝策略也可能导致欠拟合现象的发生,因此需要根据具体情况进行调整。

2. 特征选择

特征选择是决策树算法中非常重要的一步,它决定了哪些特征会被用于构建决策树。除了使用基尼不纯度或信息增益等准则来选择特征外,还可以考虑使用集成学习中的特征重要性评估方法,如随机森林中的特征重要性得分。这有助于选择出对模型性能影响最大的特征,进一步提高模型的泛化能力。

3. 集成学习

集成学习通过将多个模型的预测结果进行集成,可以提高模型的稳定性和准确性。除了随机森林和梯度提升决策树外,还有其他集成学习方法可以与决策树结合使用,如Bagging、Stacking等。这些集成学习方法可以进一步发挥决策树的优势,提高模型的性能。





七、决策树算法的应用领域

1. 金融领域

决策树算法在金融领域有着广泛的应用,如信用评分、欺诈检测、股票预测等。通过构建决策树模型,可以对客户的信用状况进行评估,预测欺诈行为的可能性,以及预测股票价格的走势等。

2. 医疗领域

在医疗领域,决策树算法可以用于疾病诊断、治疗方案选择等。通过分析患者的病历数据,构建决策树模型,可以帮助医生更准确地诊断疾病,并为患者制定个性化的治疗方案。

3. 市场营销

在市场营销领域,决策树算法可以用于客户细分、产品推荐等。通过分析客户的购买历史、浏览记录等数据,构建决策树模型,可以对客户进行细分,并为他们推荐更符合其需求的产品或服务。





八、总结与展望

决策树算法作为一种简单而有效的机器学习算法,在各个领域都有着广泛的应用。通过调整参数、剪枝、特征选择等策略,可以进一步优化模型的性能。同时,结合集成学习方法如随机森林、梯度提升决策树等,可以进一步提高模型的稳定性和准确性。

未来,随着数据规模的不断扩大和算法技术的不断进步,决策树算法将在更多领域得到应用。同时,也需要不断研究新的优化策略和方法,以应对更复杂的数据和任务。

Read more

通过URI Scheme实现从Web网页上打开本地C++应用程序(以腾讯会议为例,附完整实现源码)

通过URI Scheme实现从Web网页上打开本地C++应用程序(以腾讯会议为例,附完整实现源码)

目录 1、需求描述 2、选择URI Scheme实现 3、何为URI Scheme? 4、将自定义的URL Scheme信息写入注册表的C++源码实现 5、如何实现最开始的3种需求 6、后续需要考虑的细节问题        之前陆续收到一些从Web页面上启动我们C++客户端软件的需求,希望我们能提供一些技术上的支持与协助,支持从Web网页上将我们的C++客户端软件启动起来。于是我大概地研究了相关的实现方法,下面把研究的过程与结果在此做一个分享,希望能给大家提供一个借鉴或参考。 C++软件异常排查从入门到精通系列教程(核心精品专栏,订阅量已达10000多个,欢迎订阅,持续更新...)https://blog.ZEEKLOG.net/chenlycly/article/details/125529931C/C++实战专栏(重点专栏,专栏文章已更新500多篇,订阅量已达8000多个,欢迎订阅,持续更新中...)https://blog.ZEEKLOG.net/

By Ne0inhk

比Datasketch好两个数量级?用 Fast Similarity Sketch 优化大规模文本去重(附 C++ 源码)

比datasketch好两个数量级? 用 Fast Similarity Sketch 优化大规模文本去重(附 C++ 源码) 项目地址:https://github.com/pzcddm/FastSketchLSH 论文背景:Fast Similarity Sketching(arXiv:1704.04370v4,FOCS’17 扩展版) 最近在优化大规模去重流水线,基于之前的知识, 我们team做了一个基于Fast Similarity Sketching 的Python 去重包fastsketchlsh, 并且我们先后对比了 datasketch、rensa 和我们自己做的 fastsketchlsh。 这篇blog就把过程里的关键问题讲透:传统 k-mins 为什么慢、FastSketch 为啥快、以及它和 LSH 搭配时为什么在工程上可用。 先说结论 * 经典 k-mins / MinHash

By Ne0inhk
智能指针:告别内存泄漏的利器----《Hello C++ Wrold!》(27)--(C/C++)

智能指针:告别内存泄漏的利器----《Hello C++ Wrold!》(27)--(C/C++)

文章目录 * 前言 * 智能指针的作用 * 智能指针的实现和原理 * 库里面的智能指针 * std::auto_ptr * auto_ptr的模拟实现 * std::unique_ptr * unique_ptr的模拟实现 * std::shared_ptr * shared_ptr的模拟实现 * shared_ptr的一个弊端 * std::weak_ptr * weak_ptr的模拟实现 * 删除定制器 * 作业部分 前言 在 C++ 编程中,动态内存管理始终是开发者面临的核心挑战之一。手动使用new分配内存、delete释放内存的模式,不仅需要开发者时刻关注内存生命周期,更可能因疏忽导致内存泄漏(忘记调用delete)、二次释放(重复调用delete),或是在异常抛出时因执行流跳转跳过delete语句等问题 —— 这些隐患轻则导致程序性能退化,重则引发崩溃或不可预期的运行错误,成为项目中难以排查的 “隐形 bug”。 为解决这一痛点,C++ 标准库引入了智能指针这一核心工具。

By Ne0inhk
今天你学C++了吗?——map

今天你学C++了吗?——map

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥✨✨✨✨✨✨ 个人主页✨✨✨✨✨✨ 前面我们已经学习了set容器的使用,接下来我们来看看map容器有什么奇妙之处?准备好了吗~我们发车去探索C++的奥秘啦~🚗🚗🚗🚗🚗🚗 目录 什么是map? pair 什么是pair? pair的组成 pair的构造与初始化 pair的成员函数 pair的比较 编辑 pair的用途 map的构造 map的插入 编辑 operator[ ] at multimap equal_range equal_range、lower_bound和upper_bound简单对比 1. equal_range 2. lower_bound 3. upper_bound 对比与联系 C++中map和set容器的简单对比 什么是map?

By Ne0inhk