机器学习经典算法——决策树(Decision Tree)
创始人
2024-06-03 14:24:57
0

决策树的基本原理

决策树是⼀种分⽽治之的决策过程。⼀个困难的预测问题,通过树的分⽀节点,被划分成两个或多个较为简单的⼦集,从结构上划分为不同的⼦问题。将依规则分割数据集的过程不断递归下去。随着树的深度不断增加,分⽀节点的⼦集越来越⼩,所需要提的问题数也逐渐简化。当分⽀节点的深度或者问题的简单程度满⾜⼀定的停⽌规则时, 该分⽀节点会停⽌分裂。

决策树是一种自上而下,对样本数据进行树形分类的过程,由结点和有向边组成。结点分为内部节点和叶结点,其中内部结点表示一个特征或属性,叶结点表示类别。从顶部根节点开始,所有样本聚在一起。经过根结点的划分,样本别分到不同的子结点中。在根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。

  • 优点:不需要任何领域知识或参数假设;适合⾼维数据;短时间内处理⼤量数据,得到可⾏且效果较好的结果;能够同时处理数据型和常规性属性。
  • 缺点:对于各类别样本数量不⼀致数据,信息增益偏向于那些具有更多数值的特征;易于过拟合;忽略属性之间的相关性;不⽀持在线学习。

决策树的三要素

一般而言,决策树的生成包括特征选择树的构造树的剪枝三个过程。

  1. 特征选择:从训练数据中众多的特征中选择⼀个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从⽽衍⽣出不同的决策树算法。
  2. 决策树⽣成:根据选择的特征评估标准,从上⾄下递归地⽣成⼦节点,直到数据集不可分则决策树停⽌⽣长。树结构来说,递归结构是最容易理解的⽅式。
  3. 剪枝:决策树容易过拟合,⼀般来需要剪枝,缩⼩树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

决策树学习基本算法

在这里插入图片描述

熵与信息增益

熵可以表⽰样本集合的不确定性,熵越⼤,样本的不确定性就越⼤。

假设随机变量X的可能取值有x1,x2, …, xn,对于每⼀个可能的取值xi,其概率为:
在这里插入图片描述
随机变量的熵为:
在这里插入图片描述
对于样本集合,假设样本有k个类别,每个类别的概率为在这里插入图片描述其中|Ck|为类别为k的样本个数, |D| 为样本总数。样本集合D的熵为:
在这里插入图片描述

信息增益
假设划分前样本集合D的熵为H(D)。使⽤某个特征A划分数据集D,计算划分后的数据⼦
集的熵为H(D|A),则A特征的信息增益为:
在这里插入图片描述

决策树的剪枝方法

剪枝处理是决策树学习算法⽤来解决过拟合问题的⼀种办法。通过对决策树进行剪枝,剪掉一些枝叶,提升模型的泛化能力。决策树的剪枝通常有两种方法:预剪枝(pre-pruning)和后剪枝(post-pruning)。

  • 预剪枝:在生成决策树的过程中提前停止树的增长;
  • 后剪枝:⽣成决策树以后,再⾃下⽽上对⾮叶结点进⾏剪枝,得到简化版的剪枝决策树。

预剪枝

预剪枝的核心思想是在树中结点进行扩展之前,先计算当前的划分是否能带来模型泛化能力的提升,如果不能,则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中,按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法。

  1. 当树到达一定深度的时候,停止树的生长。
  2. 当到达当前结点的样本数量小于某个阈值的时候,停止树的生长。
  3. 计算每次分裂对测试集的准确度提升,当小于某个阈值的时候,不再继续扩展。

预剪枝具有思想直接、算法简单、效率高等特点,适合解决大规模问题。但预剪枝存在一定局限性,有欠拟合的风险,虽然当前的划分会导致测试集准确率降低,但在之后的划分中,准确率可能会有显著上升。

后剪枝

后剪枝的核心思想是让算法生成一棵完全生 长的决策树,然后从最底层向上计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样按照多数投票的原则进行判断。同样地,后剪枝也可以通过在测试集上的准确率进行判断,如果剪枝过后准确率有所提升,则进行剪枝。

相比于预剪枝,后剪枝方法通常可以得到泛化能力更强的决策树,但时间开销会更大。

常见的后剪枝方法包括:错误率降低剪枝( Reduced Error Pruning,REP)、悲观剪枝( Pessimistic Error Pruning, PEP) 、代价复杂度剪枝( Cost Complexity Pruning, CCP )、最小误差剪枝(MinimumEror Pruning, MEP )、CVP(Critical Value Pruning)、OPP (OpttimalPruning)等

相关内容

热门资讯

编程安卓系统和鸿蒙主题,跨平台... 你有没有想过,手机的世界里,除了苹果的iOS和安卓的操作系统,还有个神秘的鸿蒙系统?今天,咱们就来聊...
哪个安卓机系统好用,探索安卓系... 你有没有想过,手机里的安卓系统就像是个大厨,不同的系统就像不同的烹饪手法,有的让你吃得津津有味,有的...
安卓如何控制苹果系统,从安卓到... 你知道吗?在这个科技飞速发展的时代,安卓和苹果两大操作系统之间的较量从未停歇。虽然它们各自有着忠实的...
安卓原生系统文件夹,安卓原生系... 你有没有发现,每次打开安卓手机,里面那些文件夹就像是一个个神秘的宝箱,里面藏着各种各样的宝贝?今天,...
基于安卓系统的游戏开发,从入门... 你有没有想过,为什么安卓手机上的游戏总是那么吸引人?是不是因为它们就像是你身边的好朋友,随时随地都能...
安卓系统怎样装驱动精灵,安卓系... 你那安卓设备是不是突然间有点儿不给力了?别急,今天就来手把手教你如何给安卓系统装上驱动精灵,让你的设...
如何本地安装安卓系统包,详细步... 你有没有想过,把安卓系统装在你的电脑上,是不是就像给电脑穿上了时尚的新衣?想象你可以在电脑上直接玩手...
安卓12卡刷系统教程,体验全新... 你有没有发现,你的安卓手机最近有点儿不给力了?运行速度慢得像蜗牛,是不是也想给它来个“换血大法”,让...
安卓系统无法打开swf文件,安... 最近是不是发现你的安卓手机有点儿不给力?打开SWF文件时,是不是总是出现“无法打开”的尴尬局面?别急...
鸿蒙系统依赖于安卓系统吗,独立... 你有没有想过,我们手机里的那个鸿蒙系统,它是不是真的完全独立于安卓系统呢?这个问题,估计不少手机控都...
适合安卓系统的图片软件,精选图... 手机里堆满了各种美美的照片,是不是觉得找起来有点头疼呢?别急,今天就来给你安利几款超级适合安卓系统的...
阴阳师安卓系统典藏,探寻阴阳师... 亲爱的阴阳师们,你是否在安卓系统上玩得如痴如醉,对那些精美的典藏式神们垂涎欲滴?今天,就让我带你深入...
安卓系统有碎片化缺点,系统优化... 你知道吗?在手机江湖里,安卓系统可是个响当当的大侠。它那开放、自由的个性,让无数手机厂商和开发者都为...
安卓4系统手机微信,功能解析与... 你有没有发现,现在市面上还有很多安卓4系统的手机在使用呢?尤其是那些喜欢微信的朋友们,这款手机简直就...
鸿蒙系统是安卓的盗版,从安卓“... 你知道吗?最近在科技圈里,关于鸿蒙系统的讨论可是热闹非凡呢!有人说是安卓的盗版,有人则认为这是华为的...
安卓系统怎么剪辑音乐,轻松打造... 你是不是也和我一样,手机里存了超多好听的歌,但是有时候想给它们来个变身,变成一段专属的旋律呢?别急,...
怎么把安卓手机系统变为pc系统... 你有没有想过,把你的安卓手机变成一台PC呢?听起来是不是有点酷炫?想象你可以在手机上玩电脑游戏,或者...
手机怎么装安卓11系统,手机安... 你有没有想过,让你的手机也来个“青春焕发”,升级一下系统呢?没错,就是安卓11系统!这个新系统不仅带...
安卓系统如何拼网络,构建高效连... 你有没有想过,你的安卓手机是怎么和网络“谈恋爱”的呢?没错,就是拼网络!今天,就让我带你一探究竟,看...
安卓系统怎么看小说,轻松畅享电... 你有没有发现,手机里装了那么多应用,最离不开的竟然是那个小小的小说阅读器?没错,就是安卓系统上的小说...