如何拥有一棵决策树

 决策树为什么叫决策树:↓↓↓↓↓↓↓↓  ① 可以用来做决策,做预测   ②长得就像一棵树  ↓↓↓↓↓↓↓↓↓

那么该如何构建一棵你自己的决策树呢? 

决策树结构:除了知道决策树是一棵逆引力生长的树,还需要知道

  • 根节点:顾名思义,像根一样的节点,即起始节点
  • 非叶子节点(决策点):就是岔路口,决定通向哪个决策的节点,再通俗一点说就是下面还有分支的节点
  • 叶子节点:叶子就是树的尽头了吧,也就是下面再没有分支的节点

>>>  我们的目标是:得到一颗尽可能浓缩了精华的矮子树!

① 种树前咱先得知道两个概念:熵值 和 信息增益

熵值:内部混乱程度,越混乱,熵值就越大。

比如袋子A里面全是黑球,袋子B里面有黑的白的红的黄的紫的绿的蓝的灰的,那么袋子B的熵值就比袋子A大。

熵值的计算公式: 

袋B的熵值:- (黑球的概率*log2(黑球的概率) + 白球的概率*log2(白球的概率) + .......)

**** 除熵值之外,咱也可以用Gini不纯度来表示混乱程度

信息增益:经过这个次岔路口我们可以增加多少信息。

决策树的目的就是把混混乱乱的东西变纯纯粹粹的。所以我们希望通过决策树逐步降低混乱程度,也就是降低熵值。混乱程度越低了,那我们是不是了解的信息就能更多了呢。比如袋A一点都不混乱,我们知道啊这是一个黑球袋子。袋B乱七八糟,咱们啥也讲不出来。降低的熵值 = 增加的信息量

信息增益 = 该非叶子节点的熵值  -  权重 * 该节点下面每一个分支的熵值  

② 如何选择每一个节点呢?相亲对象是该先看脸呢还是先看学历呢?

>>>  我们的目标是:得到一颗尽可能浓缩了精华的矮子树!(重要的话说第二遍)

因此我们想要每经过的一个岔路口,给我们降低的熵值是最大的,给我们的信息增益是最大的!

很简单,所有的特征都算一遍,哪一个的信息增益最大,就选它!选它!选它!

③ 决策树的过拟合

>>>  我们的目标是:得到一颗尽可能浓缩了精华的矮子树!(重要的话说第三遍)

什么是过拟合:就是咱用测试集建的模型在训练集上表现的太完美了,训练集定制版模型。那么这个模型在测试集上就会表现的不好。 ------------ 这可不好,咱们想要的可是得能通用的

我们的决策树要是长得太高,就会出现过拟合的现象

④ 剪枝

>>>  我们的目标是:得到一颗尽可能浓缩了精华的矮子树!(重要的话说第四遍)

为了避免决策树长太高,就要对其咔咔剪枝!

剪枝的方法也有两种: 

  1. 预剪枝:在构建决策树的过程中,我们希望它提前停止。如:限制决策树深度;限定分支中最小的实例数量
  2. 后剪枝:决策树构建好后,然后才开始剪枝。如:比较剪枝前后两个模型的表现,如果差不多就可以剪掉

本文只是简单梳理了一下决策树原理,感兴趣的小伙伴可以再多了解C4.5,损失函数等等