结果解释
决策树使用您先前的决策来计算您是否愿意去看喜剧演员的几率。
让我们阅读决策树的不同方面:
Rank
Rank <= 6.5 表示排名在 6.5 以下的喜剧演员将遵循 True 箭头(向左),其余的则遵循 False 箭头(向右)。
gini = 0.497 表示分割的质量,并且始终是 0.0 到 0.5 之间的数字,其中 0.0 表示所有样本均得到相同的结果,而 0.5 表示分割完全在中间进行。
samples = 13 表示在决策的这一点上还剩下 13 位喜剧演员,因为这是第一步,所以他们全部都是喜剧演员。
value = [6, 7] 表示在这 13 位喜剧演员中,有 6 位将获得 "NO",而 7 位将获得 "GO"。
Gini
分割样本的方法有很多,我们在本教程中使用 GINI 方法。
基尼方法使用以下公式:
Gini = 1 - (x/n)2 - (y/n)2
其中,x 是肯定答案的数量 ("GO"),n 是样本数量,y 是否定答案的数量 ("NO"),使用以下公式进行计算:
1 - (7 / 13)2 - (6 / 13)2 = 0.497
下一步包含两个框,其中一个框用于喜剧演员,其 'Rank' 为 6.5 或更低,其余为一个框。
True - 5 名喜剧演员在这里结束:
gini = 0.0 表示所有样本均得到相同的结果。
samples = 5 表示该分支中还剩下 5 位喜剧演员(5 位的等级为 6.5 或更低的喜剧演员)。
value = [5, 0] 表示 5 得到 "NO" 而 0 得到 "GO"。
False - 8 位戏剧演员继续:
Nationality(国籍)
Nationality <= 0.5 表示国籍值小于 0.5 的喜剧演员将遵循左箭头(这表示来自英国的所有人),其余的将遵循右箭头。
gini = 0.219 意味着大约 22% 的样本将朝一个方向移动。
samples = 8 表示该分支中还剩下 8 个喜剧演员(8 个喜剧演员的等级高于 6.5)。
value = [1, 7] 表示在这 8 位喜剧演员中,1 位将获得 "NO",而 7 位将获得 "GO"。