A Brief Introduction to Decision Trees and Random Forest

数据挖掘与数据仓库
第六章
朱禹林博士
香港珠海学院计算机系
决策树
Decision Trees

2
内容提要
1.1 决策树
1.2 决策树的构建
1.3 小结
1.4 Workshop: 神经支持决策树

3
 树状结构数据类型，可以很好的
对数据进行分类；
 决策树的根节点到叶节点的每一
条路径构建一条规则；
 具有互斥且完备的特点，即每一
个样本均被且只能被一条路径所
覆盖；
 只要提供的数据量足够庞大真
实，通过数据挖掘模式
（ Pattern ），就可以构造决策
引言
犯罪？
婚姻状况
税后收入
YES
NO
NO
NO
Yes No
Married
Single,
Divorced
< 80K > 80K
划分属性

4
 相亲的常见场景
 母亲：小美，给你介绍个男
朋友吧。
 小美：多大年纪了？
 母亲： 26 。
 小美：长的怎么样？
 母亲：挺帅的。
 小美：收入高不？
 母亲：不算很高，中等情况。
 小美：是公务员不？
 母亲：是，在税务局上班呢。
 小美：那好，我去见见。
决策树基本思想

5
小美（女， 23 岁，企业白领）是如何选择相亲对象的，
尼美对于相亲对象的属性建模，总共包括哪些属性
性别
长相
年龄
收入
A
B
C
D
职业
E
多选题 1 分

6
 小美（女， 23 岁，企业白领）是
如何选择相亲对象的
 小美对对象的属性建模
< 性别，长相，年龄，收入，职业 >
 小美心中对对象筛选过程
性别：当然不能是女的
长相：要帅的
年龄：比自己大但小于 30
收入：中等或以上
职业：收入中等则要稳定体面
 小美根据属性将男同胞们分类
见 or 不见
公务员教师财会程序猿
见不见
见见
<23 >30
不见不见
中
职业
低
高
见不见
23-30
收入
女
不见
不见
不帅
年龄
帅
男
长相
性别
决策树基本思想

7
 相亲公司分析了小美相亲判断
过程的基本组成
 测试结点
表示某种作为判断条件的属性
 分支
根据条件属性取值选取的路径
 叶子 ( 节点 )
使判断终止的结论
 小美做选择时，其实用的是决
策树
 关键在于决策树如何构造
测试节点
<23 >30
不见不见
公务员教师财会程序猿
见不见
见见
中
职业
低
高
见不见
23-30
收入
女
不见
不见
不帅
年龄
帅
男
长相
性别
叶子
2.2 决策树基本思想
分支

8
一个决策树包括如下哪些要素
测试节点
分支
叶子 ( 节点 )
A
B
C
提交
多选题 1 分

9
一个决策树的例子（ Different? ）
categorical
categorical
continuous
class
Criminal
MarSt
TaxInc
YES
NO
NO
NO
Yes No
Married
Single,
Divorced
< 80K > 80K
Splitting Attributes
训练数据模型 : 决策树
Tid Criminal
Marital
Status
Taxable
Income
Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes

10
一个决策树的例子（ Different? ）
categorical
categorical
continuous
class
Criminal
MarSt
TaxInc
YES
NO
NO
NO
Yes No
Married
Single,
Divorced
< 80K > 80K
Splitting Attributes
Tid Criminal
Marital
Status
Taxable
Income
Cheat
3 No Single 70K No
6 No Married 60K No
8 No Single 85K Yes
9 No Married 75K No
MarSt
Criminal
TaxInc
YES
NO
NO
NO
Yes No
Married
Single,
Divorced
< 80K > 80K
两棵决策树的属性划分顺序不一样
到底构造哪课决策树分类效果最好
呢？

11
决策树
决策树分类
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes
Training Set
Test Set
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
Learning
algorithm
Learn
Model
Apply
Model
Model
归纳
推理
如何构造
决策树？

12
内容提要
1.1 决策树
1.3 小结

13
构造决策树
 有许多决策树算法：
 信息增益—— Information gain （ ID3 ）
 增益比率—— Gain ration （ ID3 ， C4.5 ）
 基尼指数—— Gini index (SLIQ ， SPRINT)

14
 依赖于属性的类型
 标称
 序数
 连续
 依赖于划分的路数
 多路划分
 二元划分
怎样为不同类型的属性指定测试条件？
Tid Criminal
Marital
Status
Taxable
Income
Cheat
3 No Single 70K No
6 No Married 60K No
8 No Single 85K Yes
9 No Married 75K No
Criminal
MarSt
TaxInc
YES
NO
NO
NO
Yes No
Married
Single,
Divorced
< 80K > 80K

15
 多路划分：划分数（输出数）取决
于该属性不同属性值的个数
 二元划分：划分数为 2 ，这种划分要考虑创建 k 个属性值的
二元划分的所有 2k-1
-1 种方法
婚姻
已婚
未婚
离婚
OR
基于标称属性的划分
Tid Refund
Marital
Status
Taxable
Income
Cheat
3 No Single 70K No
6 No Married 60K No
8 No Single 85K Yes
9 No Married 75K No
婚姻
{ 已婚 , 未婚 } { 离婚 }
婚姻
{ 已婚 , 离婚 } { 未婚 }
婚姻
{ 离婚 , 未婚 } { 已婚 }

16
基于序数属性的划分
 多路划分：划分数（输出数）取决于该属性不同属性值的
个数
 二元划分：划分数为 2 ，这种划分要考虑创建 k 个属性值的
二元划分的所有 2k-1
-1 种方法
Size
Small
Medium
Large
OR
Size
{Small, Medium} {Large}
Size
{Small, Large} {Medium}
Size
{Large, Medium} {Small}

17
基于连续属性的划分
 二元划分：（ A<v ） or （ Av ）
 考虑所有的划分点，选择一个最优划分点 v
 多路划分： viA<vi+1 （ i=1,…,k ）
Yes No
Taxable
Income
>80k?
二元划分
<10k >80k
Taxable
Income?
[10k,25k] [25k,50k] [50k,80k]
多路划分

18
决策树
 决策树归纳的设计问题
 如何分裂训练记录
• 怎样为不同类型的属性指定测试条件 ?
• 怎样评估每种测试条件 ?
 如何停止分裂过程
设 Dt 是与节点 t 相关联的训练记录集，算法步骤：
 不分裂：如果 Dt 中所有记录都属于同一个类 yt ，则 t 是叶节
点，用 yt 标记；
 分裂：如果 Dt 中包含属于多个类的记录，则选择一个属性测
试条件，将记录划分成较小的子集；
 对于测试条件的每个输出，创建一个子结点，并根据测试结果
将 Dt 中的记录分布到子结点中。然后，对于每个子结点，递归
地调用该算法

19
怎样选择最佳划分？
在划分前： 10 个记录 class 0,
10 个记录 class 1
Yes No
Sex?
C0: 6
C1: 4
C0: 4
C1: 6
Family Luxury
Car
Type?
Sports
C0: 1
C1: 3
C0: 1
C1: 7
C0: 8
C1: 0
C1
Custom
ID?
…
C10 C11
C20
C0: 1
C1: 0
C0: 0
C1: 1
C0: 1
C1: 0
C0: 0
C1: 1

20
 选择最佳划分的度量通常是根据划分后子结点纯性的程度。
纯性的程度越高，类分布就越倾斜，划分结果越好。
 结点纯性的度量：
纯性小
（不纯性大）
纯性大
怎样选择最佳划分？
C0:5
C1:5
C0:9
C1:1

21
训练集如右图所示：
根据训练集数据建立决
策树，并判断顾客：
( 青年，低收入，无游戏爱好，
中等信用度 )
是否有购买电脑的倾向
顾客数据
id 年龄收入爱好信用购买
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否

22
Entropy 基于熵




C
i
i
i p
p
S
Entropy
1
)
log(
)
(
pi: 数据集中将第 i 类作为目标值
的样本的比例。
不确定性
• 熵值越高，数据越混乱
• 熵值越低，数据越纯


 j
t
j
p
t
j
p
t
Entropy )
|
(
log
)
|
(
)
(
P(C1) = 0/6 = 0 P(C2) = 6/6 = 1
Entropy = – 0 log 0 – 1 log 1 = – 0 – 0 = 0


 j
t
j
p
t
j
p
t
Entropy )
|
(
log
)
|
(
)
(
P(C1) = 3/6 = 1/2 P(C2) = 3/6 = 1/2
Entropy = – 0.5 log 0.5 – 0.5 log 0.5 = – 0 – 0 = 0
c1 0
c2 6
c1 3
c2 3
数据纯度高
数据混乱

23
购买的比例为： [ 填空 1] /14
不购买的比例为： [ 填空 2] /14
购买数据的熵值： [ 填空 3]




C
i
i
i p
p
S
Entropy
1
)
log(
)
(
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
填空题

24
购买的比例为： 9/14
不购买的比例为： 5/14
购买数据的熵值：




C
i
i
i p
p
S
Entropy
1
)
log(
)
( id 年龄收入爱好信用购买
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否




A
v
v
v
S
Entropy
S
S
S
Entropy
A
S
Gain )
(
|
|
|
|
)
(
)
,
(
Sv: 其中属性 A 取值 v 的 S 的子集 .
Entropy 基于熵 —— 信息增益算法 ID3
信息增益：

25
1 、假设以年龄为树的根节点
对数据集做划分：
年龄
老年
中年
青年
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
id 收入爱好信用购买
4 中否中是
5 低是中是
6 低是优否
10 中是中是
14 中否优否
1 高否中否
2 高否优否
8 中否中否
9 低是中是
11 中是优是
3 高否中是
7 低是优是
12 中否优是
13 高是中是

26
[ 填空 1]
原始数据分类所需的期望信息：
按照年龄分类所需的期望信息：
940
.
0
)
14
5
(
log
14
5
)
14
9
(
log
14
9
)
5
,
9
(
)
(
n 2
2 



I
D
fo
I




A
v
v
v
S
Entropy
S
S
S
Entropy
A
S
Gain )
(
|
|
|
|
)
(
)
,
(
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
4 中否中是
5 低是中是
6 低是优否
10 中是中是
14 中否优否
1 高否中否
2 高否优否
8 中否中否
9 低是中是
11 中是优是
3 高否中是
7 低是优是
12 中否优是
13 高是中是
填空题



 )
2
,
3
(
14
5
)
4
,
0
(
14
4
)
3
,
2
(
14
5
)
(
nfo I
I
I
D
I age
Info
（否 , 是）

27
940
.
0
)
14
5
(
log
14
5
)
14
9
(
log
14
9
)
5
,
9
(
)
( 2
2 



I
D
Info
5 4 5
( ) (2,3) (0 4) (3,2)
14 14 14
age
Info D I I I
   
，




A
v
v
v
S
Entropy
S
S
S
Entropy
A
S
Gain )
(
|
|
|
|
)
(
)
,
(
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
4 中否中是
5 低是中是
6 低是优否
10 中是中是
14 中否优否
1 高否中否
2 高否优否
8 中否中否
9 低是中是
11 中是优是
3 高否中是
7 低是优是
12 中否优是
13 高是中是

28
信息增益：
940
.
0
)
14
5
(
log
14
5
)
14
9
(
log
14
9
)
5
,
9
(
)
( 2
2 



I
D
Info
694
.
0
)
2
,
3
(
14
5
)
0
,
4
(
14
4
)
3
,
2
(
14
5
)
( 


 I
I
I
D
Infoage
246
.
0
694
.
0
94
.
0
)
(
)
(
)
( 



 D
Info
D
Info
age
Gain age




A
v
v
v
S
Entropy
S
S
S
Entropy
A
S
Gain )
(
|
|
|
|
)
(
)
,
(

29
相似的
246
.
0
)
( 
age
Gain
( ) 0.029
( ) 0.151
( _ ) 0.048
Gain income
Gain fancy
Gain credit rating



1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
优先选择信息增益大
的属性去划分！

30
其它结点纯性的测量
Gini 基尼系数
Classification Error
分类错误率

31
 给定结点 t 的 Gini 值计算：
(p( j | t) 是在结点 t 中，类 j 发生的概率 )
 当类分布均衡时， Gini 值达到最大值 (1 - 1/nc)
 相反当只有一个类时， Gini 值达到最小值 0 ，纯性越大



j
t
j
p
t
GINI 2
)]
|
(
[
1
)
(
P(C1) = 0/6 = 0 P(C2) = 6/6 = 1
Gini = 1 – P(C1)2
– P(C2)2
= 1 – 0 – 1 = 0



j
t
j
p
t
GINI 2
)]
|
(
[
1
)
(
P(C1) = 3/6 = 1/2 P(C2) = 3/6 = 1/2
Gini = 1 – P(C1)2
– P(C2)2
= 1 – 1/4 – 1/4 = 1/2



j
t
j
p
t
GINI 2
)]
|
(
[
1
)
(
纯性的测量： GINI
c1 0
c2 6
c1 3
c2 3

32
 给定结点 t 的 Classification Error 值计算：
)
|
(
max
1
)
( t
i
P
t
Error i


P(C1) = 0/6 = 0 P(C2) = 6/6 = 1
Error = 1 – max (0, 1) = 1 – 1 = 0
P(C1) = 1/6 P(C2) = 5/6
Error = 1 – max (1/6, 5/6) = 1 – 5/6 = 1/6
基于 Classification Error 的划分
c1 0
c2 6
c1 1
c2 5

33
思考，哪棵树子节点纯性最高？
熵偏差
基于熵和 Gini 指标，会趋向于具有大量不同值的划分如：
利用雇员 id 产生更纯的划分，但它却毫无用处。
在划分前： 10 个记录 class 0,
10 个记录 class 1
Yes No
Sex?
C0:6
C1:4
C0:4
C1:6
Family Luxury
Car
Type?
Sports
C0:1
C1:3
C0:1
C1:7
C0:8
C1:0
C1
Custom
ID?
…
C10 C11
C20
C0:1
C1:0
C0:0
C1:1
C0:1
C1:0
C0:0
C1:1

34
解决该问题的策略有两种：
 限制测试条件只能是二元划分
 使用增益率， K 越大， Split_INFO 越大，增益率被平衡。即增
益率惩罚属性值过多的划分。
INFO
Split
GAIN
RATIO
Gain
Split
split
_
_ 




k
i
i
i
n
n
n
n
INFO
Split
1
log
_
考虑增益率（ Gain Ratio ） C4.5 算法
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否

35
INFO
Split
GAIN
RATIO
Gain
Split
split
_
_ 




k
i
i
i
n
n
n
n
INFO
Split
1
log
_
[ 填空
1]
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
246
.
0
)
( 
age
Gain
( ) 0.029
( ) 0.151
( _ ) 0.048
Gain income
Gain fancy
Gain credit rating



填空题
收入属性的划分信息：

36
考虑增益率（ Gain Ratio ） C4.5 算法
gain_ratio(income) = 0.029/1.557 = 0.019
INFO
Split
GAIN
RATIO
Gain
Split
split
_
_ 




k
i
i
i
n
n
n
n
INFO
Split
1
log
_
1.557
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
246
.
0
)
( 
age
Gain
( ) 0.029
( ) 0.151
( _ ) 0.048
Gain income
Gain fancy
Gain credit rating




37
数据是连续的怎么办
 二元划分：（ A<v ） or （ Av ）
 考虑所有的划分点，选择一个最优划分点 v
 多路划分： viA<vi+1 （ i=1,…,k ）
Yes No
Taxable
Income
>80k?
二元划分
<10k >80k
Taxable
Income?
[10k,25k] [25k,50k] [50k,80k]
多路划分
分箱操作

38
一个例子
序号姓名职业分类职位评级收入有房有车债务情况评级
1 A 金融 A 类 40W 1 低钻石男
2 B IT A 类 18W 3 高经适男
3 C 行政 A 类 19W 2 低经适男
4 D 司法 A 类 35W 0 低钻石男
5 E 行政 B 类 11W 3 中牛奋男
6 F 金融 B 类 37.5W 3 低钻石男
7 G IT B 类 12W 2 中牛奋男
8 H 司法 A 类 19.8W 2 低经适男
9 J 行政 A 类 24.2W 0 低经适男
10 K 教育 C 类 9.5W 3 低牛奋男
11 L 司法 A 类 50W 3 中钻石男
12 M 教育 C 类 11.8W 2 低牛奋男
13 N IT B 类 17W 0 低牛奋男
14 P 教育 A 类 32W 2 中经适男
15 Q 教育 C 类 14W 2 低经适男
16 R IT B 类 19.2W 2 高牛奋男

39
连续变量的离散化处理
 收入是个连续变量，分割成离散区间
40W
钻石
男
18W
经适
男
19W
经适
男
35W
钻石
男
11W
牛奋
男
37.5W
钻石
男
12W
牛奋
男
19.8W
经适
男
24.2W
经适
男
9.5W
牛奋
男
50W
钻石
男
11.8W
牛奋
男
17W
牛奋
男
32W
经适
男
14W
经适
男
19.2W
牛奋
男
9.5W
牛奋
男
11.8W
牛奋
男
14W
经适
男
18W
经适
男
19W
经适
男
24.2W
经适
男
32W
经适
男
35W
钻石
男
37.5W
钻石
男
40W
钻石
男
50W
钻石
男
19.8W
经适
男
排序
11W
牛奋
男
12W
牛奋
男
17W
牛奋
男
19.2W
牛奋
男
9.5W
牛奋
男
11.8W
牛奋
男
14W
经适
男
18W
经适
男
19W
经适
男
24.2W
经适
男
32W
经适
男
35W
钻石
男
37.5W
钻石
男
40W
钻石
男
50W
钻石
男
19.8W
经适
男
11W
牛奋
男
12W
牛奋
男
17W
牛奋
男
19.2W
牛奋
男
分割区间
<=13W >13W && <=33.5W >33.5W
13W 33.5W

40
9.5W
牛奋
男
11.8W
牛奋
男
14W
经适
男
18W
经适
男
19W
经适
男
24.2W
经适
男
32W
经适
男
35W
钻石
男
37.5W
钻石
男
40W
钻石
男
50W
钻石
男
19.8W
经适
男
排序
11W
牛奋
男
12W
牛奋
男
17W
牛奋
男
19.2W
牛奋
男
40W
钻石
男
18W
经适
男
19W
经适
男
35W
钻石
男
11W
牛奋
男
37.5W
钻石
男
12W
牛奋
男
19.8W
经适
男
24.2W
经适
男
9.5W
牛奋
男
50W
钻石
男
11.8W
牛奋
男
17W
牛奋
男
32W
经适
男
14W
经适
男
19.2W
牛奋
男
……
二元划分 —— 选择最佳划分点
 分割区间的策略
 从最小值开始建立分割区间，开始计算各自的信息增益，选择
信息增益最大的一个分割区间作为最佳划分点
GAIN

41
采用决策树分类算法，连续数据如何处理？
连续数据离散化
选择最佳划分点分裂
连续数据每 2 个值之间形成分裂
A
B
C
多选题

42
采用信息增益等准则继续往下分裂，直到数据都属于同一类
构造决策树流程
1 青高否中否
2 青高否优否
3 中高否中是
4 老中否中是
5 老低是中是
6 老低是优否
7 中低是优是
8 青中否中否
9 青低是中是
10 老中是中是
11 青中是优是
12 中中否优是
13 中高是中是
14 老中否优否
4 中否中是
5 低是中是
6 低是优否
10 中是中是
14 中否优否
1 高否中否
2 高否优否
8 中否中否
9 低是中是
11 中是优是
3 高否中是
7 低是优是
12 中否优是
13 高是中是
老年
中年
青年
年龄

43
割草机制造商意欲发现一个
把城市中的家庭分成那些愿意购
买乘式割草机和不愿意购买的两
类的方法。在这个城市的家庭中
随机抽取 24 个非拥有者的家庭作
为样本。
自变量是收入和草地面积
类别变量是：拥有和没有割
草机。
构造决策树 —— 一个例子
id 收入草地面积拥有
1 60 18.4 是
2 85.5 16.8 是
3 64.8 21.6 是
4 61.5 20.8 是
5 87 23.6 是
6 110.1 19.2 是
7 108 17.6 是
17 84 17.6 否
18 49.2 17.6 否
19 59.4 16 否
20 66 18.4 否
21 47.4 16.4 否
22 33 18.8 否
23 51 14 否
24 63 14.8 否

44

45



j
t
j
p
t
GINI 2
)]
|
(
[
1
)
(
草地面积 >19

46
草地面积 >19
收入
>84.75
收入
<57.15

47
1 19
2 84.75 3 57.15
X2<=19 X2>19
#=12 #=12
草地面积
收入收入
X1<=84.75
#=10 #=2
X1>84.75 X1<=57.15
#=3 #=9
X1>57.15

48
每次都找一个最佳分裂点

49
构造决策树 —— 一个例子（ CART 算法）
1 19
2 84.75 3 57.15
X2<=19 X2>19
12
草地面积
收入收入
X1<=84.75
10 2
X1>84.75 X1<=57.15
3 9
X1>57.15
4 18 5 21.4 6 19.8
7 18.6
9 63
8.33%
29.1% 8.33% 4.16% 8 19.4 29.1%
4.16% 4.16% 4.16%
4.16% 4.16%
12
草地面积
7 3
2
草地面积
2 1
草地面积
2 7
1
1
1
2
草地面积
2 1
草地面积
1 1
2 1 2
收入
2 1
1 2
训练集不大，但是决策树已经很复杂了

50
 过拟合问题
构造决策树 —— 复杂的决策树带来过拟合问题

51
 两种避免过拟合的方法
 预剪枝 : 如果划分带来的信息增益、 Gini 指标等低于阈值，或
元组数目低于阈值，则停止这次划分
 后剪枝 : 从完全生长的树中剪去树枝——得到一个逐步修剪树
【提示：度量分类器性能】
构造决策树 —— 剪枝方法
一棵未剪枝的决策树和它剪枝后的版本

52
下列说法正确的是
过拟合是由于训练集多，模型过于简单
过拟合是由于训练集少，模型过于复杂
欠拟合是由于训练集多，模型过于简单
欠拟合是由于训练集少，模型过于简单
A
B
C
D
多选题

53
下列说法正确的是
决策树算法不能很好的解决冗余属性的问题
决策树算法对噪声敏感
决策树可以学习特征之间的线性关系
决策树对特征的单调变换不敏感
A
B
C
D
提交
多选题 1 分

54
内容提要
1.1 决策树
1.3 小结

55
总结
 特点 :
 决策树是一种构建分类模型的非参数方法
 不需要昂贵的的计算代价
 决策树相对容易解释
 决策树是学习离散值函数的典型代表
 决策数对于噪声的干扰具有相当好的鲁棒性
 冗余属性不会对决策树的准确率造成不利影响
 数据碎片问题：随着数的生长，可能导致叶结点记录数太少，
对于叶结点代表的类，不能做出具有统计意义的判决
 子树可能在决策树中重复多次，使决策树过于复杂
 决策树无法学习特征之间的线性关系：特征构造

56
内容提要
1.1 决策树
1.3 小结

57
Workshop
• 决策树在人工智能中的经典算法：
• NBDT: Neural-Backed Decision Tree, ICLR'21 Poster.
• 上机练习： Github: https://github.com/alvinwan/neural-
backed-decision-trees
论文动机：
• 基于连接主义的人工神经网络模型缺乏可解释性，限制了其
在金融和医疗领域的应用范围。
• 传统的决策树方法可解释性强，可以提供清晰的顺序决策过
程，但是模型精度比神经网络差。
• 传统基于显著图 (Saliency Map) 通过识别哪些像素对预测的
影响最大来解释模型预测。但是通过关注输入，显著图会忽
略模型的决策过程。

58
神经支持决策树
创新点
• 该论文提出了神经支持决策树，结合了神经网络的强大的表征能力与决策
树的强可解释性。
• 神经支持决策树是一种分层分类器：
• 分层结构是从模型参数上派生的，避免过拟合的发生
• 可以基于任何现有分类神经网络中创建，而无需进行架构修改
• 通过使用单个模型，使用决策树的顺序决策来实现可解释性
• 提出树监督损失函数 (tree supervision loss), 来重新训练或微调该分类网
络。
• 提出嵌入式决策规则 (embedded decision rules) 与诱导层级 (induced
hierarchy), 来提炼出神经网络最后一层全连接层的隐含决策过程。
基本思想：
Step 1: 使用预训练好的卷积神经网络提取样本的特征 .
Step 2: 运行嵌入在全连接层中的决策规则 .
也就是说， NBDT 方法保留原神经网络的特征提取部分结构，只在最后的全
连接层上进行决策树嵌入，从而在不改变原网络结构、不降低准确度的前提下
增加网络的可解释性。

59
完整流程

60
构建诱导层级：举例：
Step D
思想来源于层次聚类的方法。
如何判断输入 x 进入哪个分支？例如比较 <x,w1> 与 <x,w2> 的大小，样本 x 进入内积大的那个分支。注意：这里的样本 x 是神
经网络的特征，而不是输入数据！

61
使用树损失函数对神经网络进行微调：
• 树损失函数迫使模型在给定固定的树层次结构的情况下最大化
决策树的准确性。
• 但因为预训练的网络只会将输出类别的向量尽量大地分开，在
微调过程中并不会使内部的节点之间也分开，从而使内部节点
非常靠近而不能产生决策树上的区分效果。
• 不仅叶子节点需要最小化损失，内部节点也需要最小化损失。
• 刚性内部节点损失函数
• 使用 WorldNet （大型英文词汇数据库，以层次结构的形式组
织）标记中间节点，例如 Dog 和 Cat 是共享父节点的两个叶
子节点，则把“哺乳动物”作为其父节点的标签。

62
实验结果：

A Brief Introduction to Decision Trees and Random Forest

More Related Content

Featured

A Brief Introduction to Decision Trees and Random Forest

Editor's Notes