Деревья решений

Data Mining Labs
Деревья Решений

2

Зачем нужны деревья решений ?
 Простые
 Наглядные
 «Белый ящик»
 Быстрые
 Работают с
любыми данными

 ≈Робастны

DM Labs

3

Зачем нужны деревья решений ?

Зачем?

× Простые
× Слабые
× Эвристическое
обучение (NP-complete)

× →разные деревья для
похожих данных

DM Labs

4

CART, история

CART

• CART “Classification and Regression Trees”
Breiman Friedman Olsen & Stone
• CART придумали для knn
http://www.youtube.com/watch?v=8hupHmBVvb0

• Альтернативные алгоритмы:
ID3
C4.5
ID5
CART

DM Labs

5

Из чего состоит дерево ?

DM Labs

Дерево

• Узлы (сплит) – условие

Пил яд?
bool

o Условия бинарные: >?, ==
o Условия только по одной переменной

ок

Цианид?
не полоний,
не мышьяк

• Ветки – True/False
• Листья – константы
o Регрессия: число

Больше 1мг?

ок

numeric

o Классификация: метка/число
не
ок

ок

6

Из чего состоит дерево ?

DM Labs

Дерево

• Узлы (сплит) – условие

Пил яд?
bool

o Условия бинарные: >?, ==
o Условия только по одной переменной

• Ветки – True/False

Цианид?
не полоний,
не мышьяк

• Листья – константы
o Регрессия: число
o Классификация: метка/число

Больше 1мг?

numeric

7

Как вырастить дерево ?

DM Labs

Как вырастить дерево?

Learning?
• Дерево недифференцируемо
• Допустим у нас 100 бинарных переменных...

Надо ли париться?
• Жадная схема
• Наверное не лучшое дерево, но и так сойдет

8

Как вырастить дерево ?

DM Labs

Как вырастить дерево?

1. Как делать сплиты?
2. Когда остановиться со сплитами?
~дошли до листьев
3. Что записывать в лист?

9

Откуда брать сплиты ?

Как делать сплиты?

DM Labs

• Нужно уметь сравнивать узлы – кого лучше
рассекать. Задать меру.
• Мера должна достигать максимума, если в узле
поровну всех классов (хуже будет).
• Должна быть нулем, если в узле все одного класса
(лучше не сделать).

10

Меры ( не ) хорошести сплитов


DM Labs

рассекать. Задать меру (не)хорошести .
1. Misclassification Rate
2. Entropy

H ( p) = −∑ p j log p j
j

3. Gini Index
i ( p ) = ∑ pi p j = 1 − ∑ p 2
j
i≠ j

j

0log0 = 0
p=(p1,p2,…. pn)

11

Меры ( не ) хорошести сплитов


рассекать. Задать меру (не)хорошести .
1. Misclassification Rate
2. Entropy
3. Gini Index

DM Labs

12

Проблемы с Misclassification Rate

Меры (не)хорошести

• Первая – самая логичная, НО:
o МБ ни один сплит ее не улучшает..

40% B

60% A

60% A

40% B

Split 1

Split 2

DM Labs

13

Проблемы с Misclassification Rate

Меры (не)хорошести

DM Labs

• Первая – самая логичная, НО:
o МБ она будет одинаковой для двух сплитов,
а один из них определенно лучше
400 A
400 B

ИЛИ?

400 A
400 B

300 A

100 A

200 A

200 A

100 B

300 B

400 B

0B

14

Хорошесть дерева


DM Labs

• Сумма хорошестей по узлам
помноженная на %точек в узле

400 A
400 B

ИЛИ?

400 A
400 B

300 A

100 A

200 A

200 A

100 B

300 B

400 B

0B

15



DM Labs

# точек

p классов

A

A

B

pA

pB

p2A

p2B

1- p2A- p2B

0.5

0.5

0.25

0.25

0.5

400

B

400

Gini Index

16

Хорошесть

# точек
A

дерева

p классов
B

Gini Index

A

pB

p2A

p2B

Вклад в
дерево

B

pA

DM Labs

1- p2A - p2B

300

100

0.75

0.25

0.5625

0.0625

0.375

0.1875

100

300

0.25

0.75

0.0625

0.5625

0.375

0.1875

Total

0.375

200

400

0.33

0.67

0.1111

0.4444

0.4444

0.3333

200

0

1

0

1

0

0

0

Total

0.3333

17

Построение сплитов


DM Labs

• Наделать кандидатов в листья:
o для всех сплитов,
o для каждой переменной,
o рекурсивно
• Выбрать сплит с наибольшим сниженим Gini Index.
• Внутрь – метку класса с majority vote или среднее

18



DM Labs

• Продолжаем процесс пока есть что сплитить
Тоесть, в листья осталось достаточно точек
• Лучше отрастить дерево, а потом сделать из него
аккуратный куст
o ...Если мы сразу не растили пень...

Игрушечный пример

DM Labs

Пример, игрушечный

• Надо выбрать по
какой переменной
делать сплит

• Записываем majority
vote/ среднее

6

A

4

A

2

A
A
A A A ABA
A
A
A
A
A A
A
A A
A A
AA
A
A
AA
A
A
A A
B
A A
A
A
A
A
A
A B A A
A
A B
B
A
BA B

B
B
B
B

B

A
A
A

B

A
B

BA

B
B B

B

B
BB
B B
BB B
B B

B
B
B
B B

B
0

• Берем оба
кандидата, ищем
оптимальный сплит,
сравниваем

Classifying A or B

y

19

B

B
B

B
B

B
B

B

B
B
B

B

B
B
B

0

2

4

6
x

8


20

DM Labs


• Получаем что-то такое
(R пакет rpart)

Plot showing how Tree works

6

A

A

• Каждый сплит
локально-оптимален

4

A
A
A

2

y

x< 2.808
|

A A ABA
A
A
A
A
A A
A
A A
A A
A
A
A AA
A
A
A
A A
B
A A
A
A
A
A
A B A A A
A
A B
B
A
BA B

0
y>=2.343

y>=3.442

B
B

B

A
B

BA

B
B B

B

B
BB
B B
BB B
B B

B
B
B
B B

B
B
B

B

A
A
A

B

B
B

B
B

B
B

B

B
B
B

B

B
B
B

0

2

4

6
x

A

B

A

B

8

21


:(

DM Labs

22

Пример классификации спама

Пример, spam

DM Labs

Упрощение дерева


DM Labs

• Проверять наилучшую глубину лучше с помощью
кросс-валидации.

Misclassification Rates
1
0.9
0.8
0.7

Misclassification rate
on Training Set

0.6
Error rates

23

0.5
0.4

Misclassification rate
on Test Set

0.3
0.2
0.1
0
0

10

20

30

40
Size of the Tree

50

60

70

80

Source: CART by Breiman et al.


24


DM Labs

• Проверять наилучшую глубину с помощью кроссвалидации.
• Вводится параметр complexity.
Варьируя его будет оставаться меньше листьев.
size of tree

Inf

0.32

3

5

6

9

10

14

17

21

24

26

0.4

0.6

0.8

1.0

2

0.2

X-val Relative Error

1

0.0057

0.003
cp

0.0021

0.0017

0.0011

Source: CART by Breiman et al.

25

Summary

Summary

DM Labs

• Дерево это хороший и наглядный инструмент
анализа
• Скорее всего оно будет не самым-оптимальным
• Оно простое, но предсказательной силы может не
хватить
• Оно простое, поэтому его быстро строить и быстро
использовать
• Обычно строится в глубину, а потом срезается
подстать какому-то критерию

26

Случайный лес


DM Labs

27



DM Labs

kaggle

cart

cart
cart
cart cart cart
cart
cart
cart
cart
cart
cart
cart cart cart cartcart cart
cart cart cart cart cartcart cart
cart cart cart cart cartcart cart cart cartcart cart
cart
cart
cart
cart
cart
cart
cart cart
cart
cart cart
cart
cart
cart cart cart cartcart
cart cart cartcart cart cart cart cart cart cart
cartcart
cart
cart
cart
cart cart cart cart cart cart
cart
cart
cart
cart cart cart cart
cart

cart

cart

28

Зачем нужен RF?


DM Labs

Random Forest = Bagging с деревьями (Breiman et al.)
• Очень простой алгоритм
• Просто паралеллить
• Отличная точность (kaggle-рецепт)
• Быстрый (по сравнению с neural committee)
Реализует принцип «мудрость толпы».

29

Идея RF

Идея

DM Labs

• Строим много моделей.
По-хорошему, разных, на разных dataset’ах.
С высоким variance и приемлимым bias.
• Усредняем – получаем низкое и то и другое.
• Если ошибки моделей некоррелированы, ошибка
должна уменьшится в М раз (по отношению к
составляющим ансамбль моделям).
• На практике оно коррелировано, но эффект есть

30

Алгоритм RF


Алгоритм:
For i in 1..M:
1. Делаем бутстрап-выборку данных.
2. Строим на ней дерево.
3. Кладем полученное дерево в ансамбль.
Использование:
1. Делаем прогноз всех M деревьев
2. Усредняем / делаем Majority Vote

DM Labs

31

Дерево в лесу


DM Labs

Деревья используют по-разному:
• Любой попавшийся алгоритм
• ID5 например строит более «широкую» сетку, не
глубоко. Cubist – RF c ID5
• Строят «до упора» - R randomForest
• Строят до заданного уровня (не парятся над
глубиной)

32

История методов ML


DM Labs

State-of-the-art, широкий класс задач:
• 1980-90-ые: Нейросети
• 2000-ые, начало: SVM
• 2000-ые, конец: Random Forest
• 2010-ые: Random Forest /GBM
• Сейчас: Deep Learning?
Его скоро разберут на части и вставят в RF 

33

Summary
• ...

Summary

DM Labs

Деревья решений

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Similar to Деревья решений

Similar to Деревья решений (8)

Деревья решений