Machine Learning: Decision Trees Chapter 18.1-18.3

Machine Learning: Decision Trees Chapter 18.1-18.3 Some material adopted from notes by Chuck Dyer

What is learning? ,[object Object],[object Object],[object Object]

Why study learning? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

A general model of learning agents

Major paradigms of machine learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

The inductive learning problem ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Supervised concept learning ,[object Object],[object Object],[object Object]

Inductive learning framework ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Inductive learning as search ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Model spaces ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Model spaces + + - - Nearest neighbor Version space Decision tree I I + + - - I + + - -

Inductive learning and bias ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Preference bias: Ockham’s Razor ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Learning decision trees ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Color Shape Size + + - Size + - + big big small small round square red green blue

Decision tree-induced partition – example I Color Shape Size + + - Size + - + big big small small round square red green blue

Expressiveness ,[object Object],[object Object],[object Object],[object Object]

Hypothesis spaces ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

R&N’s restaurant domain ,[object Object],[object Object],[object Object],[object Object],[object Object]

A decision tree from introspection

Attribute-based representations ,[object Object],[object Object],[object Object],[object Object]

ID3 Algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object]

Choosing the best attribute ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Choosing an attribute ,[object Object],[object Object]

Information theory 101 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Information theory II ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Huffman code ,[object Object],[object Object],[object Object],[object Object],[object Object]

Huffman code example ,[object Object],[object Object],[object Object],[object Object],[object Object],.5 .5 1 .125 .125 .25 A C B D .25 0 1 0 0 1 1 If we use this code to many messages (A,B,C or D) with this probability distribution, then, over time, the average bits/message should approach 1.75

Information for classification ,[object Object],[object Object],[object Object],[object Object],C 1 C 2 C 3 C 1 C 2 C 3 High information Low information

Information for classification II ,[object Object],[object Object],C 1 C 2 C 3 C 1 C 2 C 3 High information Low information

Information gain ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Computing information gain ,[object Object],[object Object],[object Object],Gain (Pat, T) = 1 - .47 = .53 Gain (Type, T) = 1 – 1 = 0 French Italian Thai Burger Empty Some Full Y Y Y Y Y Y N N N N N N

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

How well does it work? ,[object Object],[object Object],[object Object],[object Object]

Extensions of the decision tree learning algorithm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Using gain ratios ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Computing gain ratio ,[object Object],[object Object],[object Object],Gain (Pat, T) =.53 Gain (Type, T) = 0 SplitInfo (Pat, T) = - (1/6 log 1/6 + 1/3 log 1/3 + 1/2 log 1/2) = 1/6*2.6 + 1/3*1.6 + 1/2*1 = 1.47 SplitInfo (Type, T) = 1/6 log 1/6 + 1/6 log 1/6 + 1/3 log 1/3 + 1/3 log 1/3 = 1/6*2.6 + 1/6*2.6 + 1/3*1.6 + 1/3*1.6 = 1.93 GainRatio (Pat, T) = Gain (Pat, T) / SplitInfo(Pat, T) = .53 / 1.47 = .36 GainRatio (Type, T) = Gain (Type, T) / SplitInfo (Type, T) = 0 / 1.93 = 0 French Italian Thai Burger Empty Some Full Y Y Y Y Y Y N N N N N N

Real-valued data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Noisy data and overfitting ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Pruning decision trees ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],2 success 4 failure FAILURE Training Test Pruned Color 1 success 0 failure 0 success 2 failures red blue Color 1 success 3 failure 1 success 1 failure red blue

Converting decision trees to rules ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Evaluation methodology ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Performance measurement ,[object Object],[object Object],[object Object],[object Object]

Summary: Decision tree learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Machine Learning: Decision Trees Chapter 18.1-18.3

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Machine Learning: Decision Trees Chapter 18.1-18.3

Similar to Machine Learning: Decision Trees Chapter 18.1-18.3 (20)

More from butest

More from butest (20)

Machine Learning: Decision Trees Chapter 18.1-18.3