Scaling decision trees - George Murray, July 2015

Machine Learning at
Indeed
Scaling Decision Trees

George Murray
Delivery Lead, Resume Data Team

Decision Tree Learning
Given a set of documents, split it into two or more
subsets that optimize some criteria.
Repeat this process until a set can no longer be split.

50
0
80
9
all passengers
survived perished

Decision Tree Learning
In this analogy:
• passengers = impressions
• survivors = clicks

50
0
80
9
all passengers
survived perished
319
181
281 528
class ∈ [1, 2] class ∉ [1, 2]
339
161
127
682
gender = f gender ≠ f
200 300
123
686
class = 1 class ≠ 1

H=0.6267
H=0.6244
H=0.5525
50
0
80
9
all passengers
survived perished
319
181
281 528
class ∈ [1, 2] class ∉ [1, 2]
339
161
127
682
200 300
123
686
class = 1 class ≠ 1

339
161
127
682
survived perished

339
161
127
682
survived perished
class = 1 class < 3

72.7%
female
19.1%
male
38.2%
all passengers
49.1%
class = 2
93.2%
class <= 2
15.1%
class ≠ 1
34.1%
class = 1
13.1%
fsize ≠ 2
33.9%
fsize = 2
24.4%
fsize > 2
54.9%
fsize <= 2

One layer at a time, all nodes simultaneously

Inverted Index
• Map terms to the list of documents that contain that
term
• Terms and documents are stored in sorted order
• Key structure in search engines
• Also key to building one layer at a time efficiently
• Apache Lucene, Indeed Flamdex

Inverted Index
class=1 : 0,1,2,3,4,5,6,7,8,9…

Inverted Index
class=1 : 0,1,2,3,4,5,6,7,8,9…
Field
Term
Document IDs

Inverted Index
class=1 : 0,1,2,3,4,5,6,7,8,9…
class=2 : 323,324,325,326…
class=3 : 600,601,602,603…
fsize=0 : 0,5,7,9,12,13,14,15…
fsize=1 : 6,10,11,16,17,26,27…
fsize=2 : 8,20,21,42,76,77,78…
gender=f : 0,2,4,6,8,11,12,13…
gender=m : 1,3,5,7,9,10,14,15…
survived=0 : 2,3,4,7,9,10,15,16…
survived=1 : 0,1,5,6,8,11,12,13…

Primary Lookup Tables
• groups[doc]: Where in the tree each doc is. All
docs start at root, so initially all 1s.
• values[doc]: Value to be classified for each doc.
For the titanic this is 1 if survived, 0 if not. In
general, invert the field of interest.

Main Loop
foreach field
foreach term
get group stats
evaluate splits
apply best splits
repeat n times or until no more splits found

Main Loop
foreach field (class,fsize,gender,…)
foreach term
get group stats
evaluate splits
apply best splits

Main Loop
foreach term (class=1,class=2,…)
get group stats
evaluate splits
apply best splits

Get Group Stats
• count[grp]: Count of how many documents in the
group contain the current term. All 0s initially.
• vsum[grp]: Summation of the value to be classified
from the documents within that group that contain
the current term. Also all 0s initially.

Get Group Stats
// for current field+term
foreach doc
grp = grps[doc]
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc]

Get Group Stats
// for current field+term (class=1)
foreach doc
grp = grps[doc]
if grp == 0 skip
count[grp]++

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc]
if grp == 0 skip
count[grp]++

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 0, vsum[1] = 0

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 1, vsum[1] = 1

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 2, vsum[1] = 2

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 3, vsum[1] = 2

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 4, vsum[1] = 2

Get Group Stats
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 323, vsum[1] = 200

Get Group Stats
// for current field+term (gender=m)
foreach doc (1,3,5,7,…)
grp = grps[doc] (1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[1] = 1, vsum[1] = 1

Evaluate Splits
Consider current field/term as a potential split for each
group
1. Check if split is admissible: balance check,
significance, etc.
2. Score the split: conditional entropy, or some other
heuristic
3. Keep the best scoring split

Evaluate Splits
More tables:
• totalcount[group], totalvalue[group]: Total
number of documents and total values for each
group — in this example, number of passengers and
survivors respectively
• bestsplit[group], bestscore[group]: Current best
split and score for each group, initially nulls

Evaluate Splits
foreach group
if not admissible (…) skip
score = calcscore(cnt[grp], vsum[grp],
totcnt[grp], totval[grp])
if score < bestscore[grp]
bestscore[grp] = score
bestsplit[grp] = (field,term)

Main Loop
get group stats
evaluate splits
apply best splits (bestsplit[1]=(gender,f))

Apply Best Splits
All passengers

Apply Best Splits
gender ≠ f gender = f

Apply Best Splits
DocID group[ID] DocID group[ID] DocID group[ID]
0 1 7 1 14 1
1 1 8 1 15 1
2 1 9 1 16 1
3 1 10 1 17 1
4 1 11 1 18 1
5 1 12 1 19 1
6 1 13 1 20 1
gender=f : 0,2,4,6,8,11,12,13,17,18,21,23,…

Apply Best Splits
0 3 7 1 14 1
1 1 8 1 15 1
2 1 9 1 16 1
3 1 10 1 17 1
4 1 11 1 18 1
5 1 12 1 19 1
6 1 13 1 20 1
gender=f : 0,2,4,6,8,11,12,13,17,18,21,23,…

Apply Best Splits
0 3 7 1 14 1
1 1 8 1 15 1
2 3 9 1 16 1
3 1 10 1 17 1
4 1 11 1 18 1
5 1 12 1 19 1
6 1 13 1 20 1
gender=f : 0,2,4,6,8,11,12,13,17,18,21,23,…

Apply Best Splits
0 3 7 1 14 1
1 1 8 1 15 1
2 3 9 1 16 1
3 1 10 1 17 1
4 3 11 1 18 1
5 1 12 1 19 1
6 1 13 1 20 1
gender=f : 0,2,4,6,8,11,12,13,17,18,21,23,…

Apply Best Splits
0 3 7 1 14 1
1 1 8 3 15 1
2 3 9 1 16 1
3 1 10 1 17 3
4 3 11 3 18 3
5 1 12 3 19 1
6 3 13 3 20 1
gender=f : 0,2,4,6,8,11,12,13,17,18,21,23,…

Apply Best Splits
0 3 7 1 14 1
1 1 8 3 15 1
2 3 9 1 16 1
3 1 10 1 17 3
4 3 11 3 18 3
5 1 12 3 19 1
6 3 13 3 20 1
gender≠f : 1,3,5,7,9,10,14,15,16,19,20,…

Apply Best Splits
0 3 7 2 14 2
1 2 8 3 15 2
2 3 9 2 16 2
3 2 10 2 17 3
4 3 11 3 18 3
5 2 12 3 19 2
6 3 13 3 20 2
gender≠f : 1,3,5,7,9,10,14,15,16,19,20,…

Main Loop
get group stats
evaluate splits
apply best splits (bestsplit[1]=(gender,f))
repeat n times or until no more splits
found

Main Loop - 2nd Iteration
foreach term
get group stats
evaluate splits
apply best splits

Main Loop - 2nd Iteration
get group stats
evaluate splits
apply best splits

Get Group Stats (1st loop)
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (1,1,1,1,1,1,1,1,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)

Get Group Stats (Now)
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (3,2,3,2,3,2,3,2,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)

Get Group Stats (Now)
foreach doc (0,1,2,3,4,5,6,7,8,…)
grp = grps[doc] (3,2,3,2,3,2,3,2,…)
if grp == 0 skip
count[grp]++
vsum[grp] += vals[doc] (1,1,0,0,0,1,1,0,…)
count[2] = 179, vsum[2] = 61
count[3] = 144, vsum[3] = 139

Multiple Machine
Implementation

Hadoop
• Each level took five sequential MR jobs
• Ended up much slower than a single machine

Shard 2Shard 1
Machine 1 Machine 2

FTGS Stream - One Machine
class 1 1 323;200
class 2 1 277;119
class 3 1 709;181
fsize 0 1 790;239
fsize 1 1 235;126
fsize 2 1 159;90
fsize 3 1 43;30
fsize 4 1 22;6
fsize 5 1 25;5
fsize 6 1 16;4
fsize 7 1 8;0
fsize 10 1 11;0
gender f 1 466;339
gender
m 1 843;161

Shard 2Shard 1
MergeFTGS 1 FTGS 2

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39
class 1 1 323;200
+

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39
class 2 1 277;119
class 1 1 323;200

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39
class 3 1 709;181
class 2 1 277;119
class 1 1 323;200
+

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39
fsize 0 1 790;239
class 3 1 709;181
class 2 1 277;119
class 1 1 323;200

FTGS Stream Merge
class 1 1 198;111
class 2 1 277;119
class 3 1 511;129
fsize 0 1 790;239
fsize 1 1 94;53
fsize 2 1 75;48
fsize 3 1 21;17
fsize 4 1 3;1
fsize 5 1 25;5
gender f 1 308;237
gender m 1 678;122
class 1 1 125;89
class 3 1 198;52
fsize 1 1 141;73
fsize 2 1 84;42
fsize 3 1 122;13
fsize 4 1 19;5
fsize 6 1 16;4
fsize 10 1 11;0
fsize 7 1 8;0
gender f 1 158;102
gender m 1 165;39
fsize 1 1 235;126
fsize 0 1 790;239
class 3 1 709;181
class 2 1 277;119
class 1 1 323;200
+

FTGS Stream Merge
Shard 1 Shard 2 Shard 3 Shard 4 Shard 5 Shard 6

FTGS Stream Merge
FTGS 1 FTGS 2 FTGS 3 FTGS 4 FTGS 5 FTGS 6
K-way Merge — O(n k log k)

FTGS Stream Merge
FTGS 1 FTGS 2 FTGS 3 FTGS 4 FTGS 5 FTGS 6 FTGS 7 FTGS 8 FTGS 9 FTGS 10 FTGS 11 FTGS 12
Merge 1-6 Merge 7-12
Merge 1-12

Evaluate Splits
Merge / Evaluate 1-12

Apply Best Splits
Merge / Evaluate 1-12

Apply Best Splits
Regroup 1 Regroup 2 Regroup 3 Regroup 4 Regroup 5 Regroup 6 Regroup 1 Regroup 2 Regroup 3 Regroup 4 Regroup 5 Regroup 6
Regroup 1-12
Regroup 1-6 Regroup 7-12

Main Loop
foreach field
foreach term
get group stats
evaluate splits
apply best splits
repeat n times or until no more splits
found

Imhotep
A distributed system that does efficient FTGS and regroup
operations on inverted indices

Imhotep
• 32 Machines
• 2x 6-core Xeon Westmere E5649
• 128GB RAM
• 10x1TB 7200 RPM SATA
Total: 384 cores, 4TB RAM, 320TB disk

Imhotep
Decision tree on 13 billion documents
Inverted index size: 330GB

Imhotep
Decision tree on 13 billion documents
Inverted index size: 330GB
First FTGS: 314 seconds (36.3M terms)
First Regroup: 9.6 seconds (7 groups)
Second FTGS: 57 seconds
Second Regroup: 23 seconds (217 groups)

Imhotep
Also powers our internal analytics tools

Scaling decision trees - George Murray, July 2015

Scaling decision trees - George Murray, July 2015

More Related Content

Similar to Scaling decision trees - George Murray, July 2015

More from Seattle DAML meetup

Recently uploaded

Scaling decision trees - George Murray, July 2015

Editor's Notes