Slides arbres-ubuntu
Upcoming SlideShare
Loading in...5
×
 

Slides arbres-ubuntu

on

  • 914 views

 

Statistics

Views

Total Views
914
Views on SlideShare
502
Embed Views
412

Actions

Likes
2
Downloads
11
Comments
0

14 Embeds 412

http://freakonometrics.hypotheses.org 295
http://feedly.com 79
http://reader.aol.com 10
http://digg.com 7
http://www.statsblogs.com 6
http://127.0.0.1 4
https://www.commafeed.com 2
http://www.inoreader.com 2
http://www.feedspot.com 2
http://www.newsblur.com 1
https://twitter.com 1
http://feeds.feedburner.com 1
http://feedproxy.google.com 1
http://translate.googleusercontent.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Slides arbres-ubuntu Slides arbres-ubuntu Presentation Transcript

  • Arthur CHARPENTIER - Arbres de Classification Arbres de Classification Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.hypotheses.org/ Avril 2014 Séminaires en méthodes d’analyses quantitatives et qualitatives 1
  • Arthur CHARPENTIER - Arbres de Classification La problématique Victimes d’infarctus du myocarde lors de leur admission aux urgences. On observe ; : ◦ fréquence cardiaque (FRCAR), ◦ index cardiaque(INCAR) ◦ index systolique (INSYS) ◦ pression diastolique (PRDIA) ◦ pression arterielle pulmonaire (PAPUL) ◦ pression venticulaire (PVENT) ◦ resistance pulmonaire (REPUL) ◦ décès - ou pas - de la personne Source : Saporta, G. (2006). 2
  • Arthur CHARPENTIER - Arbres de Classification Plan de la présentation • Introduction ◦ La problématique de la classification ◦ Retour sur la régression logistique • Analyse d’une classification ◦ Erreurs, faux positifs, faux négatifs ◦ Courbe ROC et autres courbes • Les arbres de classification ◦ Critère de discrimination, Gini et entropie ◦ Méthode CART ◦ Robustification par bootstrap et forêts aléatoires 3
  • Arthur CHARPENTIER - Arbres de Classification La classification : modélisation d’une variable 0/1 [0] [0] qqq DECESSURVIE 60 70 80 90 100 110 120 q qqq qq qqq q qqq qq qqq qqq q qq qq q qq qq qqq qqqqq qq qq qq q qq qqq qqq qq qq qq q qqq q q qq qq q FRCAR q DECESSURVIE 1.0 1.5 2.0 2.5 3.0 qq qq qqq qqq qqqq q qq qqqqq q qqq qq q q q qq q q qqq q qqqq qq qqq qq qqq qqq qq q qqq qq qq q qqqq INCAR q q q DECESSURVIE 10 20 30 40 50 qq qq q qq qqq qq qq qqq qq qqq q qqq qq q q qqq qq qq q qqqqq qq qqqq q qqq qq q qq q qqq q q qqq qq qq INSYS q q DECESSURVIE 10 15 20 25 30 35 40 45 qqqq qq qqqq q qq qq qq q qqq q qq q q qqq qq qqq q qqq q qqqq qqq qqq qqqq q qqq q qq qqqq q q qq qqq PAPUL DECESSURVIE 5 10 15 20 qq qqq qq qqqq qqqq q qq qqq q qq qqqq q qqq qqq q qq qqqq qqqq q qqq qq q qq qq qqqq qq q qqqq q qq PVENT DECESSURVIE 500 1000 1500 2000 2500 3000 q qq qqq qq qqq qq qq qqq qqq q qq q qqqq qq q qq qqqqqq q qqq qq q qq qq qqq qqq qqq q qqq q q qq qqq REPUL 4
  • Arthur CHARPENTIER - Arbres de Classification La classification : modélisation d’une variable 0/1 [0] [0] qqq DECESSURVIE 60 70 80 90 100 110 120 FRCAR q DECESSURVIE 1.0 1.5 2.0 2.5 3.0 INCAR q q q DECESSURVIE 10 20 30 40 50 INSYS q q DECESSURVIE 10 15 20 25 30 35 40 45 PAPUL DECESSURVIE 5 10 15 20 PVENT DECESSURVIE 500 1000 1500 2000 2500 3000 REPUL 5
  • Arthur CHARPENTIER - Arbres de Classification Régression linéaire, simple E(Y |X = x) = β0 + β1x [0] [0] qqq DECESSURVIE 60 70 80 90 100 110 120 q qqq qq qqq q qqq qq qqq qqq q qq qq q qq qq qqq qqqqq qq qq qq q qq qqq qqq qq qq qq q qqq q q qq qq q FRCAR q DECESSURVIE 1.0 1.5 2.0 2.5 3.0 qq qq qqq qqq qqqq q qq qqqqq q qqq qq q q q qq q q qqq q qqqq qq qqq qq qqq qqq qq q qqq qq qq q qqqq INCAR q q q DECESSURVIE 10 20 30 40 50 qq qq q qq qqq qq qq qqq qq qqq q qqq qq q q qqq qq qq q qqqqq qq qqqq q qqq qq q qq q qqq q q qqq qq qq INSYS q q DECESSURVIE 10 15 20 25 30 35 40 45 qqqq qq qqqq q qq qq qq q qqq q qq q q qqq qq qqq q qqq q qqqq qqq qqq qqqq q qqq q qq qqqq q q qq qqq PAPUL DECESSURVIE 5 10 15 20 qq qqq qq qqqq qqqq q qq qqq q qq qqqq q qqq qqq q qq qqqq qqqq q qqq qq q qq qq qqqq qq q qqqq q qq PVENT DECESSURVIE 500 1000 1500 2000 2500 3000 q qq qqq qq qqq qq qq qqq qqq q qq q qqqq qq q qq qqqqqq q qqq qq q qq qq qqq qqq qqq q qqq q q qq qqq REPUL 6
  • Arthur CHARPENTIER - Arbres de Classification Régression logistique, simple E(Y |X = x) = P(Y = 1|X = x) = exp[β0 + β1x] 1 + exp[β0 + β1x] qqq DECESSURVIE 60 70 80 90 100 110 120 q qqq qq qqq q qqq qq qqq qqq q qq qq q qq qq qqq qqqqq qq qq qq q qq qqq qqq qq qq qq q qqq q q qq qq q FRCAR q DECESSURVIE 1.0 1.5 2.0 2.5 3.0 qq qq qqq qqq qqqq q qq qqqqq q qqq qq q q q qq q q qqq q qqqq qq qqq qq qqq qqq qq q qqq qq qq q qqqq INCAR q q q DECESSURVIE 10 20 30 40 50 qq qq q qq qqq qq qq qqq qq qqq q qqq qq q q qqq qq qq q qqqqq qq qqqq q qqq qq q qq q qqq q q qqq qq qq INSYS q q DECESSURVIE 10 15 20 25 30 35 40 45 qqqq qq qqqq q qq qq qq q qqq q qq q q qqq qq qqq q qqq q qqqq qqq qqq qqqq q qqq q qq qqqq q q qq qqq PAPUL DECESSURVIE 5 10 15 20 qq qqq qq qqqq qqqq q qq qqq q qq qqqq q qqq qqq q qq qqqq qqqq q qqq qq q qq qq qqqq qq q qqqq q qq PVENT DECESSURVIE 500 1000 1500 2000 2500 3000 q qq qqq qq qqq qq qq qqq qqq q qq q qqqq qq q qq qqqqqq q qqq qq q qq qq qqq qqq qqq q qqq q q qq qqq REPUL 7
  • Arthur CHARPENTIER - Arbres de Classification Régression logistique, multiple E(Y |X = x) = P(Y = 1|X = x) = exp[β0 + β1x1 + · · · + βkxk] 1 + exp[β0 + β1x1 + · · · + βkxk] 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 8
  • Arthur CHARPENTIER - Arbres de Classification Régression logistique, multiple E(Y |X = x) = P(Y = 1|X = x) = exp[β0 + β1x1 + · · · + βkxk] 1 + exp[β0 + β1x1 + · · · + βkxk] 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q resistance pulmonaire (REPUL) 500 1000 1500 2000 2500 3000 pressionventiculaire(PVENT) 5 10 15 20 probabilité(desurvie) 0.0 0.2 0.4 0.6 0.8 1.0 9
  • Arthur CHARPENTIER - Arbres de Classification Régression logistique, multiple E(Y |X = x) = P(Y = 1|X = x) = exp[s(x1, · · · , xk)] 1 + exp[s(x1, · · · , xk)] 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q resistance pulmonaire (REPUL) 500 1000 1500 2000 2500 3000 pressionventiculaire(PVENT) 5 10 15 20 probabilité(desurvie) 0.0 0.2 0.4 0.6 0.8 1.0 10
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? découpage avec un seuil à 50% : ◦ si P(Y = 1|x) < 50%, diagnostic de décès ◦ si P(Y = 1|x) > 50%, diagnostic de survie Yi = 0 Yi = 1 Yi = 0 24 5 29 Yi = 1 4 38 42 28 43 71 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 11
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? découpage avec un seuil à 80% : ◦ si P(Y = 1|x) < 80%, diagnostic de décès ◦ si P(Y = 1|x) > 80%, diagnostic de survie Yi = 0 Yi = 1 Yi = 0 26 3 29 Yi = 1 12 30 42 38 33 71 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 12
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? découpage avec un seuil à 20% : ◦ si P(Y = 1|x) < 20%, diagnostic de décès ◦ si P(Y = 1|x) > 20%, diagnostic de survie Yi = 0 Yi = 1 Yi = 0 18 11 29 Yi = 1 2 40 42 20 51 71 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 13
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? impact du seuil, deux cas extrêmes : Yi = 0 Yi = 1 Yi = 0 0 29 29 Yi = 1 0 42 42 0 71 71 Yi = 0 Yi = 1 Yi = 0 29 0 29 Yi = 1 42 0 42 71 0 71 0 20 40 60 80 100 051015202530 FauxNégatif(FN) 0 20 40 60 80 100 010203040 Seuil (%) FauxPositif(TP) 14
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? Yi = 0 Yi = 1 Yi = 0 TN FN specificity, TNR negative true negative false negative true negative rate Yi = 1 FP TP sensitivity, TPR positive false positive true positive true positive rate precision, PPV positive predictive value TPR = TP TP + FN et FPR = FP FP + TN avec TPR(s) = P(Y (s) = 1|Y = 1) et FPR(s) = P(Y (s) = 1|Y = 0) 15
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? True positive rate TPR(s) = P(Y (s) = 1|Y = 1) = nY =1,Y =1 nY =1 False positive rate FPR(s) = P(Y (s) = 1|Y = 0) = nY =1,Y =1 nY =1 → courbe sensibilité/spécificité, appelée aussi courbe ROC (Receiver Operating Characteristic) {(FPR(s), TPR(s)), s ∈ (0, 1)} 16 q q Observed Y=1Y=0 Predicted Y ^ = 0 Y ^ = 1 qqq q qq qq qqqq q qqq q q q q qq qq q qq qq q qq q qqqq q q q qq q q q q q q q q qq q q qqqq qq qq q q q q q q q q q qq qq q qqq qq q q q qq q qqq qq qq q q q q q q q qq qq qqq q q q q q qq q q qqq qqq q q q q q q q q q q q qqq q q q q qqq q q q q q qq qqq q qq qqq q qqq q q qq qq q q qqq qq q q qq qq 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 Predicted Observed q qq qq q qqq qqqq qq qqq qq qqqq q qq q qq qq qqqq qq q qq qq qqqqqq qq qq qqq qqq q qq qqqq q qqqq qqq qq qqq q q qqq qqqq q qqq qqq qq qqq qqq qqq qqqq qq q q qqqqqqq qqqqq qq qq qq qqq qqqq q qqqq q q qq qq qqq qq qqq qqqq qq qq qq qqqq qq qq qq qqq qq q q 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 False Positive Rate TruePositiveRate qq
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? La courbe ROC est {(FPR(s), TPR(s)), s ∈ (0, 1)} → une courbe par modèle. 17 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 Taux de Faux Positifs (FPR) TauxdeVraisPositifs(TPR)
  • Arthur CHARPENTIER - Arbres de Classification Comment juger la qualité de notre modèle ? Specificity (%) Sensitivity(%) 020406080100 100 80 60 40 20 0 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 False Positive Rate TruePositiveRate q qq q q q q q 0.1 0.20.3 0.4 0.5 0.7 0.8 0.9 18
  • Arthur CHARPENTIER - Arbres de Classification Construction Hiérarchique d’Arbres de Classification Classification = regrouper les individus en un nombre limité de classes Ces classes sont construites au fur et à mesure → regrouper des des individus similaires, séparer des indi- vidus ayant des caractéristiques proches. Histoire : date des années 1960’s, regain d’intérêt suit à la publication de Breiman et al. (1984). outils devenu populaire en apprentissage automatique (ma- chine learning) 19
  • Arthur CHARPENTIER - Arbres de Classification Construction Hiérarchique d’Arbres de Classification classification descendante : on sélectionne par les variables explicatives la plus liée à la variable à expliquer Y , → donne une première division de léchantillon on réitère dans chaque classe → chaque classe doit être la plus homogène possible, en Y . Différence par rapport à la régression logistique utilisation séquentielle des variables explicatives présentation des sorties sous forme d’arbre de décision i.e. une séquence de noeuds 20
  • Arthur CHARPENTIER - Arbres de Classification Construction Hiérachique d’Arbres de Classification L’algorithme est construit ainsi ◦ un critère pour choisir la ‘meilleure’ division des branches ◦ une règle permettant de décider si un noeud est terminal, et devient une feuille ◦ un méthode d’attribution d’une valeur dans chaque feuille. REPUL p < 0.001 1 ≤ 1093 > 1093 PVENT p = 0.179 2 ≤ 11.5 > 11.5 Node 3 (n = 31) SURVIEDECES 0 0.2 0.4 0.6 0.8 1 Node 4 (n = 8) SURVIEDECES 0 0.2 0.4 0.6 0.8 1 REPUL p = 0.341 5 ≤ 1583 > 1583 Node 6 (n = 16) SURVIEDECES 0 0.2 0.4 0.6 0.8 1 Node 7 (n = 16) SURVIEDECES 0 0.2 0.4 0.6 0.8 1 21
  • Arthur CHARPENTIER - Arbres de Classification Subdivisionner l’espace : une variable explicative Y ∈ {0, 1} et X ∈ R : on découpe suivant un seuil s,    ˜X = A si X ≤ s ˜X = B si X > s ˜X = A ˜X = B X ≤ s X > s Y = 0 nA,0 nB,0 n·,0 Y = 1 nA,1 nB,1 n·,1 nA,· nB,· n Gini gini(Y | ˜X) = − x∈{A,B} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· 22
  • Arthur CHARPENTIER - Arbres de Classification Subdivisionner l’espace : une variable explicative Y ∈ {0, 1} et X ∈ R : on découpe suivant un seuil s,    ˜X = A si X ≤ s ˜X = B si X > s ˜X = A ˜X = B X ≤ s X > s Y = 0 nA,0 nB,0 n·,0 Y = 1 nA,1 nB,1 n·,1 nA,· nB,· n Entropie entropie(Y |X) = − x∈{A,B} nx,· n y∈{0,1} nx,y nx,· log nx,y nx,· 23
  • Arthur CHARPENTIER - Arbres de Classification Subdivisionner l’espace : une variable explicative Découpage et indice de Gini − x∈{A,B} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· 24 q q q DECESSURVIE 10 20 30 40 50 INSYS qqq qq qq q q qqq qq qqq qq qqq q qqq qq q q q qqq qq q q q qqqqq qq qqqq q qqq qq q qq q qqq q qqq qq qq 10 20 30 40 50 −0.45−0.35−0.25 IndiceGini
  • Arthur CHARPENTIER - Arbres de Classification Subdivisionner l’espace : une variable explicative On fixe s, on cherche un second découpage, A = (−∞, s2] B = (s2, s] C = (s, ∞) ˜X = A ˜X = B ˜X = C X ≤ s2 X ∈ (s2, s] X > s Y = 0 nA,0 nB,0 nC,0 n·,0 Y = 1 nA,1 nB,1 nC,1 n·,1 nA,· nB,· nC,· n Découpage et indice de Gini − x∈{A,B,C} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· q q q DECESSURVIE 10 20 30 40 50 INSYS qq q q qq qq qq qq qqq q qqq qqq qq qq q q qq q q qq qqq qqq qq q qqq q qq q q q qqqq qq q qqq qqq q q qq q 10 20 30 40 50 −0.200−0.190−0.180−0.170 IndiceGini 25
  • Arthur CHARPENTIER - Arbres de Classification Subdivisionner l’espace : une variable explicative On fixe s, on cherche un second découpage, A = (−∞, s] B = (s, s2] C = (s2, ∞) ˜X = A ˜X = B ˜X = C X ≤ s X ∈ (s, s2] X > s2 Y = 0 nA,0 nB,0 nC,0 n·,0 Y = 1 nA,1 nB,1 nC,1 n·,1 nA,· nB,· nC,· n Découpage et indice de Gini − x∈{A,B,C} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· q q q DECESSURVIE 10 20 30 40 50 INSYS qqq qqq q qq q qqq qq qq qqqqq qq q q q qq q q qq qq qq q q q qqqqq qq qqqq q qqq qq q qq q qqq q qq qq qq 10 20 30 40 50 −0.200−0.190−0.180−0.170 IndiceGini 26
  • Arthur CHARPENTIER - Arbres de Classification Découpage séquentiel, aspects computationnels À chaque étape, on fixe un noeud, et on découpe une des classes en deux → structure d’arbre Avantage numérique important : si s peut prendre n valeurs, {s1, s2, · · · , sn} e.g. 1 n + 1 , 2 n + 1 , · · · , n n + 1 il existe n!/(n − k)! = n(n − 1)(n − 2) · · · (n − k + 1) partitions en k classes. Avec la méthode possible, seuls n + (n − 1) + · · · + (n − k) partitions sont envisagées, Example n = 100 et k = 5 : 9, 034, 502, 400 de partitions possibles vs. 400 arbres. 27
  • Arthur CHARPENTIER - Arbres de Classification Élagage de l’arbre Étape 1 Construction de l’arbre par un processus récursif de divisions binaires Étape 2 Élagage de l’arbre (pruning), en supprimant les branches trop vides, ou peu représentatives → besoin d’un critère d’élagage (gain en entropie) | MYOCARDE[, nom] < 18.85 MYOCARDE[, nom] < 21.55 MYOCARDE[, nom] < 19.75 MYOCARDE[, nom] < 28.25 MYOCARDE[, nom] < 31.6 DECES SURVIE DECES SURVIE SURVIE SURVIE | MYOCARDE[, nom] < 18.85 MYOCARDE[, nom] < 21.55 MYOCARDE[, nom] < 19.75 MYOCARDE[, nom] < 28.25 MYOCARDE[, nom] < 31.6 DECES SURVIE DECES SURVIE SURVIE SURVIE 405060708090 28
  • Arthur CHARPENTIER - Arbres de Classification Cas de plusieurs variables quantitatives Y ∈ {0, 1} et X1, X2 ∈ R : on découpe X1 suivant un seuil s,    ˜X = A si X1 ≤ s ˜X = B si X1 > s ˜X = A ˜X = B X1 ≤ s X1 > s Y = 0 nA,0 nB,0 n·,0 Y = 1 nA,1 nB,1 n·,1 nA,· nB,· n − x∈{A,B} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q qq q q q 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 500 1000 1500 2000 2500 3000 −0.45−0.35−0.25 IndiceGini 29
  • Arthur CHARPENTIER - Arbres de Classification Cas de plusieurs variables quantitatives Y ∈ {0, 1} et X1, X2 ∈ R : on découpe X2 suivant un seuil s,    ˜X = A si X2 ≤ s ˜X = B si X2 > s ˜X = A ˜X = B X2 ≤ s X2 > s Y = 0 nA,0 nB,0 n·,0 Y = 1 nA,1 nB,1 n·,1 nA,· nB,· n − x∈{A,B} nx,· n y∈{0,1} nx,y nx,· 1 − nx,y nx,· q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q qq q q q 500 1000 1500 2000 2500 3000 5101520 resistance pulmonaire (REPUL) pressionventiculaire(PVENT) q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 5 10 15 20 −0.45−0.35−0.25 IndiceGini 30
  • Arthur CHARPENTIER - Arbres de Classification Cas de variables qualitatives X prend des valeurs {a, b, c, d}. Au lieu de faire un arbre par découpages suc- cessifs, on peut faire un arbre par regroupement successifs. {a, b, c, d}    {(a, b), c, d} {(a, d), b, c} {(a, d), b, c} {(b, c), a, d} {(b, d), a, c} {(c, d), a, b} {(b, c, a), d}{(b, c, d), a}{(b, c), (a, d)} A B C D 020406080100 31
  • Arthur CHARPENTIER - Arbres de Classification Cas de variables qualitatives X prend des valeurs {a, b, c, d}. Au lieu de faire un arbre par découpages suc- cessifs, on peut faire un arbre par regroupement successifs. {a, b, c, d}    {(a, b), c, d} {(a, d), b, c} {(a, d), b, c} {(b, c), a, d} {(b, d), a, c} {(c, d), a, b} {(b, c, a), d}{(b, c, d), a}{(b, c), (a, d)} 32
  • Arthur CHARPENTIER - Arbres de Classification Cas de variables qualitatives X prend des valeurs {a, b, c, d}. Au lieu de faire un arbre par découpages suc- cessifs, on peut faire un arbre par regroupement successifs. {a, b, c, d}    {(a, b), c, d} {(a, d), b, c} {(a, d), b, c} {(b, c), a, d} {(b, d), a, c} {(c, d), a, b} {(b, c, a), d}{(b, c, d), a}{(b, c), (a, d)} X p < 0.001 1 A {B, C, D} Node 2 (n = 100) qqqqqqq 0 0.2 0.4 0.6 0.8 1 X p < 0.001 3 C {B, D} Node 4 (n = 100) qqqqqqqqqqqqqq0 0.2 0.4 0.6 0.8 1 X p = 0.066 5 B D Node 6 (n = 100) 0 0.2 0.4 0.6 0.8 1 Node 7 (n = 100) 0 0.2 0.4 0.6 0.8 1 33
  • Arthur CHARPENTIER - Arbres de Classification Méthode CART et extensions On se contente de faire des coupes suivant X1 ou X2. q q 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q 34
  • Arthur CHARPENTIER - Arbres de Classification Méthode CART et extensions mais ne marche pas bien en présence de non linéarités, ou de rotations 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q 35
  • Arthur CHARPENTIER - Arbres de Classification Méthode CART et extensions on peut aussi tenter des arbres sur X1 + X2 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q 36
  • Arthur CHARPENTIER - Arbres de Classification Robustesse des arbres Les arbres sont intéressants, mais peu robustes, cf Classification and regression trees, bagging, and boosting http ://mason.gmu.edu/ csutton/vt6.pdf idée possible : bootstrapper (rééchantiloner) et agréger ensuite les prédicitons. 37
  • Arthur CHARPENTIER - Arbres de Classification Rééchantillonage et régression Dans un modèle linéaire, E.g. modélation du poids d’une personne (Y ) en fonction de sa taille (X) modèle linéaire Gaussien Y |X = x ∼ N(β0 + β1x, σ2 ) E(Y |X = x) = β0 + β1x = Y (x) Y ∈ Y (x) ± u1−α/2 1.96 · σ 38 q q q q q q q q q qq q qq q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qqq q q qq q q q q q qq q q q qq q q q q q q q q q q q qq qq q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q qq qq q q q q q q q q q
  • Arthur CHARPENTIER - Arbres de Classification Rééchantillonage et régression Échantillon (X1, Y1), · · · , (Xn, Yn) On va échantillonner, i.e. tirer n observa- tions avec remise estimer un modèle sur cet échantillon garder en mémoire la prévision et répéter cette étape de rééchantillonnage 39 q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 5 10 15 20 25 020406080100120 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
  • Arthur CHARPENTIER - Arbres de Classification Rééchantillonage et arbre de classification On va échantillonner, i.e. tirer n observa- tions avec remise construire et arbre sur cet échantillon on répétant, on va générer une forêt, ran- dom forrest 40 500 1000 1500 2000 2500 3000 5101520 q q q q q q qq q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q qq q q q q qq q
  • Arthur CHARPENTIER - Arbres de Classification Rééchantillonage et arbre de classification On va échantillonner, i.e. tirer n observa- tions avec remise construire et arbre sur cet échantillon on répétant, on va générer une forêt, ran- dom forrest 500 1000 1500 2000 2500 3000 5101520 q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q qq q q q 41
  • Arthur CHARPENTIER - Arbres de Classification Références Trevor Hastie, Robert Tibshirani & Jerome Friedman (2013). Elements of Statistical Learning : Data Mining, Inference, and Prediction. Springer Verlag http ://statweb.stanford.edu/˜ tibs/ElemStatLearn/printings/ESLII_print10.pdf Leo Breiman, Jerome Friedman, Charles J. Stone & R.A. Olshen (1984). Classification and Regression Trees. CRC. Kevin P. Murphy (2012). Machine Learning : A Probabilistic Perspective. MIT Press. 42