Ranking binaire, agrégation multiclasses

  • 1,273 views
Uploaded on

Sylvain Robianno, Telecom Paris

Sylvain Robianno, Telecom Paris

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,273
On Slideshare
0
From Embeds
0
Number of Embeds
5

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences ee Ranking binaire et agr´gation pour le cas e multi-classes Sylvain Robbiano 4 novembre 2011 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 2. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations e Exemple e Base de donn´es UCI : Cardiotocography e Environ 1000 individus 20 caract´ristiques e Un label (Normal ; Suspect ; Pathologique) Apprendre de fa¸on automatique ` ordonner les patients c a Utilisation de fonction de scoring (s : X → R) x2 x7 xn−1 x1 x4 . . . P S P P N ... Nombreux domaines d’application : finance (credit-scoring), m´decine (diagnostic m´dical), e e recherche de documents (moteurs de recherche), automobile, etc. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 3. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations e Exemple e t ∈ R → (P {s(X) > t | Y = 0} , P {s(X) > t | Y = 1}) . ROCF0 ,F1 (s, α) = 1 − Fs,1 ◦ F−1 (1 − α) s,0 Figure: Courbe ROC Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 4. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations e Exemple e Optimalit´ e Pour tout s ∈ S,∀α ∈ [0, 1] ROCF0 ,F1 (s, α) ≤ ROCF0 ,F1 (Φ10 , α). Donc ∗ SF0 ,F1 = {s ∈ S telles que : ∀(x, x ) ∈ X 2 : ΦF1 ,F0 (x) < ΦF1 ,F0 (x ) ⇒ s(x) < s(x )} AUC D´finition, AUCF0 ,F1 (s) = e α∈[0,1] ROCF0 ,F1 (s, α)dα AUCF0 ,F1 (s) = P s(X) < s(X )|Y = 0, Y = 1 1 + P s(X) = s(X )|Y = 0, Y = 1 . 2 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 5. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations e Exemple eNotations X l’espace des caract´ristiques (souvent ⊂ Rd ) e Y l’ensemble des classes µ loi marginale de X ηi (x) = P (Y = i|X = x) η(x) = E[Y |X = x] la fonction de r´gression e En binaire Y = {0, 1} p = P{Y = 1} η1 (x) = η(x) Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 6. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences illustratif Notations e Exemple e 1 Introduction 2 Ranking binaire 3 Ranking multi-classes 4 Conclusion Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 7. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eRLSrank et SVMrank f (x) = n βi k(x, xi ) i=1 SVMrank n1 n0 2 arg min I{f (xi ) − f (xj ) < 0} + λ f k f ∈H i=1 j=1 RLSrank n1 n0 arg min (1 − (f (xi ) − f (xj )))2 + λ f 2 k f ∈H i=1 j=1 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 8. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eRankBoost Entr´e. D = {(xi , yi )}, w1 (i, j) = 1/(n1 n0 ) . e Pour t=1,..,T 1 Trouver le classifieur ht qui maximise le score en fonction des wt n1 n0 rt = max wt (i, j)(ht (xi ) − ht (xj )) ht ∈H i=1 j=1 2 Choix du poids du classifieur αt = 1 2 ln 1+rt 1−rt 3 MAJ des poids wt+1 (i, j) ∝ wt (i, j) exp(αt (ht (xi ) − ht (xj ))) T Sortie. H(x) = t=1 αt ht (x). Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 9. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eUtilisation des rangs Id´e e Trouver s ∈ S qui minimise n 1 Rank(s(Xi )) Wn (s) = I{Yi = 1}φ n1 n+1 i=1 φ(u) = u (AUC) φ(u) = uI{u ≥ u0 } ([CV07]) φ(u) = up ([Rud06]) φ(u) = c((n + 1)u)I{u ≥ k/(n + 1)} (DCG) Proposition ([CV09a]) ˆ Sous de bonnes conditions Wn (s) converge vers E[φ(Fs (s(X))|Y = 1] Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 10. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eMethodes plug-in Id´e e Estimer directement η(x) = P{Y = 1|X = x} et s’en servir comme fonction de scoring. Inconv´nient e Difficult´s li´es ` la dimension des donn´es. e e a e R´sultat th´orique e e Sous de bonnes conditions l’estimateur plug-in atteint la vitesse minimax [CR11]. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 11. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eArbres d’ordonnancement Arbre binaire orient´ T , de e racine l’espace d’entr´e X e Chaque noeud est scind´ en e deux selon une r`gle de e partitionnement port´e par les e branches de T , de sorte `a maximiser l’AUC La fonction de score sT est constante par morceaux, caract´ris´e e e par la partition ordonn´e de X d´finie par les feuilles de T e e Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 12. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eApproximation affine par morceaux de la courbe ROC optimale Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗ e e ∗ par une fonction affine par morceaux, ROC . Initialisation : X ∗ ROC : diagonale principale de l’espace ROC Premi`re it´ration : X = C+ ∪ C− e e ∗ ROC : ligne bris´e ` 2 e a segments d’AUC maximale It´rations sur les nouveaux e ∗ segments de ROC Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 13. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eApproximation affine par morceaux de la courbe ROC optimale Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗ e e ∗ par une fonction affine par morceaux, ROC . Initialisation : X ∗ ROC : diagonale principale de l’espace ROC Premi`re it´ration : X = C+ ∪ C− e e ∗ ROC : ligne bris´e ` 2 e a segments d’AUC maximale It´rations sur les nouveaux e ∗ segments de ROC Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 14. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eApproximation affine par morceaux de la courbe ROC optimale Proc´dure d’approximation adaptative et it´rative de la courbe ROC∗ e e ∗ par une fonction affine par morceaux, ROC . Initialisation : X ∗ ROC : diagonale principale de l’espace ROC Premi`re it´ration : X = C+ ∪ C− e e ∗ ROC : ligne bris´e ` 2 e a segments d’AUC maximale It´rations sur les nouveaux e ∗ segments de ROC Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 15. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eUn probl`me de classification binaire pond´r´e e ee ∗ It´ration : introduction d’un point dans la courbe ROC e Le noeud C est scind´ en deux C = C+ ∪ C− ... e ...de sorte ` maximiser l’AUC. a On obtient la courbe ROC∗ de s : x → 2 · I{x ∈ C+ } − 1... ...associ´e ` C+ = {x ∈ X : η(x) ≥ p}, o` p = PC {Y = 1},... e a u ...qui est solution du probl`me de classification binaire e pond´r´e : ee minC+ ⊂C 2p(1 − p) · P{X ∈ C+ , Y = +1} + 2p(1 − p) · P{X ∈ C+ , Y = / −1} Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 16. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Optimisation de l’AUC La m´thode TreeRank e eConclusion sur TreeRank Convergence asymptotique en norme L1 et L∞ sous certaines hypoth`ses de r´gularit´ sur la courbe ROC∗ e e e ([CV09b]) Un empilement de probl`mes de classification e Le probl`me d’ordonnancement binaire peut ˆtre vu comme un e e continuum de probl`mes de classification binaire pond´r´e, qui e ee consiste ` estimer la collection Cη = {x ∈ X : η(x) ≥ u}u∈(0,1) des a ensembles de niveaux de la probabilit´ a posteriori. e N’importe quel algorithme de classification... ...arbres de classification, SVM... ...selon les contraintes du probl`me pos´ : e e Flexibilit´, interpr´tabilit´ du mod`le, temps de calcul, etc. e e e e http ://treerank.sourceforge.net/ Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 17. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e Y = {1, 2, 3}. Fi la fonction de r´partition de X sachant que la classe Y = i. e φi (x) = Fi (dx)/µ(dx) la densit´ conditionnelle de X|Y = i. e Φi,j = φi /φj S = {s : X → R} ∗ Si,j l’ensemble des fonctions optimales pour la tache i contre j. Fs,k d´signe la fonction de r´partition de s(X) sachant que e e Y = k. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 18. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e D´finition e S ∗ = ∩k>l Sk,l Hypoth`se e ( MLR ) Pour tout (k, l) ∈ {1, 2}2 , pour tout (x, x ) ∈ X 2 , on a : Φk+1,k (x) < Φk+1,k (x ) ⇒ Φl+1,l (x) ≤ Φl+1,l (x ). Proposition S ∗ est non vide ssi l’hypoth`se MLR est verifi´e. En particulier, e e η ∈ S ∗. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 19. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eSurface ROC 3 Cs,t (x) = k · I{tk−1 < s(x) ≤ tk } k=1 o` −∞ = t0 < t1 ≤ t2 < t3 = ∞. u D´finition e M (t) = (Fs,1 (t1 ), Fs,2 (t2 ) − Fs,2 (t1 ), 1 − Fs,3 (t2 )) , o` t1 ≤ t2 u ∀(α, γ) ∈ [0, 1]2 , ROC(s, α, γ) = Fs,2 ◦ F−1 (1 − γ) − Fs,2 ◦ F−1 (α) s,3 s,1 + Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 20. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 21. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e ePropri´t´s de la surface ROC ee Pour toutes distributions F1 (dx), F2 (dx) et F3 (dx) sur X et pour toute fonction de scoring s ∈ S, on a les propri´t´s suivantes. ee Intersections avec une face de l’espace ROC. Invariance. pour toute fonction strictement croissante T , ROC(T ◦ s, α, γ) = ROC(s, α, γ). Concavit´. Si l’hypoth`se (MLR) est v´rifi´e, la surface e e e e ROC∗ est concave. Diff´rentiabilit´. e e ∂ fs,2 −1 −1 ROC(s, α, γ) = − fs,1 Fs,1 (α) quand fs,1 (Fs,1 (α)) > 0, ∂α ∂ fs,2 −1 −1 ROC(s, α, γ) = − fs,3 Fs,3 (1 − γ) quand fs,3 (Fs,3 (1 − γ)) > 0. ∂γ Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 22. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eVolume sous la surface ROC Proposition VUS(s) = P {s(X1 ) < s(X2 ) < s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3} 1 + P {s(X1 ) = s(X2 ) < s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3} 2 1 + P {s(X1 ) < s(X2 ) = s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3} 2 1 + P {s(X1 ) = s(X2 ) = s(X3 )|Y1 = 1, Y2 = 2, Y3 = 3} , 6 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 23. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eCrit`re pour le ranking e Proposition Si l’hypoth`se (MLR) est v´rifi´e alors ∀(α, γ) ∈ [0, 1]2 on a e e e ROC(s, α, γ) ≤ ROC∗ (α, γ). Proposition Si il existe s∗ telle que pour toute s ∈ S, on ait : ∀(α, γ) ∈ [0, 1]2 ROC(s, α, γ) ≤ ROC(s∗ , α, γ). Alors S ∗ est non vide et s∗ est dans S ∗ . Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 24. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eBorne ponctuelle pour la surface ROC Rs,α = {x ∈ X |s(x) > Q(i) (s, α)} (i) o` Q(i) (s, α) est le quantile d’ordre α de Fs,i . u Th´oreme e Supposons que l’hypoth`se MLR soit v´rifi´e et que s∗ et s ont des e e e lois continues. On a : ∀(α, γ) ∈ [0, 1]2 ROC∗ (α, γ) − ROC(s, α, γ) 1 ≤ E[|η1 (x) − Q(1) (η1 , α)|IR∗(1) ∆R(1) ] p2 α s,α 1 + E[|η3 (X) − Q(3) (η3 , 1 − γ)|IR∗(3) ∆R(3) ] p2 1−γ s,1−γ Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 25. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eD´ficit de VUS e Th´or`me e e Supposons que l’hypoth`se MLR soit v´rifi´e. Alors, pour toute e e e fonction s ∈ S, on a VUS∗ − VUS(s) ≤ AUC∗ 1 ,F2 − AUCF1 ,F2 (s) F + AUC∗ 2 ,F3 − AUCF2 ,F3 (s) . F Th´or`me e e Sous l’hypoth`se MLR, on a : e p1 + p3 VUS∗ − VUS(ˆ) ≤ η E[|η(X) − η (X)|] ˆ p1 p2 p3 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 26. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e AUCF0 ,F1 (s) = P s(X) < s(X )|Y = 0, Y = 1 1 + P s(X) = s(X )|Y = 0, Y = 1 . 2 τ de Kendall τ (V, W ) = P V − V · W − W >0 1 1 + P V =V , W =W + P V =V , W =W . 2 2 Proposition 1 − τν (s1 , s2 ) dτ (s1 , s2 ) |AUCF1 ,F2 (s1 ) − AUCF1 ,F2 (s2 )| ≤ = ν . 4p(1 − p) 2p(1 − p) Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 27. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eAgr´gation via le τ de Kendall pour l’ordonnancement emulti-classes Entr´e. Echantillons de donn´es D et D , un e e algorithme d’ordonnancement A, sous ensemble S1 de fonctions de scoring. 1 Apprentissage des fonctions de scoring pour chaque paire. 2 Agr´gation des r`gles de scoring. Calculer s(x) dans e e S1 ⊂ S K−1 K−1 τµ s, s(k) = max τµ s, s(k) , s∈S1 k=1 k=1 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 28. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e eR´sultat th´orique e e Proposition Sous de bonnes conditions, a/(1+a) dτν (s∗ , s) ≤ C · AUC∗ 1 ,F2 − AUCF1 ,F2 (s) F , Proposition Sous de bonnes conditions, si sn (x)(resp sn (x)) est AUC-consistante pour la tˆche 1 contre 2 (resp 2 contre 3) alors a la proc´dure d’agr´gation est VUS-consistante. e e Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 29. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e s∗ s∗ 1,2 s∗ 2,3 η1 η2 η3 0.2 0.2 0.2 0.7692 0.2000 0.0308 0.4 0.4 0.2 0.6250 0.3250 0.0500 0.6 0.8 0.6 0.3968 0.4127 0.1905 0.8 0.8 0.8 0.3731 0.3881 0.2388 1 1 1 0.3030 0.3939 0.3030 1.25 1.25 1 0.2581 0.4194 0.3226 1.66 1.66 1.66 0.1682 0.3645 0.4673 2.5 2.5 2.5 0.0952 0.3095 0.5952 5 2.5 5 0.0597 0.1940 0.7463 b. a. Ensembles de Echantillon simul´. e niveaux optimaux. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 30. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e Table: Comparaison des VUS : VUS∗ = 0.3855 Method VUS(σ) TreeRank 1v2 0.3681 (±0.0060) TreeRank 2v3 0.3611 (±0.0056) TreeRank 1v3 0.3774 (±0.0037) TreeRank Agg 0.3818 (±0.0027) RankBoostVUS 0.3681 (±0.0013) RankBoost Agg 0.3687 (±0.0013) SVMrank lin 0.3557 (±0.0008) SVMrank gauss 0.3734 (±0.0008) RLScore lin 0.3554 (±0.0005) RLScore gauss 0.3742 (±0.0007) Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 31. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences e Notations e Optimalit´ Agr´gation Simulations e e Table: Comparaison des VUS test - ”Cardiotocography” Method VUS test TreeRank 1v2 0.2357 TreeRank 2v3 0.3314 TreeRank 1v3 0.6932 TreeRank Agg 0.8141 RankBoostVUS 0.8346 RankBoost Agg 0.8959 SVMrank lin 0.7202 SVMrank gauss 0.7856 RLScore lin 0.7652 RLScore gauss 0.7829 Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 32. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences ee Tour d’horizon du cas binaire Ranking multi-classes : hypoth`se MLR et surface ROC e Proc´dure d’agr´gation et comparaison empirique avec l’´tat e e e de l’art Algorithme de ranking multi-classes ayant pour objectif le VUS Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e
  • 33. Intro Ranking binaire Ranking multi-classes Conclusion R´f´rences ee [CR11] S. Cl´men¸on and S. Robbiano. Minimax learning rates e c for bipartite ranking and plug-in rules. In Procedings of ICML, 2011. [CV07] S. Cl´men¸on and N. Vayatis. Ranking the best e c instances. Journal of Machine Learning Research, 8 :2671–2699, 2007. [CV09a] S. Cl´men¸on and N. Vayatis. Empirical performance e c maximization based on linear rank statistics. In NIPS, volume 3559 of Lecture Notes in Computer Science, pages 1–15. Springer, 2009. [CV09b] S. Cl´men¸on and N. Vayatis. Tree-based ranking e c methods. IEEE Transactions on Information Theory, 55(9) :4316–4336, 2009. [Rud06] C. Rudin. Ranking with a P-Norm Push. In Proceedings of COLT, 2006. Sylvain Robbiano Ranking binaire et agr´gation pour le cas multi-classes e