Apprentissage automatique, Régression Ridge et LASSO

  • 4,599 views
Uploaded on

Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.

Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
4,599
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
39
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • 1- Les variables qui ont une corrélation significative sont jugées pertinentes au processus à l’étude, mais lien de causalité pas toujours évident ou réel. 2- Les variables importantes pour faire des prédictions ont peut- être plus de chances d’être des causes, ou du moins d’avoir un effet réel.
  • Critère d’Akaike: Estimé de l’erreur de prédiction intra-échantillon pour les modèles de régression, entre autres. Avoir deux échantillons, un pour estimé le modèle, le second pour valider le modèle CV: Un seul échantillon partitionné pour faire l’estimation et la validation du modèle
  • Que ce passe-t-il dans le cas de variables explicatrices corrélées ? Et si nous avons beaucoup plus de variables que d’observations ?
  • Les coefficients des variables fortement corrélées vont tous allé dans le m ême sens et approchés la même valeur. Ex: 3 variables parfaitement corrélées : Coeff = 1/3*b
  • Les variables éventuellement peu importantes auront un coefficient = 0.
  • 20 variables candidates: 6 variables dichotomiques…

Transcript

  • 1. Quand le cowboy fait le tour dela montagneApprentissage automatique,régression Ridge et LASSO
  • 2. Plan La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection par simulation Comparaison des méthodes sur un exemple pratique
  • 3. La prédiction pour mieux comprendre Inférence basée sur la signification statistique des paramètres d’un modèle Inférence basée sur la précision des prédictions d’un modèle  Biais des prédictions  Variance des prédictions
  • 4. La prédiction pour mieux comprendre Sélection de modèle pour la prédiction  Critère d’information d’Akaike (AIC)  Données d’entraînement vs Données de test  Validation Croisée (CV)
  • 5. Régression linéaire et sélection demodèle Y = bX + e
  • 6. Régression linéaire et sélection demodèle On trouve β qui minimise: 2 Ν  π  ∑  ι ϕ=1   ψ − ∑ ξιϕβ ϕ ι=1  
  • 7. Régression linéaire et sélection demodèle Estimation par moindres carrés Sélection de modèle  Procédure « stepwise »  Conserver seulement les variables significatives à chaque étape  Conserver seulement la variable qui réduit au maximum l’AIC
  • 8. Régression Ridge On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b 2 j  j =1
  • 9. Régression Ridge Estimation des β par moindres carrés Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle.
  • 10. Régression Ridge La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β p å β £s 2 j j =1
  • 11. Régression Ridge Permet d’estimer un modèle en présence de covariables fortement corrélées. Estimation dépendante de l’échelle des variables  Centrer et réduire toutes les variables continues
  • 12. LASSO On trouve β qui minimise: 2 N  p  p ∑  j =1   yi − ∑ xij b j  + l i =1  ∑b j  j =1
  • 13. LASSO À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés  Algorithme quadratique employé pour l’estimation Estimation du λ par CV  Ce choix fait effectivement la sélection du modèle
  • 14. LASSO Comme pour la régression Ridge, centrer et réduire les variables continues
  • 15. Comparaison des méthodes Avantage de la régression Ridge  Les effets de variables explicatrices très corrélées se combinent pour se renforcer mutuellement Avantage du LASSO  Les effets peu important sont estimés à 0, donc le modèle sélectionné aura un nombre de variables d < p.
  • 16. Comparaison des méthodes Désavantage de la régression Ridge  Toutes les variables incluses initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes. Désavantage du LASSO  En présence de variables explicatrices corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
  • 17. Comparaison des méthodes La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes On cherche β qui minimise: 2N  p  p 1 ∑  yi − ∑ xij b j  + l i =1   ∑  2 (1 − a )b j + a b j  j =1  2  j =1 
  • 18. Comparaison des méthodes parsimulation Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
  • 19. Données simulées
  • 20. Variable Modèle Régression Stepwise Ridge LASSO Elastic NetIntercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38X2 -0.71 -0.42X3 0.68 0.06X4 -0.35 -0.60X5 -5 -17.13 -17 -15.18 -15.63 -15.58X6 1.66 1.83 0.63 0.35 0.33X7 5 14.42 14.43 12.26 12.81 12.75X8 0.17 -0.54X9 -1.26 -1.21 -1.14 -0.24 -0.24X10 1.43 1.48 0.89X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62X12 1.30 1.30 1.18X13 -0.06 0.08X14 3 46.71 46.47 42.86 44.52 44.42X15 -0.45 -0.68X16 0.02 0.84X17 3.48 3.04 2.96 0.71 0.71X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16X19 -1.68 -0.81X20 -1.24 0.14X21 0.15 0.15Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14Écart-type 18.59 18.29 18.87 17.23 17.24
  • 21. Comparaison de méthodesTrajectoire Ridge
  • 22. Comparaison des méthodesTrajectoire LASSO
  • 23. Comparaison des méthodesTrajectoire Elastic Net
  • 24. Exemple pratique:Polychlorobiphényles et pesticides organochlorés Données du CSHA: 1848 sujets  28 Covariables, dont 5 variables dichotomiques et 1 variables catégoriques Variable réponse: maladie d’Alzheimer Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
  • 25. Données pratiques
  • 26. Variable Régression Stepwise Ridge LASSO Elastic NetIntercepte -1.64 0.23 -1.29 -1.45 -1.45BPC105 -0.38 0.001BPC118 0.35 0.003BPC138 -0.25 0.003BPC153 -0.56 -0.10 0.004BPC156 0.17 0.004BPC163 0.74 0.11 0.005BPC170 -0.14 0.001BPC180 0.02 0.0001BPC183 0.77 0.10 0.004BPC187 -0.61 -0.08 0.0009BPC99 0.08 0.003cisNonachlor -0.63 -0.04 -0.005Hexachlorobenzene 0.01 0.0004Oxychlordane -0.43 -0.001ppDDE 0.13 0.004ppDDT -0.07 -0.002BetaHCH -0.09 -0.003transNonachlor 0.68 -0.003Éducation -0.26 -0.04 -0.006 -0.03 -0.04Âge 0.52 0.08 0.02 0.39 0.4Lipides totaux -0.02 -0.007IMC -0.16 -0.03 -0.01 -0.09 -0.1Sexe 0.38 0.04 0.02 0.08 0.09Région 2 -0.88 -0.14 -0.03 -0.2 -0.23Région3 0.18 0.03 0.16 0.17Région4 -0.05 -0.05 0.005Région5 -1.20 -0.18 -0.04 -0.51 -0.54APOE4 0.88 0.14 0.04 0.55 0.57Area -0.01 0.004Cigarette 0.22 -0.01Alcohol -0.25 -0.03 -0.02 -0.006 -0.02Erreur Entraînement 20% 20% 21% 21% 21%Erreur Test 26% 25% 25% 26% 25%
  • 27. Exemple pratiqueTrajectoire Ridge
  • 28. Exemple pratiqueTrajectoire LASSO
  • 29. Exemple pratiqueTrajectoire Elastic Net
  • 30. Exemple pratiqueComparaison des courbes ROC: Entraînement
  • 31. Exemple pratiqueComparaison des courbes ROC: Test
  • 32. Logiciels R  glmnet (Friedman, Hastie, Tibshirani) SAS  Proc GLMSELECT (LASSO et Stepwise)  Proc REG, MIXED, LOGISTIC, PHREG, etc… (Ridge)
  • 33. Référence Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008