Acp

  • 1,577 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,577
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
105
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. TECHNIQUES DESCRIPTIVES DU DATA MININGANALYSE ENCOMPOSANTESPRINCIPALES
  • 2. LES TECHNIQUES DESCRIPTIVESvisent à mettre en évidence des informations présentesmais cachées par le volume des donnéesil n’y a pas de variable « cible » à prédire • Analyse factorielle • - Projection du nuage de points sur un espace de dimension • inférieure pour obtenir une visualisation de l’ensemble des liaisons • entre variables tout en minimisant la perte d’information • Classification • - Trouver dans l’espace de travail des groupes homogènes d’individus ou de variables • Détection d’associations entre des objets medheny.selmi@esprit.tn
  • 3. LES DEUX PRINCIPALESTECHNIQUESmedheny.selmi@esprit.tn
  • 4. ANALYSE FACTORIELLEmedheny.selmi@esprit.tn
  • 5. L’ANALYSE EN COMPOSANTESPRINCIPALES (ACP)On possède un tableau rectangulaire dont : les colonnes sont des variables quantitatives (mensurations, taux,…) les lignes représentent des individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années…) medheny.selmi@esprit.tn
  • 6. PROBLÉMATIQUEDifficulté à mettre en évidence les relations globales existant entreles variables dès que p>3, car c’est impossibles à visualiser.medheny.selmi@esprit.tn
  • 7. OBJECTIFSCondenser l’information du tableau de manière à retirer les relationsvraiment caractéristiques (proximités entre variables et individus),ceci en limitant la perte d’information.Déterminer un sous-espace de dimension q<p (q nouveaux axes)sur lequel projeter les nuages de points relatifs au tableau dedonnées qui soit :« compréhensible » par l’oeil: q faible, de préférence q=1,2 ou 3le moins déformant possible (projection la plus fidèle possible)Ce sous-espace est appelé espace factoriel du nuage. medheny.selmi@esprit.tn
  • 8. INTÉRÊT DE L’ACPReprésentation assez fidèle des individus d’une population en 2 ou 3dimensions via de nouvelles variables appelées composantesprincipales.Détection des facteurs les plus pertinents dans une dynamiqueobservéeMesure du taux de dépendance entre les variables medheny.selmi@esprit.tn
  • 9. LES ÉTAPES D’UNE ACPChoix du tableau X Analyse directe : Construction de l’espace factoriel du nuage depointsindividus associé au tableau . On garde pour l’instant les p axes factoriels Analyse duale : Construction de l’espace factoriel du nuage depointsvariables : elle est déduite de la première Interprétation de ces analyses : choix du nombre d’axes q à retenir,construction des nuages de points projetés sur ces axes, interprétation desaxes principaux et étude des proximités entre points. Synthèse des résultats, construction éventuelle du tableau réduit (tableaudes composantes principales) et visualisation des nuages de points associés.medheny.selmi@esprit.tn
  • 10. CALCUL DES COMPOSANTES PRINCIPALESLes composantes principales : permettent d’exprimer lesvariables initiales selon de nouveaux axes: les axesprincipaux, qui sont les vecteurs propres de la matrice- des covariances si on a des données hétérogènes, avec desordres de grandeur différents- des corrélations lorsque les unités de mesure ne sont pasles mêmes pour toutes les variables medheny.selmi@esprit.tn
  • 11. ETUDE DE CAS D’UN ACPLes données mesurent la consommation de protéines dans 25pays européens par rapport à 9 groupes d’aliments Variables : VR : viande rouge VB : viande blanche Strach : aliments à base de sucres lents (pâtes, riz, lentilles, pois chiche, pommes de terres,….) medheny.selmi@esprit.tn
  • 12. ETUDE DE CAS D’UN ACP Deux critères empiriques pour sélectionner le nombre d’axes : - Critère du coude : sur l’évolution des valeurs propres, on observe un décrochement (coude) suivi d’une décroissance régulière. On sélectionne les axes avant le décrochement - Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1 Conclusion : On retient 4 axes, qui représentent presque 86% de l’inertie totale (on explique 86% de l’information du tableau)medheny.selmi@esprit.tn
  • 13. CONSTRUCTION DES NUAGES DEPOINTS PROJETÉS Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels un plan factoriel est un repère du plan défini par deux des q axes factoriels retenus. L’examen des plans factoriels permettra de visualiser les corrélations entre les variables et d’identifier les groupes d’individus ayant pris des valeurs proches sur certaines variables. medheny.selmi@esprit.tn
  • 14. CONSTRUCTION DES NUAGES DEPOINTS PROJETÉSComment interpréter la proximité entre les points (individus et variables) ? medheny.selmi@esprit.tn
  • 15. ETUDE DE PROXIMITÉ ENTRE LESPOINTS Indicateur = angle formé entre le point et sa projectionRegarder les graphiques et sur l’axe : au plus il estanalyser plus finement les proche de 90 degrés, proximités entre points. au moins le point est bien représenté Un point est dit bien représenté sur un axe ou un plan factoriel s’il est proche de sa projection sur l’axe ou le plan. S’il est éloigné, on dit qu’il est mal représenté.medheny.selmi@esprit.tn
  • 16. ETUDE DE PROXIMITÉ ENTRE LES POINTS Qualité de représentation de l’individu i sur l’axe k : Lorsque l’angle est proche de 0, cest-à-dire que l’individu est bien représenté, le cosinus est proche de 1. Dans le cas inverse, l’angle est proche de 90° et le cosinus est proche de 0. medheny.selmi@esprit.tn
  • 17. ETUDE DE PROXIMITÉ ENTRE LES POINTS La proximité dans l’espace entre deux individus bien représentéstraduit la ressemblance de ces deux individus du point de vue desvaleurs prises par les variables. Lorsque la qualité dereprésentation de deux individus est bonne, leur proximitéobservée retrace leur proximité réelle (dans l’espace).La proximité entre deux variables sur un axe donne, si les deuxvariables sont bien représentées sur l’axe ( proches de l’axe et duBord du cercle) , une approximation de leur corrélation.– Deux variables proches sont corrélées positivement– Deux variables qui s’opposent sont corrélées négativement– Deux variables orthogonales sont non corrélées. medheny.selmi@esprit.tn
  • 18. QUALITÉ DE REPRÉSENTATION :EXEMPLEmedheny.selmi@esprit.tn
  • 19. ETUDE DES POINTS BIENREPRÉSENTÉS du Les pays de lEurope nord et de l’ouest consomment de la viande, des œufs et du lait l’Espagne et le Portugal, les Balkans ayant une qui se caractérisent par importante consommation de une consommation élevée graines de poissonmedheny.selmi@esprit.tn
  • 20. ETUDE DES POINTS BIENREPRÉSENTÉS Les pays de lEurope de l’Est consomment beaucoup les noix et les céréales Les pays scandinaves consomment beaucoup le lait et la viande rougemedheny.selmi@esprit.tn