Exploratory Data Analysis
     EDA : principes généraux
Qu’est ce qu’une analyse
    exploratoire de données

1. Une philosophie
2. Des principes
3. Des outils
➡ Améliorer l’EDA
Une approche novatrice
‣ Maximiser les insights dans un jeu de données
‣ découvrir les structures sous-jacentes
‣ extraire...
Initié par Tukey (1915 - 2000)

Far better an approximate answer to
the right question, which is often
vague, than an exac...
Analyse Exploratoire versus
         Analyse classique
‣    Analyse classique :
    Problème - données - modèle - analyse ...
L’EDA est une attitude, une
    philosophie, pour révéler
l’inconnu directement depuis
           les données
Objectifs
Maximiser les insights de l’analyste
Lui fournir tout ce qu’il voudrait extraire :
  ‣    Un modèle parcimonieux...
insights
When the course of action must respond to new
comprehension, new insights and new intuitive
flashes of possible ex...
Comment faire ?
Utiliser des visualisations !
Visualization can play a key role for such activities,
    for example : in presenting a visual overview of
    the data s...
Techniques graphiques
Des techniques simples qui consiste en différents
diagrammes :
‣   Tracer les données brutes (data t...
176




Figure 75: A visualization of county-level election results for the State of Michigan from 1998
to 2004 (see appen...
'+=+37$&'"+/.$1"+')+(1/%$."'%+3(##')+&'-+.-").+=+,$+#$.-B%"+

                Statut des présentations
-./5+=+,$+9(%#"+1$%...
Principes
Phases de l’EDA
Phases de l’EDA
Principe 1 : Voir l’ensemble
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Phases de l’EDA
Principe 1 : Voir l’ensemble
Principe 2 : Simplifier et modéliser
Principe 3 : Diviser et grouper
Principe ...
Améliorer l’EDA   trouver des prises
Améliorer l’EDA   trouver des prises
Principle 1: See the Whole
application de la sémiologie
Améliorer l’EDA
application de la sémiologie
Améliorer l’EDA
Management de
                     exemples
systèmes complexes
Management de
                     exemples
systèmes complexes
Management de
                     exemples
systèmes complexes
Management de
                     exemples
systèmes complexes
Management de
                     exemples
systèmes complexes
Management de
                     exemples
systèmes complexes
Management de
Figure 75: A visualization of county-level election results for the State of Michigan from 1998
            ...
Management de
                     exemples
systèmes complexes
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Analyse Exploratoire de Données
Upcoming SlideShare
Loading in …5
×

Analyse Exploratoire de Données

2,139 views

Published on

Ce cours d'ic05 (UTC compiègne) introduit l'EDA avec sa philosophie, ses étapes, ses outils. Une part importante est consacrée à une augmentation des concepts de dibiase et maceachren.

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,139
On SlideShare
0
From Embeds
0
Number of Embeds
71
Actions
Shares
0
Downloads
54
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Tukey, John (1977), Exploratory Data Analysis, Addison-Wesley.
    John Wilder Tukey (June 16, 1915 - July 26, 2000) was an American statistician.
    Auteur de la FFT
  • approaches? Three popular data analysis approaches are:
    Classical
    Exploratory (EDA)
    Bayesian
    Paradigms for Analysis Techniques These three approaches are similar in that they all start with a general science/engineering problem and all yield science/engineering conclusions. The difference is the sequence and focus of the intermediate steps.

    Bayes - degré de confiance accordé à une hypothèse

    Ajouter un mot sur le modèle en logique flou et notamment inférence de règles floues
  • Philosophy qui rejette ces statistiques et la volonté de coller à des modèles préexistants pour découvrir du nouveau
  • Insights : On doit son usage `a Ko ̈hler, un gesthaltiste, qui le premier ́evoque ce bref instant ou` du probl`eme, on entrevoit une solution :
    Ko ̈hler utilise le terme anglais insight pour nommer le temps fort d’une r ́e- solution, compris comme passage d’une configuration perceptive `a une seconde configuration, plus satisfaisante car porteuse en elle-mˆeme des r ́eorientations, des regroupements, des suggestions d’actions susceptibles de rem ́edier aux tensions inh ́erentes `a la configuration ant ́ec ́edente Rosenthal and Visetti (2003).

    Il s’agit donc de r ́esoudre des tensions dans une configuration donn ́ee en d ́ecouvrant dans cette configuration perceptive les prises que l’on peut avoir dessus.
  • Déduction : produit des hypo déterministes
    Induction : jeu de données limité + caractéristiques = catégories
    Abduction : catégorisation et hypothèse
  • Topofil de boa vista outil pédofil, quadrille présente différemment
  • To get a "feel" for the data, it is not enough for the analyst to know what is in the data; the analyst also must know what is not in the data, and the only way to do that is to draw on our own human pattern-recognition and comparative abilities in the context of a series of judicious graphical techniques applied to the data.
  • To get a "feel" for the data, it is not enough for the analyst to know what is in the data; the analyst also must know what is not in the data, and the only way to do that is to draw on our own human pattern-recognition and comparative abilities in the context of a series of judicious graphical techniques applied to the data.
  • Andrienko and Andrienko (nouvelle ref en EDA)
  • Système complexe n’est rien d’autre qu’un milieu dans lequel on fait jouer la boucle sensorimotrice. On peut se saisir de l’objet
    Look for recognizable, zoom and focus, establish structure
  • Système complexe n’est rien d’autre qu’un milieu dans lequel on fait jouer la boucle sensorimotrice. On peut se saisir de l’objet
    Look for recognizable, zoom and focus, establish structure
  • Analyse Exploratoire de Données

    1. 1. Exploratory Data Analysis EDA : principes généraux
    2. 2. Qu’est ce qu’une analyse exploratoire de données 1. Une philosophie 2. Des principes 3. Des outils ➡ Améliorer l’EDA
    3. 3. Une approche novatrice ‣ Maximiser les insights dans un jeu de données ‣ découvrir les structures sous-jacentes ‣ extraire les variables importantes ‣ détecter les données aberrantes et les anomalies ‣ tester des suppositions issues des données ‣ développer des modèles minimaux ‣ déterminer les réglages optimaux des différents facteurs
    4. 4. Initié par Tukey (1915 - 2000) Far better an approximate answer to the right question, which is often vague, than an exact answer to the wrong question, which can always be made precise J. W. Tukey (1962, page 13), "The future of data analysis". Annals of Mathematical Statistics 33(1), pp. 1-67.
    5. 5. Analyse Exploratoire versus Analyse classique ‣ Analyse classique : Problème - données - modèle - analyse - conclusions ‣ Analyse exploratoire : Problème - données - analyse - modèle - conclusions ‣ Analyse bayesienne : Problème - données - modèle - ébauche distribution - analyse - conclusions
    6. 6. L’EDA est une attitude, une philosophie, pour révéler l’inconnu directement depuis les données
    7. 7. Objectifs Maximiser les insights de l’analyste Lui fournir tout ce qu’il voudrait extraire : ‣ Un modèle parcimonieux qui colle bien ‣ Les données extrêmes ‣ Des conclusions robustes ‣ Une estimation des paramètres ‣ La marge d’erreur pour ces estimations ‣ La liste des facteurs importants et leur importance individuelle relative ‣ Paramètres optimaux
    8. 8. insights When the course of action must respond to new comprehension, new insights and new intuitive flashes of possible explanations or solutions, it will not be an orderly process. Existing means of composing and working with symbol structures penalize disorderly processes very heavily, and it is part of the real promise in the automated H- LAM/T systems of tomorrow that the human can have the freedom and power of disorderly processes
    9. 9. Comment faire ? Utiliser des visualisations !
    10. 10. Visualization can play a key role for such activities, for example : in presenting a visual overview of the data so that categories might be hypothesised (abductively), in evaluating individual examples with respect to their “representativeness” (inductively), and showing the results of applying the new knowledge to structure the data (deductively) M Gahegan, M Takatsuka, M Wheeler, and F Hardisty. Introducing geovista studio : an integrated suite of visualization and computational methods for exploration and ....
    11. 11. Techniques graphiques Des techniques simples qui consiste en différents diagrammes : ‣ Tracer les données brutes (data traces, histogrammes, bihistogrammes, probability plots, lag plots, block plots, and Youden plots). ‣ Tracer des statistiques simples (mean plots, standard deviation plots, box plots) ‣ Positionner les diagrammes pour maximiser notre abilité naturelle à la reconnaissance de motifs en utilisant plusieurs diagrammes par page
    12. 12. 176 Figure 75: A visualization of county-level election results for the State of Michigan from 1998 to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal
    13. 13. '+=+37$&'"+/.$1"+')+(1/%$."'%+3(##')+&'-+.-").+=+,$+#$.-B%"+ Statut des présentations -./5+=+,$+9(%#"+1$%+,6$'.%"+".+&'-+*"+2-*.-)8'"+2"+,6/.$1"+*'-<$)." 6$'3')"+%"**"#4,$)3"+)"+*$'%$-.+3(#4,"%+P>+C,+%"1%/*")."+$-)* '"+2"+1$**$8"+2"+,$+#$.-B%"+=+,$+9(%#"+;+ !"#$% !$&!'$($% )(% !'**'+(% ,% #-% '#.$(% /"$!*% ,% 0-.($!$&.($1% (.% '0-*0% 2(% *#0.(3% 4'-*%/(%5(#1%)(*%20*!"*0.06*%"-.%/(..(%7#')0.&%280-.($9&20'0$(%(-.$(%)'%/:"*(%(.% )(% *0+-(% 7#0% !($9(.% )(% !'**'+(% 2(% )'% 9'.0;$(% ,% )'% 6"$9(% !'$% 2(*% 9'-0!#)'.0"-*% 7#0% 6"-.% &9($+($% )(% *(-*3% <'$% (=(9!)(1% )(% !&2"/"9!'$'.(#$% )*&+'( !($9(.% 2(% !'**($% 2(*% &/:'-.0))"-*% 2(% .($$(% '#% .'>)('#1% 9'0*% #-% &/'$.% 0$$&2#/.0>)(% *&!'$(% ."#5"#$*% )(% .'>)('#% 2(*% 9"..(*% 2(% .($$(% 2#% .'>)('#% 2(*% 7#')060/'.0"-*% 2(% /(*% 9"..(*% 2(% .($$(3% ?:'7#(% ,-.#-&'(*8(-/:'@-(% '0-*0% 2(% )'% !"#$%&'( &.'!(% !$&/&2(-.(% A($*% )'% *#0A'-.(1% !'$% #-% *'#.% 90-#*/#)(% 9'0*% $'20/')1% 7#0% '% $%&'(" -&'-9"0-*%)'%-&/(**0.&%28B.$(%$&A($*0>)(%C% /* % .."+ 9(%#"+ /,/#").$-%"+ *"+ %"1%(2'-.+ ".+ *6")37$:)"+ ,(%*+ 2"+ , 9-&'"5+&'-+9$-.+1$%+"A"#1,"+1$**"%+2"+,$+9(%I.+$#$R()-"))"+$'+2 -./(0,1''*02"&$" ,$%%$" #(7'$(8" &96./(0,1''*02" ;./6<("&8"2*'" ?12.*8%2" ,/6*%1:8$" #$%%$"&$"'(")*%+," !"10&$56$2" 1(%.+2"+#-**-()>+Q7$&'"+/.$1"+-)."%1%B."+')+3(%1*+3(##"+') 3*4,$2"&$",$%%$" !"#(7'$(8"&$" :8('1)1.(,1*02" !" '("'121>%$" ;=6.1)1.1,62"&$" ,)-&./0%12"/#20 *%034/"2#)3%0 % % ?(%7#0%*(%!'**(%)"$*%2(*%$#!.#$(*%-8(*.%!'*%&/)'0$/01%9B9(%*0%!"#$%D'."#$% 0)% (*.% 7#(*.0"-% 2(% !"#$%1% (.% -"#*% '!!$"6"-20$"-*% /(% !"0-.% !)#*% )"0-3%
    14. 14. Principes
    15. 15. Phases de l’EDA
    16. 16. Phases de l’EDA Principe 1 : Voir l’ensemble
    17. 17. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser
    18. 18. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper
    19. 19. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation
    20. 20. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable
    21. 21. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus
    22. 22. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités
    23. 23. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens
    24. 24. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens Principe 9 : Établir la structure
    25. 25. Phases de l’EDA Principe 1 : Voir l’ensemble Principe 2 : Simplifier et modéliser Principe 3 : Diviser et grouper Principe 4 : Voir en relation Principe 5 : Chercher du reconnaissable Principe 6 : Zoom et Focus Principe 7 : Porter son attention sur les particularités Principe 8 : Établir des liens Principe 9 : Établir la structure Principe 10 : intégrer la connaissance du domaine
    26. 26. Améliorer l’EDA trouver des prises
    27. 27. Améliorer l’EDA trouver des prises
    28. 28. Principle 1: See the Whole
    29. 29. application de la sémiologie Améliorer l’EDA
    30. 30. application de la sémiologie Améliorer l’EDA
    31. 31. Management de exemples systèmes complexes
    32. 32. Management de exemples systèmes complexes
    33. 33. Management de exemples systèmes complexes
    34. 34. Management de exemples systèmes complexes
    35. 35. Management de exemples systèmes complexes
    36. 36. Management de exemples systèmes complexes
    37. 37. Management de Figure 75: A visualization of county-level election results for the State of Michigan from 1998 exemples to 2004 (see appendix A.3). A tinted lens highlights views, using labeled arrows to reveal systèmes complexes Votes v. Counties scatter plot. coordination on the user’s selection of counties in the
    38. 38. Management de exemples systèmes complexes

    ×