Statistique Descriptive

  • 1,742 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,742
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
57
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Khalil F( TD-TP ) 1999-2000 CHAPITRE 1 I) LES STATISTIQUES EN SCIENCES HUMAINES 1. DéfinitionsOn donne plusieurs définitions de « la statistique » (Howell) : 1 c’est l’étude des ensembles numériques et de leurs relations ; 2 c’est également le moyen d’obtenir des indications probables sur des ensembles imparfaitement connus ;La statistique est une méthode pour effectuer la synthèse de ces données. Elle met enœuvre plusieurs « statistiques » caractérisant et résumant les données. La moyenne faitpartie des statistiques, comme l’écart type, la variance, etc.On appelle population un ensemble d’objets ou d’êtres sur lesquels on étudie une ouplusieurs caractéristiques ; chaque élément de cette population est appelé individustatistique. On s’intéresse, à propos de chaque individu, à une ou à plusieurscaractéristiques, que l’on appelle caractères ou variables statistiques.L’échantillon est un sous-ensemble de la population de référence.Quand on travaille uniquement sur les caractéristiques de l’échantillon, quand on utiliseles statistiques pour décrire la nature de l’échantillon, on se situe dans le cadre desstatistiques descriptives. Quand on utilise les paramètres, les caractéristiques del’échantillon pour estimer ceux de la population dont il est extrait, on se situe dans lecadre des statistiques inférentielles. 2. L’utilisation des statistiques en sciences humaines 2.1. La variabilité des conduitesExpériences de mesure des temps de réactiontableau des temps de réaction en centièmes de seconde pour 20 présentationssuccessives d’un stimulus (d’après Reuchlin, 1998, Précis de statistique, PUF, p.21)N° d’ordre des 20 présentations du 1 2 3 4 5 6 7 8 9 10 11 12stimulus1ère expérience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21
  • 2. Khalil F( TD-TP ) 1999-2000seule2ème expérience : lampe rouge 32 40 33 37 35 29 42 62 50 39 45 47choisie parmi trois lampes decouleurs différentes3ème expérience : lampe verte 16 18 19 18 15 18 17 32 23 19 23 20seuleN° d’ordre des 20 présentations du 13 14 15 16 17 18 19 20 Moyenne des 20stimulus temps1ère expérience : lampe rouge 15 22 17 17 21 19 17 23 m1 = 19.75seule2ème expérience : lampe rouge 52 37 38 39 40 41 42 39 m2 = 40.95choisie parmi trois lampes decouleurs différentes3ème expérience : lampe verte 18 25 15 15 17 23 17 19 m3 = 19.35seule 2.2. Exemples d’applications statistiques en psychologie
  • 3. Khalil F( TD-TP ) 1999-2000 CHAPITRE 2 VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE 1. Variables qualitatives et variables quantitativesOn distingue les variables qualitatives et les variables quantitatives.Une variable qualitative désigne une qualité de l’individu statistique ; chaqueobservation appartient à une catégorie, à une modalité (exemple : couleur des cheveux,sexe, situation géographique, catégorie socio-professionnelle, évaluation d’une copieavec A, B, C ou TB, B, …,). Même si on code ensuite A= 1, B=2, etc, le nombre n’exprimepas une quantité mais une qualité.Une variable quantitative est caractérisée par une quantité numérique (durée, une note,âge, …) ; elle résulte d’un dénombrement ou d’une mesure. Une variable quantitativeest continue, si elle peut prendre n’importe quelle valeur sur le continuum considéré (letemps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un scorequi varie de 0 à 100). Elle est dite discontinue ou discrète, si elle ne prend que certainesvaleurs (le nombre de pièces d’un logement, le nombre d’enfants – on ne peut pas avoir2.5 enfants pour un sujet). 2. Les échelles de mesureUne autre façon d’appréhender les variables est celle qui consiste à distinguer lesniveaux de mesure ou échelles de mesure. On distingue ainsi les échelles nominales(variables nominales), les échelles ordinales (variables ordinales) et les échelles par intervalle(variables d’intervalle). Les relations existant entre les éléments ayant des valeursdifférentes sur l’échelle ne sont pas les mêmes selon que l’on se situe sur une échellenominale, ordinale ou d’intervalle. Les échelles nominalesPour construire une échelle nominale, il faut répartir les observations dans un certainnombre de classes que l’on appelle « l’échelle ».Les caractéristiques des échelles nominales sont les suivantes : les classes sont définies a priori par le psychologue ;
  • 4. Khalil F( TD-TP ) 1999-2000 chaque observation doit appartenir à une seule classe ; si 2 observations sont dans la même classe, elles sont considérées comme étant équivalentes.Si on attribue des numéros aux classes, ceux-ci n’ont pas de valeur numérique, c’estjuste un moyen de les distinguer, de les nommer. Ils n’ont pas d’autre sens que celuid’être identiques ou différents ; par exemple, au lieu d’appeler des classes A, B et C, onpeut les appeler 1, 2 et 3 ou encore 13, 7 et 45.Exemple d’échelle nominale : le test du RorschachCe test utilise 10 planches composées de taches d’encre symétriques, certaines noires,d’autres colorées. Elles sont présentées successivement au sujet qui doit décrire « tout cequ’on pourrait y voir ». Chaque réponse est notée 3 fois, en fonction de sa localisation,de sont déterminant, et de son contenu. Chacune de ces notations se fait sur une échellenominale : l’échelle ‘localisation’ est constituée de classes comme  réponses globales (toute la planche) : G  réponses grand détail (découpes fréquemment interprétées dans chaque planche) : D  réponses petit détail : Dt  réponses détail dans le blanc : Dbl, etc… l’échelle ‘déterminant’ distingue  les réponses formes : F  les réponses mouvement : K  les réponses couleur : C, etc… l’échelle ‘contenu’ distingue  les réponses humaines  les réponses animaux, etcAutre exemple d’échelle nominale : le code des catégories socio-professionnelles del’INSEE0 : agriculteurs1 : salariés agricoles2 : patrons de l’industrie et du commerce3 : professions libérales et cadres supérieursC’est un exemple des catégories les plus générales ; cette échelle est en fait divisée enclasses plus fines, chaque catégorie étant elle-même détaillée :21 : industriels employant plus de 5 salariés22 : artisans employant 5 ouvriers au plus23 : patrons pêcheurs
  • 5. Khalil F( TD-TP ) 1999-200024 : gros commerçants25 etc. Les échelles ordinalesLe psychologue définit une relation d’ordre entre les observations (ou entre lescatégories d’observations) et l’ensemble des observations ainsi ordonnées constitue uneéchelle ordinale.Les nombres qui désignent les observations ou les catégories d’observations ont déjà lapropriété de ceux qui désignent les observations dans le cas d’une échelle nominale : cesont des symboles, c’est une façon de distinguer les catégories. Mais dans le cas d’uneéchelle ordinale, ils ont la propriété supplémentaire d’être des symboles ordonnés.Exemple de construction d’une échelle ordinale : l’échelle de Longeot configuration Q1 Q2 Q3 note 1 0 0 0 0 2 1 0 0 1 3 1 1 0 2 4 1 1 1 3On fait passer le test à une population de 35 enfants; on obtient les résultats suivants : Note Effectifs effectifs cumulés 0 (000) 5 5 1 (100) 12 17 2 (110) 15 32 3 (111) 3 35Exemples d’échelles ordinales : les niveaux scolaires, le score d’anxiété, les notes (ycompris les scores bruts des tests d’aptitude ou des questionnaires de personnalité), lespréférences et les opinions (beaucoup – assez - moyennement – peu - pas du tout ; trèssouvent – assez souvent – de temps en temps – rarement – jamais ; … ) Les échelles d’intervallesDans une échelle d’intervalles, les observations se répartissent dans des classes qui sontdes intervalles ordonnés et réguliers. Les nombres qui définissent les échellesd’intervalles prennent tout leur sens. On peut parler de différences entre les points del’échelle.Exemple des temps de réaction moyens de 200 sujets aux 20 présentations de la lampe
  • 6. Khalil F( TD-TP ) 1999-2000rougeOn a le tableau descriptif suivant :sujet moyenne des 20 tempsn° (centièmes de seconde) 1 25.02 2 65.51 3 19.96 ….. 54.30 ….. …. 200 34.72 M Effectifs effectifs pourcentages de sujet pourcentages cumulés cumulés[10, 20[ 24 24 12 12[20, 30[ 40 64 20 32[30, 40[ 52 116 26 58[40, 50[ 50 166 25 82[50, 60[ 18 184 9 92[60, 70[ 16 200 8 100 3. Les tableaux statistiques et les effectifsIl existe des conventions pour désigner les variables, les effectifs, les sommes, etc.Exemple : nous disposons des scores au test opératoire de Longeot de 50 enfants, d’âgedifférent (entre 6 et 10 ans) et provenant d’écoles différentes. Sujet n° Ecole Test Longeot Age 1 A 2 7 ans 3 mois 2 B 3 9 ans 1 mois 3 A 0 6 ans 8mois 4 D 2 8 ans 5 mois 5 C 1 6 ans 10 mois ….. … ….. … 50 C 1 7 ans 11 mois La population est l’ensemble des 50 sujets.
  • 7. Khalil F( TD-TP ) 1999-2000 Les variables (X) sont :  X1 ‘école’, variable nominale, modalités A, B, C et D  X2 ‘Test Longeot’, variable ordinale, modalités 0, 1, 2, 3  X3 ‘âge’, variable d’intervalleOn peut élaborer 3 tableaux statistiques :Ecole (X1) X1 ni fi A 12 24 B 11 22 C 20 40 D 7 14  50 100 ni est l’effectif absolu d’une valeur prise par la variable ; c’est le nombre d’occurrences du caractère dans la population étudiée ; la somme de l’effectif total est N. fi est l’effectif relatif ; c’est le rapport de l’effectif absolu sur l’effectif total ; il est le plus souvent donné en pourcentages, et est aussi appelé fréquence. fi = ni / N N =  niTest Longeot (X2) X2 ni fi ni  ni  fi  fi  0 (000) 5 10 5 50 10 100 1 (100) 18 36 23 45 46 90 2 (110) 13 26 36 27 72 54 3 (111) 14 28 50 14 100 28  50 100 / / / / l’effectif absolu cumulé croissant (ni ) de la valeur xj = ni de i=1 à i=j (dernière valeur) l’effectif absolu cumulé décroissant (ni ) de la valeur xj = ni de i=j (valeur de ‘départ’) à i=k (dernière modalité)
  • 8. Khalil F( TD-TP ) 1999-2000 l’effectif relatif cumulé croissant (fi ) de la valeur xj =  fi de i=1 à i=j l’effectif relatif cumulé décroissant (fi ) de la valeur xj =  fi de i=j à i=kAge (X3) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / / CHAPITRE 3 LES REPRESENTATIONS GRAPHIQUES 1. Les représentations graphiques en fonction du type de variables Variables nominalesOn réalise un diagramme à secteurs circulaires (camembert); ce diagramme repose sur lareprésentation des fractions de chacune des valeurs (ou des fréquences) prises par lavariable. Les aires des secteurs sont proportionnelles aux effectifs.
  • 9. Khalil F( TD-TP ) 1999-2000 ECOLE (X1) ECOLE (X1) D D 7,00 A 14,0% A 12,00 24,0% C C B B 20,00 40,0% 11,00 22,0%Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec lesvaleurs ou les pourcentages –effectifs absolus ou relatifs) ECOLE (X1) D 14,0% A 24,0% C B 40,0% 22,0%Diagramme circulaire éclaté avec pourcentage de la variable X1 A (12) B (11) C (20) D (7)Diagramme en barre des fréquences de la variable X1 1.2. Variables ordinalesOn les représente à l’aide d’un diagramme en bâtons ; on reporte sur une lignehorizontale toutes les modalités de la variable étudiée en notant sous cette ligne le nomde chaque modalité ; les modalités doivent être présentées dans l’ordre croissant degauche à droite. Puis on trace un bâton vertical au dessus de chaque modalité dont lahauteur correspond à leur effectif ; la taille des bâtons est fonction de l’échelle choisieprésentée sur la gauche du graphique par un axe vertical. Il est possible de préciser leseffectifs au dessus des bâtons.Le polygone statistique représente l’allure générale de la distribution ; il est réalisé en
  • 10. Khalil F( TD-TP ) 1999-2000reliant les sommets des bâtons ; il n’est pas nécessaire de représenter les bâtons.Diagramme en bâtons de la variable Test de LongeotDiagramme en bâtons et polygone statistique de la variable Test de Longeot 20 20 18 18 18 18 16 16 14 14 14 14 13 12 13 12 10 10 8 8 Occurrences Occurrences 6 6 5 5 4 4 2 2 OOO (O) 1OO (1) 110 (2) 111 (3) OOO (O) 1OO (1) 110 (2) 111 (3) Score test Longeot Score test LongeotExemples de diagramme en bâtons des effectifs absolus de la variable Test Longeot (sur SPSS) 1.3. Variables d’intervallesLa représentation graphique pour ce type de variables est l’histogramme ; on utilise lamême procédure que pour les diagrammes en bâtons, mais en élargissant les bâtons surl’intervalle de chaque modalité. La surface des rectangles ainsi obtenus estproportionnelle aux effectifs de chaque modalité de la variable étudiée. Les rectangles setouchent car la variable est continue.
  • 11. Khalil F( TD-TP ) 1999-2000 12 10 8 6 4 2 Sigma = ,99 Moyenne = 7,64 0 N = 50,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS)Le polygone statistique est la ligne brisée qui relie le centre des sommets des rectanglesde l’histogramme.On peut utiliser le même type de graphique pour représenter les effectifs relatifs (mêmegraphique mais en pourcentage) 1 Histogramme des effectifs croissants et décroissants : 60 50 40 30 20 10 Sigma = ,98 Moyenne = 8,51 0 N = 261,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS)Le polygone statistique des effectifs cumulés croissants (absolus ou relatifs) se construiten reliant les bornes supérieures des classes.
  • 12. Khalil F( TD-TP ) 1999-2000 60 50 40 30 20 10 Sigma = ,85 Moyenne = 7,20 0 N = 189,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus décroissants de la variable Age (X3)(sur SPSS)Le polygone statistique des effectifs cumulés décroissants en reliant les bornesinférieures des classes. 2. Autres types de représentations graphiques 2.1. Représentation en tiges et en feuillesCe type de représentation (Turkey John, 1977) permet de travailler à partir des donnéesbrutes, sans les regrouper en intervalle.Prenons l’exemple des temps de réaction relatifs à la détection de la lampe rouge.Supposons que nous disposions des moyennes aux 20 présentations de 200 sujets. Nouspouvons élaborer le tableau suivant, qui est uniquement un extrait du tableau total. Données brutes Tiges Feuilles(centièmes de sec.)……………………… 0 …….……………………… 1 …………20-20-21-21-21-22- 2 00111222223456666922-22-22-22-23-24-25-26-26-26-26-29 3 00012345666630-30-30-31-32-33- 4 033336779934-35-36-36-36-36
  • 13. Khalil F( TD-TP ) 1999-2000 5 2288889940-43-43-43-43-46-47-47-49-49 652-52-58-58-58-58-59-59………………………Les chiffres des dizaines sont appelés chiffres principaux des scores (ou chiffres les plussignificatifs): ils forment la tige (cela peut être les chiffres des centaines, cela dépend dela mesure et de sa précision ; par exemple si les données varient de 100 à 1000, leschiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendraitpas compte des unités)Les chiffres des unités sont les chiffres secondaires (ou chiffres les moins significatifs) :ils forment les feuilles.L’une des utilités supplémentaires de ce type de représentation est de pouvoir comparerdeux distributions : on place alors les feuilles de part et d’autres des tiges.Exemple : on veut comparer les moyennes des temps de réaction de deux groupes de sujets, car ona posé l’hypothèse d’une différence entre ces deux groupes (l’âge). Tiges Sujets ‘âgés’ (de 41 à 60 ans)
  • 14. Khalil F( TD-TP ) 1999-2000 0 …… …………………… 1 888999 2 22233444556 3 112223344555788889 4 11115677788888999 5 223334444555689 6 555667 2.2. Le graphique séquentiel ou en continuOn utilise ce type de graphique pour représenter principalement l’évolution d’une sériechronologique (dans le temps).Exemple : fréquentation d’une station de ski en 1987-1988 mois par mois en milliers de sujets anné J F M A M J J A S O N D e 1987 11 10 9 9 2 1 7 9 10 3 1 10 1988 14 13 13 15 6 4 12 14 15 6 8 15
  • 15. Khalil F( TD-TP ) 1999-2000 16 14 12 10 8 milliers de touristes 6 4 2 1987 0 1988 jan fev mar avr mai juin juil aou sep oct nov dec mois de lannée 2.3. L’Echelonnement Multidimensionnel 2,0 os ferme herbe 1,5 carotte maïs 1,0 champignon mouton vache banane ,5 noisette chien lapin 0,0 souris -,5 forêt chapiteau de cirque de terre ver cerfaigle écureuil -1,0 Dimension 2 tigre singe éléphant -1,5 -2,0 -2 -1 0 1 2 Dimension 1 Représentation sur le plan 1/2 des liens entre les 23 items
  • 16. Khalil F( TD-TP ) 1999-2000 (stress = .16 ; RSQ = .76)Autre exemple : Comparaison entre deux espaces 1,5 noisettes maïs écureuil 1,0 ,5 banane carotte singe 0,0 tigre mouton éléphant lapin -,5 herbe Dimension 2 -1,0 aigle -1,5 -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 Dimension 1Schéma 1 : Représentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ= .78) 1,0 banane singe écureuil carotte ,5 aigle 0,0 maïs tigre lapin éléphant -,5 -1,0 Dimension 2 -1,5 mouton herbe -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 Dimension 1Schéma 2 : Représentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ =.78)
  • 17. Khalil F( TD-TP ) 1999-2000 3. Description de distributionsSur les représentations graphiques (essentiellement les histogrammes, les courbes), onobserve la forme de la distribution ; cette forme générale nous renseigne sur les donnéesrecueillies. Distribution normale Distribution bimodale Distribution asymétrique négative Distribution asymétrique positive
  • 18. Khalil F( TD-TP ) 1999-2000L’aplatissement (voussure ou curtosis) rend essentiellement compte du nombred’observations qui se situent au centre de la distribution, par rapport au nombre attendudans une distribution dite normale. S’il y a moins d’observations au niveau du sommet de la distribution que dans une distribution normale, le sommet est ‘aplati’, la distribution est dite ‘platycurtique’. S’il y a plus d’observations au niveau du sommet de la distribution que dans une distribution normale, le sommet est ‘pointu’, la distribution est dite ‘leptocurtique’.
  • 19. Khalil F( TD-TP ) 1999-2000 CHAPITRE QUATRE LES CARACTERISTIQUES DE TENDANCE CENTRALE 1. Le modeLe mode Mo est la valeur de la variable dont l’effectif (relatif ou absolu) est le plusgrand ; c’est la valeur qui se rencontre le plus fréquemment.Exemples de séries statistiques :Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois lanote 9)Notes {2,4,6,8,10,12,14,16,18,20} le mode n’existe pasNotes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale)On parle également de distribution multimodale ou plurimodale Variables nominales et ordinalesDans un tableau statistique, le mode est facilement repérable : c’est le Xi pour lequel lafréquence est la plus élevée. Sur le diagramme en barres, c’est la valeur Xi quicorrespond à la barre la plus grande. Sur le diagramme en bâtons, c’est la valeur X i quicorrespond au bâton le plus haut.Exemple de X1 (école)Ecole (X1) X1 ni fi A 12 24 B 11 22 C 20 40 D 7 14  50 100Mo = C
  • 20. Khalil F( TD-TP ) 1999-2000 A (12) B (11) C (20) D (7)Exemple de X2 (test Longeot) X2 ni fi ni  ni  fi  fi  0 (000) 5 10 5 50 10 100 1 (100) 18 36 23 45 46 90 2 (110) 13 26 36 27 72 54 3 (111) 14 28 50 14 100 28  50 100 / / / /Mo = 1 (ou 100) Variables d’intervalleOn ne parle plus de mode mais de classe modale. La classe modale est donc celle quicorrespond à l’effectif le plus élevé ; sur l’histogramme, c’est le rectangle qui est le plusgrand. La classe modale dépend évidemment du choix des classes.Exemple avec X3 (âge) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / /Classe modale = [8 ; 8,5[ (n = 11) 2. La médiane
  • 21. Khalil F( TD-TP ) 1999-2000La médiane est la valeur de la variable qui divise les effectifs en deux parties égalesdonc telle que 50% des sujets de l’échantillon ont une valeur inférieure à la médiane et50% des sujets une valeur supérieure. Quand on ordonne la série de mesures, lamédiane est la valeur qui se situe au centre de la série ainsi ordonnée.Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumulés qui vontnous permettre de calculer la Mé ; en effet, ces effectifs nous permettent de dire ‘il y atant de sujets qui se situent au dessus ou en dessous de telle valeur’ et c’est exactementla signification de la médiane ‘il y a 50% de sujets au dessus et 50% de sujets en dessousde cette valeur’.On ne peut pas calculer la médiane d’une distribution nominale, cela n’a aucun sens. 2.1. Variables ordinales Si le nombre de valeurs est impair, la série comporte (2n+1) valeurs et la médiane est la (n+1) ième valeur ; on peut dire aussi qu’elle a pour rang (N+1)/2Exemple : 4 5 9 11 15 16 18 La médiane Mé est 11 ; il y a 3 observations avant et 3 observations après 11 Si le nombre de valeurs est pair, la série comporte 2n valeurs et il n’existe pas de valeur qui sépare en deux sous-ensembles égaux la série ; on parle alors d’un intervalle médian, déterminé par les valeurs n et n+1Exemple : 4 5 9 11 15 16 18 20 L’intervalle médian est 11-15 Parfois, on admet que c’est la moyenne de ces deux valeurs.Détermination de la médianeDans le tableau statistique, on calcule les fréquences cumulées relatives ou absolues ; onrepère la valeur 0,5 (ou 50 si pourcentages) pour les fréquences cumulées relatives ouN/2 pour les fréquences cumulées absolues. Généralement, les valeurs 0,5 ou N/2apparaissent entre deux lignes du tableau ; la médiane est la valeur de Xi qui correspondà la ligne du bas. Cela signifie que la médiane dans ce cas ne partage pas exactementl’effectif en deux sous-ensembles égaux.On peut également observer la médiane sur le graphe des effectifs cumulés.Exemple : nombre de pièces dans un appartement
  • 22. Khalil F( TD-TP ) 1999-2000 xi ni ni  fi fi  1 45 45 30 30 2 60 105 40 70 3 20 125 13.33 83.33 4 10 135 6.66 90 5 9 144 6 96 6 6 150 4 100  150 100N/2 (c’est-à-dire 75) ou fi = 50 se situe entre xi = 1 et 2Mé = 2Ce n’est pas tout à fait exact, car 30% de la population présente une valeur inférieure à 2et non pas exactement 50%Exemple sur la représentation graphique des effectifs cumulés croissants 2.2. Variables par intervalleDans ce cas, on peut toujours trouver une valeur de la médiane divisant la série en deuxsous-ensembles d’égale importance.Pour trouver la classe médiane qui contient la médiane, on effectue le même raisonnementque dans le cas des variables discrètes.
  • 23. Khalil F( TD-TP ) 1999-2000Exemple avec X3 (âge) X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / /La classe médiane est [7,5 ;8[ avec une fréquence cumulée de 60%Il reste à déterminer la valeur de Mé dans cette classe.Méthode approximative : détermination graphiqueDétermination par interpolation linéaireCette méthode suppose une répartition uniforme des individus dans la classe médiane.1) on extrait la classe médiane, c’est-à-dire la classe correspondant à l’effectif cumulé croissant qui dépasse N/2 ou 50% ; dans notre exemple, c’est [7,5 ; 8[
  • 24. Khalil F( TD-TP ) 1999-20002) on extrait la partie du polygone statistique des effectifs absolus cumulés croissants correspondant à cette classe ; on travaille uniquement avec sur l’axe des abscisses 7,5 et 8 et sur l’axe des ordonnées 24 et 30. On place 25 (N/2) en ordonnées et on cherche l’abscisse correspondant. 60 50 40 30 20 10 Sigma = ,98 Moyenne = 8,51 0 N = 261,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus cumulés croissants de la variable Age (X3)Détermination de la médiane par interpolation linéaire à partir des effectifs absoluscumulés croissants Me  7,5 25  24 On applique Thalès : 8  7,5 = 30  24 Me – 7,5 = 1/6  0,5 Me = 0,5/6 + 7,5 = 7,6On peut faire la même chose avec un polygone des effectifs relatifs cumulésdécroissants ; cette fois, on place 50 (50% moitié des effectifs) et on cherche l’abscissecorrespondant.
  • 25. Khalil F( TD-TP ) 1999-2000On peut faire également la même chose avec un polygone des effectifs cumulésdécroissants (absolus ou relatifs). On place 7,5 et 8 sur l’axe des abscisses, et 26 et 20 surl’axe des ordonnées. On place 25 et on cherche l’abscisse correspondant), mais attentionà Thalès (sens différent) 60 50 40 30 20 10 Sigma = ,85 Moyenne = 7,20 0 N = 189,00 6,25 6,75 7,25 7,75 8,25 8,75 9,25 9,75 AGE (X3)Histogramme des effectifs absolus décroissants de la variable Age (X3)Détermination de la médiane par interpolation linéaire à partir des effectifs absoluscumulés décroissants Me  7,5 25  26 8  7,5 = 20  26 Me – 7,5 = -1/-6  0,5 Me = 0,5/6 + 7,5 = 7,6
  • 26. Khalil F( TD-TP ) 1999-2000La médiane partage l’histogramme en deux surfaces égales. 3. Les quantilesC’est la même idée que la médiane : on cherche ou on définit une valeur de la variabletelle que cette valeur partage la série statistique en n sous-ensembles égaux ; si on veutpartager la série en 4 sous-ensembles égaux, on parlera de quartiles, 10 sous-ensembleségaux de déciles, et 100 sous-ensembles égaux de centiles.De façon générale, on appelle fractile d’ordre , la valeur (f) telle que % de lapopulation présente une valeur inférieure à f. (exemple : f0,82 est la valeur telle que 82%de la population présente une valeur inférieure à f0,82). 3.1. Les quartilesCe sont les valeurs qui partagent la série en 4 sous-ensembles de données ; on les noteq1, q2 et q3. On les détermine de la même façon que la médiane ; on calcule les effectifsrelatifs ou absolus cumulés croissants, on repère les valeurs 25%, 50% et 75% ou ¼ N, ½N et ¾ N (q2 est la médiane).On appelle intervalle interquartile q3 – q1 ; il contient 50% des observations. 25% 25% 25% 25% Q1 Q2 Q3 ¼N ½N ¾N NExemple sur X3 (âge) : X3 ni fi ni  ni  fi  fi  [6 ; 6.5[ 8 16 8 50 16 100 [6.5 ; 7[ 7 14 15 42 30 84 [7 ; 7.5[ 9 18 24 35 48 70 [7.5 ; 8[ 6 12 30 26 60 52 [8 ; 8.5[ 11 22 41 20 82 40 [8.5 ; 9[ 3 6 44 9 88 18 [9 ; 9.5[ 5 10 49 6 98 12 [9.5 ; 10[ 1 2 50 1 100 2  50 100 / / / /Q1 : on cherche 25% dans les fi↑ La classe contenant 25% est [6,5 ; 7[
  • 27. Khalil F( TD-TP ) 1999-2000 On associe 16% à 6,5 et 30% à 7Q1  6,5 25  16   Q1  6,827  6,5 30  16Q3 : on cherche 75% dans les fi↑ La classe contenant 75% est [8 ; 8,5[ On associe 16% à 6,5 et 30% à 7Q3  8 75  60   Q3  8,348,5  8 82  60 3.2. Les déciles Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la série en 10 sous-ensembles égauxcontenant chacun 10% de la population. L’intervalle d9 – d1 est l’intervalle interdécile etil contient 80% des observations. d5 est la médiane.10% 10% 10% 10% 10% 10% 10% 10% 10% 10% d1 d2 d3 d4 d5 d6 d7 d8 d9 3.3. Les centilesIls sont au nombre de 99 et partagent la série en 100 sous-ensembles égaux contenantchacun 1% de la population. L’intervalle intercentile est c99-c1 et il contient 98% de lapopulation. c50 est la médiane, c10 est d1, c25 est q1. 3.4. Exemple de calcul d’un fractileOn veut calculer f0,85 de la série X3 (âge), c’est-à-dire la valeur de X3 (l’âge) telle que 85%de la population ait un âge strictement inférieur à cette valeur.Classe concernée par l’interpolation linéaire : 8,5 ; 9 abscisses ; ordonnées : 82 et 88
  • 28. Khalil F( TD-TP ) 1999-2000 f 0,85  8,5 85  82   f 0,85  8,75 9  8,5 88  82 4. La moyenne 4.1. Définitions La moyenne arithmétique d’une série statistique Xi est égale au rapport de la somme des valeurs observées par le nombre d’observations (N). On lit x barre. n 1x = n  i 1 xiExemple : série de notes obtenues par 20 étudiants{9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18} 1x = 20  (9 + 12 + 13 + ..... + 9 + 18) = 10,5 On dit qu’une moyenne est pondérée lorsqu’il existe plusieurs observations pour toutes ou certaines valeurs de xi. 4.2. Cas des variables ordinalesExemple de la même série de notes mais présentée dans un tableau statistique xi ni nix i fi fix i
  • 29. Khalil F( TD-TP ) 1999-2000 2 1 2 0.05 0.1 3 1 3 0.05 0.15 5 2 10 0.1 0.5 8 2 16 0.1 0.8 9 4 36 0.2 1.8 11 1 11 0.05 0.55 12 2 24 0.1 1.2 13 2 26 0.1 1.3 14 1 14 0.05 0.7 15 1 15 0.05 0.75 17 1 17 0.05 0.85 18 2 36 0.1 1.8  20 210 1 10.5 n1x1  n 2 x 2  ......  npxp 2  3  10  ......  17  36 210x = n1  n 2  .....  np = 20 = 20 = 10.5  nixix =  niOn observe également que la moyenne est égale à la somme du produit des valeurs dela variable par leurs fréquences relatives : kx =  i 1 fix i 4.3. Cas d’une variable d’intervalleOn est obligé de définir quelle est la valeur de xi : c’est le centre de la classe.Exemple de âge (X3)
  • 30. Khalil F( TD-TP ) 1999-2000 X3 xi ni nix i fi (%) fi(%)xi fi f ix i [6 ; 6.5[ 6.25 8 50 16 100 0.16 1 [6.5 ; 7[ 6.75 7 47.25 14 94.5 0.14 0.945 [7 ; 7.5[ 7.25 9 65.25 18 130.5 0.18 1.305 [7.5 ; 8[ 7.75 6 46.5 12 93 0.12 0.93 [8 ; 8.5[ 8.25 11 90.75 22 181.5 0.22 1.815 [8.5 ; 9[ 8.75 3 26.25 6 52.5 0.06 0.525 [9 ; 9.5[ 9.25 5 46.25 10 92.5 0.10 0.925 [9.5 ; 10[ 9.75 1 9.75 2 19.5 0.02 0.195  / 50 382 100 764 1 7.64  nixi 382x =  ni = 50 = 7.64L’âge moyen des enfants est donc de 7.64 ans. 5. Relation entre mode, médiane et moyennePour une courbe unimodale, modérément asymétrique, on a la relation suivante :m - mo = 3 ( m - Mé)
  • 31. Khalil F( TD-TP ) 1999-2000 CHAPITRE CINQ LES CARACTERISTIQUES DE DISPERSIONLes paramètres de tendance centrale sont utiles mais insuffisants pour décrire unepopulation.Exemple : on observe les diagrammes en bâtons des deux séries X et Y (1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50 (1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50Elles ont la même moyenne mais présentent des distributions différentes ; on est doncamené à mesurer leur dispersion afin de mieux caractériser ces deux séries. 10 12 10 8 8 6 6 4 4 Occurrences Occurrences 2 2 0 0 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 VAR00001 VAR00002 1. Définitions L’étendue est la différence entre la plus grande valeur et la plus petite valeur prises par la variable ; cette quantité est indépendante de la façon dont sont distribuées les valeurs dans la série.Exemple : étendue de x = 9 – 1 = 8 étendue de y = 9 – 1 = 8 L’écart absolu moyen est la moyenne des valeurs absolues des écarts à la moyenne.
  • 32. Khalil F( TD-TP ) 1999-2000  ni xi  x e=  ni 5  1  4.94  5  2  4.94  ......  6  8  4.94  5  9  4.94Exemple : ex = 50 = 2.57 8  1  4.94  7  2  4.94  ......  10  8  4.94  7  9  4.94 ey = 50 = 2.97La fonction valeur absolue n’étant pas très manipulable en mathématiques, on a préféréla variance. La variance est la moyenne des carrés des écarts à la moyenne ou écart quadratique moyen.  nixi  x  2 VarX =  ni L’écart-type est la racine carrée de la variance :  = VarX Exemple : VarX = 6.60 x = 2.57 VarY = 8.82 y = 2.97 2. Calcul de la variance et de l’écart type suivant la définitionDans le tableau statistique, on a donc besoin d’une colonne xi - x , d’une colonne (xi -x )² et d’une colonne ni (xi - x )² en plus de celle nécessaire pour calculer la moyenne.Exemple : soit 27 enfants dont on relève le QIClasses xi ni ni.xi xi - x (xi - x )² ni .(xi - x )²[65 ; 75[ 70 1 70 -39.26 1541.35 1541.35[75 ; 85[ 80 2 160 -29.26 856.15 1712.30[85 ; 95[ 90 3 270 -19.26 370.95 1112.84[95 ; 105[ 100 6 600 -9.26 85.75 514.49
  • 33. Khalil F( TD-TP ) 1999-2000[105 ; 115[ 110 5 550 .74 .55 2.74[115 ; 125[ 120 4 480 10.74 115.35 461.39[125 ;135[ 130 3 390 20.74 430.15 1290.44[135 ; 145[ 140 2 280 30.74 944.95 1889.90[145 ; 155[ 150 1 150 40.74 1659.75 1659.75  27 2950 / / 10185.20x = 2950/27 = 109.26VarX = 10185.20/27 = 377.23 = 19.42 3. Autre méthode de calcul de la variance et de l’écart type  nixi²   nixi    2On montre que Var X =  ni -   ni     nixi  x  2VarX =  ni (rappel : (a+b)² = a² + 2ab + b²)  nixi²   ni2 xi x   ni x ²  nixi =  ni or  ni = x  nixi²  ni x² =  ni - x .2. x +  ni x (et x ²) étant une constante dansl’équation,  nixi²  ni =  ni - x .2. x + x ²  ni  nixi² =  ni - x .2. x + x ².1  nixi² =  ni - 2 x ² + x ²  nixi²  nixi²   nixi    2 =  ni - x ² ou encore =  ni -   ni   
  • 34. Khalil F( TD-TP ) 1999-2000Exemple : soit 27 enfants dont on relève le QIclasses xi ni ni.xi ni.xi²[65 ; 75[ 70 1 70 4900[75 ; 85[ 80 2 160 12800[85 ; 95[ 90 3 270 24300[95 ; 105[ 100 6 600 60000[105 ; 115[ 110 5 550 60500[115 ; 125[ 120 4 480 57600[125 ;135[ 130 3 390 50700[135 ; 145[ 140 2 280 39200[145 ; 155[ 150 1 150 22500  27 2950 332500 332500  2950  2  VarX = 27  27  = 377.23 = 19.42 4. Caractéristiques des paramètres de dispersionPour une courbe symétrique et unimodale, proche d’une courbe de type courbe deGauss, l’écart type correspond à la distance qui sépare le point d’inflexion de la courbede l’axe de symétrie. Le point d’inflexion est le point d’inversion du sens de la courbure,celui où la tangente d’intérieure devient extérieure.
  • 35. Khalil F( TD-TP ) 1999-2000 La « preuve des 3 écarts-types »Pour une courbe proche d’une courbe gaussienne et si l’écart-type est correctementcalculé, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m -3 et m + 3.Exemple précédent : = 19.42 m = 109.29 m + 3 = 167.55 et m - 3 = 51.03