loi normale
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
  • svp j'ai besoin un livre s'appele resistance des materiaux exercices corrigés
    Are you sure you want to
    Your message goes here
  • SVP J'AI BESOIN un livre s'appele j'intègre -tout en un physique MP MP*
    Are you sure you want to
    Your message goes here
  • Merci beaucoup pour ce document ! Il est très bien fait !
    Are you sure you want to
    Your message goes here
    Be the first to like this
No Downloads

Views

Total Views
13,402
On Slideshare
13,399
From Embeds
3
Number of Embeds
1

Actions

Shares
Downloads
184
Comments
3
Likes
0

Embeds 3

http://www.facmed-sba.com 3

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 1.1. Loi normale ou de Gauss Supposons que nous tirions des échantillons aléatoires d'une population dont la taille moyenne est de 170 cm, avec un écart type de 10 cm. Traçons l'histogramme de la taille, avec des classes de 5cm de large. Examinons l’aspect de ces histogrammes. Echantillon de 10 individus Echantillon de 100 individus 20 n n o o m m b b 3 15 r r e e d’ d’ 2 i i 10 n n d d i i v v 1 5 i i d d u u s s 0 120 140 160 180 200 120 140 160 180 200 taille (cm) taille (cm) Echantillon de 1000 individus Echantillon de 10.000 individus n n o o 150 m m b b 1500 r r e e d’ d’ 100 i i 1000 n n d d i i v v 50 i i 500 d d u u s s 0 0 120 140 160 180 200 120 140 160 180 200 taille (cm) taille (cm)
  • 2. Echantillon de 100.000 individus. (ici, les classes sont de 2 cm) n o m b 6000 r e d’ i 4000 n d i v 2000 i d u s 0 120 140 160 180 200 taille (cm) Au fur et à mesure que la taille de l'échantillon augmente (et que la taille des classes diminue), l'histogramme devient de plus en plus régulier et se rapproche d'une courbe en cloche, appelée loi normale. Loi normale n o m b r e d’ i n d i v i d u s 120 140 160 180 200 taille (cm) La loi normale est la loi statistique la plus répandue et la plus utile. Elle représente beaucoup de phénomènes aléatoires. De plus, de nombreuses autres lois statistiques peuvent être approchées par la loi normale, tout spécialement dans le cas des grands échantillons.
  • 3. Son expression mathématique est la suivante: ( x−µ ) 2 − n n( x ) = 2σ 2 e 2π σ n(x) σσ µσ µ µ σ − x + • µ est la moyenne • σ l’écart type • n le nombre total d’individus dans l’échantillon • n(x) le nombre d’individus pour lesquels la grandeur analysée a la valeur x. Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve : A. 50 % des individus en dessous de la moyenne µ et 50 % au-dessus (la loi normale est symétrique) 50 % x µ
  • 4. B. 68 % des individus entre µ−σ et µ+σ 68 % x µ µ+ σ −µ σ C. 95 % des individus entre µ-1,96σ et µ+1,96σ, que nous arrondirons à l’intervalle [µ−2σ, µ+2σ] 95 % x µσµ µσ −2 +2 D. 99,7 % des individus entre µ−3σ et µ+3σ (il y a donc très peu de chances qu’un individu s’écarte de la moyenne de plus de 3σ). 99,7 % x µσ − µ µσ 3 +3 1.2. Calcul des probabilités Pour calculer les probabilités associées à la loi normale, on utilise généralement la loi normale réduite : c’est une loi normale pour laquelle µ = 0 et σ = 1. La table suivante permet de déterminer la probabilité que la variable x s’écarte de la moyenne µ de plus de z0 × σ vers le haut. Pour obtenir z0, on calcule l’écart par rapport à la moyenne : δ = x - µ, δ puis on divise par l’écart type : z 0 = σ
  • 5. 2ème décimale de z0 Z0 0 1 2 3 4 5 6 7 8 9 0.0 .500 .496 .492 .488 .484 .480 .476 .472 .468 .464 0.1 .460 .456 .452 .448 .444 .440 .436 .433 .429 .425 0.2 .421 .417 .413 .409 .405 .401 .397 .394 .390 .386 0.3 .382 .378 .374 .371 .367 .363 .359 .356 .352 .348 0.4 .345 .341 .337 .334 .330 .326 .323 .319 .316 .312 0.5 .309 .305 .302 .298 .295 .291 .288 .284 .281 .278 0.6 .274 .271 .268 .264 .261 .258 .255 .251 .248 .245 0.7 .242 .239 .236 .233 .230 .227 .224 .221 .218 .215 0.8 .212 .209 .206 .203 .200 .198 .195 .192 .189 .187 0.9 .184 .181 .179 .176 .174 .171 .169 .166 .164 .161 1.0 .159 .156 .154 .152 .149 .147 .145 .142 .140 .138 1.1 .136 .133 .131 .129 .127 .125 .123 .121 .119 .117 1.2 .115 .113 .111 .109 .107 .106 .104 .102 .100 .099 1.3 .097 .095 .093 .092 .090 .089 .087 .085 .084 .082 1.4 .081 .079 .078 .076 .075 .074 .072 .071 .069 .068 1.5 .067 .066 .064 .063 .062 .061 .059 .058 .057 .056 1.6 .055 .054 .053 .052 .051 .049 .048 .047 .046 .046 1.7 .045 .044 .043 .042 .041 .040 .039 .038 .038 .037 1.8 .036 .035 .034 .034 .033 .032 .031 .031 .030 .029 1.9 .029 .028 .027 .027 .026 .026 .025 .024 .024 .023 2.0 .023 .022 .022 .021 .021 .020 .020 .019 .019 .018 2.1 .018 .017 .017 .017 .016 .016 .015 .015 .015 .014 2.2 .014 .014 .013 .013 .013 .012 .012 .012 .011 .011 2.3 .011 .010 .010 .010 .010 .009 .009 .009 .009 .008 2.4 .008 .008 .008 .008 .007 .007 .007 .007 .007 .006 2.5 .006 .006 .006 .006 .006 .005 .005 .005 .005 .005 2.6 .005 .005 .004 .004 .004 .004 .004 .004 .004 .004 2.7 .003 .003 .003 .003 .003 .003 .003 .003 .003 .003 2.8 .003 .002 .002 .002 .002 .002 .002 .002 .002 .002 2.9 .002 .002 .002 .002 .002 .002 .002 .001 .001 .001 Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on essaie de se ramener à une probabilité considérée dans la table.
  • 6. Quelques cas concrets sont illustrés ci-dessous. 1) x > µ + z0σ Prob (table) x µσ µ µσ −z0 + z0 2) x < µ - z0σ Prob (table) x µσ µ µσ −z0 + z0 3) x plus éloigné de µ que z0σ 2× (table) Prob x µσ µ µσ −z0 + z0 4) x plus proche de µ que z0σ 1-2× (table) Prob x µσ µ µσ −z0 + z0 5) x < µ + z0σ 1-Prob (table) x µσ µ µσ −z0 + z0
  • 7. Exemples : Le poids des tomates produites par un jardinier obéit à une loi normale de moyenne 200 gr et d'écart type 40 gr. a. Calculez la probabilité que le poids d'une tomate excède 250 gr. δ = 250 − 200 = 50 gr Solution: δ 50 z0 = = = 1,25 σ 40 Prob = 0,106 = 10,6 % b. Calculez la probabilité que le poids d'une tomate soit inférieur à 100 gr. δ = 100 − 200 = −100 gr Solution: la loi normale est symétrique → on ne s'occupe pas du signe δ 100 z0 = = = 2,5 σ 40 moins de 100 gr: on s'écarte donc de la valeur moyenne µ = 200 gr de plus de z0 × σ Prob = 0,006 = 0,6 % c. Calculez la probabilité que le poids d'une tomate soit inférieur à 230 gr. δ = 230 − 200 = 30 gr Solution: δ 30 z0 = = = 0,75 σ 40 L’intervalle (< 230 gr) considéré contient la valeur moyenne (200 gr) → on prend 1 – Prob(table): Prob = 1 − 0,227 = 0,773 = 77,3 % d. Calculez la probabilité que le poids d’une tomate ne s’écarte pas de la valeur moyenne de plus de 20 gr. Solution: on calcule d’abord la probabilité que le poids s’écarte de plus de 20 gr, vers le haut ou vers le bas : δ = 20 gr σ = 40 δ 20 z0 = = = 0,5 σ 40 Prob = 0,309 = 30,9 % On doit multiplier par 2 car on considère les deux côtés → Prob = 2 × 0,309 = 0,618 On a donc une prob. de 0,618 que le poids s'écarte de µ de plus de 20 gr, et donc une prob. 1-0,618 que le poids ne s'écarte pas de plus de 20 gr. Réponse: 0,382 = 38,2 % 1.3. Forme de la distribution d'échantillonnage Supposons que nous analysions une population quelconque à partir d'un ensemble d'échantillons.
  • 8. Pour chacun de ces échantillons, nous calculons une valeur moyenne X qui est une estimation de la moyenne de la population µ. Bien entendu, les estimations X différeront généralement de la vraie moyenne µ. Nous désirons savoir comment les différentes déterminations X vont se distribuer autour de la vraie moyenne µ. n(x) n(x) population x x échantillon 1 X X échantillon 2 Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre d'échantillons pour lesquels la valeur moyenne X prend une certaine valeur (se situe dans une certaine classe). n(x) histogramme des valeurs moyennes X x La figure suivante montre l’histogramme des valeurs moyennes X pour des échantillons de tailles croissantes tirés des populations indiquées sur la première ligne.
  • 9. Lorsque la taille de l'échantillon est suffisamment grande, (n ≥ 10) la distribution de la moyenne a une forme approximativement normale. L'écart type sur la moyenne est: () σ σX= n Quelle que soit la population sous-jacente, si on utilise des échantillons suffisamment grands (au moins 10 à 20 individus), la précision de la valeur moyenne peut être calculée à partir de la loi normale.
  • 10. Il y a 68 % (≅2/3) de chances que la vraie moyenne µ soit dans l'intervalle compris entre X-σ et X+σ. n x− x x+σ σ x Il y a 95 % de chances que la vraie moyenne µ soit dans l'intervalle compris entre X-2σ et X+2σ. n x− 2σ x+2σ x x Exemples 1. Une organisation de consommateurs désire savoir si le poids réel des pains de 800gr produits dans une boulangerie est bien conforme au poids annoncé. Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids moyen de 780 gr, avec un écart type de 80 gr. Quelle est la probabilité que le boulanger triche en moyenne sur le poids de ses pains? n = 100 X = 780 gr s = 80 gr () s 80 σX= = = 8 gr Ecart type de X: n 100 Il n'y a pas tricherie si µ est de 800 gr au moins, c'est-à-dire 20 gr au- dessus de X. 20 20 z0 = = = 2,5 () σX 8 D'après la table, la probabilité que µ soit supérieur à X d'au moins 2,5 σ( X ) est de 0,006. 100 - 100 × 0,006 = 100 - 0,6 = 99,4 Il y a 99,4 % de chance pour que le boulanger triche → on peut raisonnablement conclure à la tricherie ! 2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au résultat suivant : n = 100 X = 795 gr s = 50 gr
  • 11. () s 50 σX= = = 5 gr n 100 800 − 795 5 z0 = = =1 5 5 D’après la table, la probabilité que µ soit supérieur ou égal à 800 gr est de 0,159. Il y a donc 84,1 % de chances que ce boulanger triche. Même si la présomption est forte, ce n’est pas vraiment suffisant pour conclure à la tricherie ! 3. Dans une troisième boulangerie, on obtient : n = 100 X = 810 gr s = 50 gr () s 50 σX= = = 5 gr n 100 800 − 810 10 Z0 = = − = −2 5 5 D'après la table, la probabilité que µ soit inférieur ou égal à 800 gr est de 0,023. Il n'y a que 2,3 % de chances que ce boulanger triche. On peut conclure qu'il est honnête ! 4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève à 62 000 F net par mois, avec un écart type de 16 000 F. a. Quelle est la probabilité que le revenu moyen de l'ensemble de la population soit inférieur à 60 000 F ? Solution: n = 16 X = 62000 s = 16000 () s 16000 16000 σX= = = = 4000 4 n 16 δ = 60000 − 62000 = −2000 δ 2000 z0 = = = 0,5 () σ X 4000 < 60 000: s'écarte de X de plus de 0,5×σ( X ) → on prend la valeur de la table Prob = 0,309 = 30,6 % b. Quelle est la probabilité que le revenu moyen de la population soit inférieur à 65 000 F ? Solution: δ = 65000 − 62000 = 3000 δ 3000 Z0 = = = 0,75 () σX 4000 < 65000: ne s'écarte pas de X de plus de 0,75 ×σ( X ) vers le haut → on prend la valeur p de la table et on calcule 1-p p = 0,227 1-p = 0,773 = 77,3 %
  • 12. 5.4. Intervalles de confiance Nous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie moyenne µ de la population. Nous voudrions estimer également la précision de cette moyenne, c'est-à- dire donner une marge d'erreur ou un intervalle de confiance. Nous pouvons utiliser les tables de la loi normale pour estimer ces intervalles de confiance. En général nous adopterons l'intervalle de confiance à 95%, soit à 2σ( X ). Nous pourrons donc écrire, soit: () µ = X ± 2σ X soit, plus explicitement: Il y a 95 chances sur 100 que µ se situe entre () () X − 2σ X X + 2σ X et Si nous tirons une série d’échantillons aléatoires de la population, dans 19 cas sur 20 (en moyenne), µ se trouvera dans l’intervalle de confiance X ± 2σ( X ).
  • 13. Exemples : 1. La taille moyenne d'un échantillon de 51 filles de 2ème candi. commu. est de 167,9 cm. L'écart type de cet échantillon est de 5,3 cm. Si nous supposons que cet échantillon est représentatif de la taille des filles belges âgées d'une vingtaine d'années, nous pouvons calculer la taille moyenne de cette population, avec sa marge d'erreur : n = 51 X = 167,9 s = 5,3 ( ) 5,3 = 0,74 σX= 51 2σ ( X ) = 1,48 ≅ 1,5 cm Avec 95 % de confiance, nous pouvons donc dire que la taille moyenne de la population vaut: µ = 167,9 ± 1,5 cm ce qui revient à dire qu'il y a 95 chances sur 100 pour que la taille moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm. 2. La taille moyenne d'un échantillon de 35 garçons de 2ème candi. commu. est de 182,9 cm En supposant de même l'échantillon représentatif, nous pouvons donner un intervalle de confiance pour la taille des garçons belges de 20 ans. n = 35 X = 182,9 s = 6,7 ( ) 6,7 = 1,13 σX= 35 2σ ( X ) = 2,26 ≅ 2,3 cm Avec 95 % de confiance, on a donc: µ = 182,9 ± 2,3 cm 5.5. Comparaison de deux échantillons indépendants Des échantillons sont indépendants lorsqu’une modification dans l’un d’eux n’a pas d’influence sur les autres. Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour déterminer le poids moyen des filles et celui des garçons sont indépendants. Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans un sondage politique ne forment pas deux échantillons indépendants car si une personne de plus déclare voter pour A, il y a un électeur potentiel en moins pour B (les résultats de A et B s’influencent). La différence moyenne est simplement: X D = X1 − X 2 Son écart type est donné par:
  • 14. () () 2 2 σ D = σ1 X + σ 2 X (formule approchée, mais suffisamment précise) Pour la taille des filles et des garçons: X D = 182,9 − 167,9 = 15 cm σ D = 0,74 2 + 1,132 = 1,35 cm L'intervalle de confiance à 95 % est de: 2 × 1,35 = 2,7 cm XD = 15,0 ± 2,7 cm Si nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus grands, en moyenne, que les filles? différence moyenne de taille: XD = 15,0 cm  écart type de cette différence: σD = 1,35 cm  nombre d'écarts types au-dessus de 0 cm (0 cm ≡ pas de  différence de taille) 15,0 z0 = = 11,1111 1,35 Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la moyenne de plus de 11 σ est inférieure à 2.10-28 et donc complètement négligeable. Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence de taille soit due au hasard. Sur base de nos échantillons, nous sommes donc pratiquement certains que les garçons sont, en moyenne, plus grands que les filles.
  • 15. Exemple On sélectionne un échantillon de 25 paysans syldaves. La superficie de leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5 hectares. Pour un échantillon de 16 paysans bordures, la superficie moyenne des terres est de 26 hectares, avec un écart type de 8 hectares. Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus de terres que les bordures ? Solution: Ces échantillons sont indépendants. • échantillon syldave: n1 = 25 X 1 = 24 s1 = 5 écart type sur la moyenne: σ ( X 1 ) = 5 5 = =1 5 25 • n2 = 16 X 2 = 26 s2 = 8 échantillon bordure: ()8 8 écart type sur la moyenne: σ X 2 = = =2 16 4 différence moyenne: (syldave-bordure): X D = X 1 − X 2 = 24 − 26 = −2 écart type sur la différence: () () 2 2 = 12 + 2 2 = 5 ≅ 2,24 σ D = σ X1 +σ X2 les syldaves ont plus de terre en moyenne que les bordures si la différence est >0→s'écarte de la valeur moyenne calculée de plus de 2 δ 2 z0 = = ≅ 0,89 σ D 2,24 table→Prob = 0,187 = 18,7 % de chances que la superficie moyenne soit supérieure en Syldavie. 6 Les proportions 6.1. Ecart type pour les proportions Considérons le cas d’un sondage politique. Ici, on ne désire plus estimer la moyenne d'une grandeur sur une population, mais la proportion des individus de cette population qui se rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.). Exemple Un institut de sondage interroge un échantillon représentatif de 200 électeurs, qui ont le choix entre 4 partis politiques. Les résultats du sondage sont les suivants: parti nombre d’intentions de vote PUB 24 PET 35 PAF 69 PIF 61
  • 16. ne se prononcent pas 11 Notons p la proportion d'individus d'une classe dans l'échantillon Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a : n1 p1 = n et de même n2 p2 = , n
  • 17. Dans notre sondage, les proportions sont les suivantes: parti proportion PUB 0,120 PET 0,175 PAF 0,345 PIF 0,305 n.s.p. 0,055 Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la proportion π dans la population. Pour des échantillons suffisamment grands, les proportions suivent une loi normale, avec un écart type d'échantillon de: π -π (1 ) σ p= n En général, la proportion π dans la population n'est pas connue. On la remplace alors par la proportion p dans l'échantillon p(1 − p ) σp ≅ n Les proportions obéissent à des lois comparables à celles des moyennes. Une différence importante est que l'écart type peut être calculé à partir des proportions (pour les moyennes, il devait être connu par ailleurs). Nous pouvons donc calculer les intervalles de confiance à 95 % sur les intentions de vote. 0,12 (1 - 0,12) σ(PUB) = = 0,023 p 200 0,175 (1 - 0,175) σ(PET) = = 0,027 p 200 0,345 (1 - 0,345) σ(PAF) = = 0,034 p 200 0,305 (1 - 0,305) σ(PIF) = = 0,033 p 200 Les intervalles de confiance à 95 % sont de 2σP
  • 18. Les résultats du sondage sont les suivants: parti intentions de vote 12,0 ± 4,6 % PUB 17,5 ± 5,4 % PET 34,5 ± 6,8 % PAF 30,5 ± 6,6 % PIF 6.2. Les proportions sont des moyennes Considérons une élection opposant deux partis A et B. Considérons la grandeur x = nombre de voix qu’un électeur apporte au parti B. C’est une variable discrète qui peut prendre deux valeurs : x=0 si l’électeur vote pour A x= 1 si l’électeur vote pour B Soient nA le nombre d’électeurs votant pour A nB le nombre d’électeurs votant pour B n le nombre total d’électeurs p la proportion d’électeurs votant pour B Calculons la valeur moyenne de x : 1 1 Σn x= X= (0 + 0 +…+ 1 + 1 +…) n nA nB nB X= =p n La proportion est donc la moyenne de x.
  • 19. Calculons l’écart type sur x (ou plutôt son carré, appelé variance) : 1 Σ 2 2 (x - X) σ= n 1 2 2 2 2 2 [(0 - p) + (0 - p) +…+ (1 - p) + (1 - p) +…] σ= n nA nB 1 2 2 2 σ= [ nA p + nB ( 1 - p ) ] n nA nB 2 2 2 (1-p) σ= p+ n n 2 2 2 σ=(1-p)p +p(1 -p) 2 σ = p (1 - p) [ p + 1 - p ] On a donc σp (1 - p) = Et donc, σ σ= σ p ) = σ X ) = ( ( p n p(1-p) σ= n 6.3. Exemples Exemple 1 : n = 100 n1 = 60 n2 = 40 n2 40 n1 60 = = 0,4 = = 0,6 p2 = p1 = n 100 n 100 p1 (1 - p1) 0,6 ×0,4 σ 1= = = 0,049 n 100 Pourquoi = ? * p2 (1 - p2) 0,4 ×0,6 σ 2= = = 0,049 n 100 * Quand il n'y a que deux choix possibles, et pas d'abstentions, on a n2 = n − n1 et l'incertitude sur n2 est forcément la même que sur n1. Ce n'est plus vrai à partir de 3 choix. On ne peut pas calculer σD = σ p + σ p2 2 2 1 car les 2 échantillons ne sont pas indépendants ! Le parti 1 gagne les élections si p1>0,5
  • 20. δ 0,6 - 0,5 = 0,1 = σ 0,049 = 0,1 δ = = 2,04 z0 = σ 0,049 table → Prob = 0,021 →il y a 2,1 % de chances que p1 < 0,5 →il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les élections Exemple 2 : On constate un défaut dans 20 % des voitures d’un modèle. Un garagiste, qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé 12 pièces de rechange. Quelle est la probabilité qu’il n’ait pas suffisamment de pièces ? Solution : La proportion de voitures défectueuses vaut π = 0,2. Dans l’échantillon de 50 voitures, on s’attend à la même proportion, avec un écart type : π (1 - π 0,2 × ) 0,8 σ = = 0,057 p= n 50 Il n’aura pas suffisamment de pièces si le nombre de voitures défectueuses est supérieur à 12, ou au moins égal à 13. On a le choix entre deux critères : 12 13 ou p≥ p> 50 50 Dans ce cas, on obtient un meilleur résultat en appliquant la correction de continuité et en choisissant 12,5 plutôt que 12 ou 13. Nous retiendrons donc 12,5 = 0,25 p> 50 Pour qu’il n’ait pas assez de pièces de rechange, il faut donc que la proportion s’écarte de la valeur moyenne de plus de δ = 0,25 − 0,2 = 0,05 On obtient donc : δ 0,05 z0 = = = 0,88 0,057 σ La probabilité d’avoir un écart au moins aussi élevé est, d’après la table de la loi normale, de 0,189.
  • 21. Il y a donc 18,9 % de risques que le garagiste n’ait pas assez de pièces de rechange. 6.4. Illustration : test de la fiabilité des horoscopes Lors de deux leçons, nous organisons un test destiné à mesurer la fiabilité des horoscopes. Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la semaine précédente. Chaque étudiant présent lit ces horoscopes et indique :  son signe astrologique ;  lequel de ces horoscopes correspond le mieux à ce qui lui est arrivé lors de la semaine écoulée. Pour le premier test, les signes astrologiques sont indiqués. Dans le second test, ces signes ne sont pas indiqués et l’ordre en est modifié. Ce test a pour but de répondre à deux questions :  les horoscopes sont-ils fiables ?  la connaissance du signe a-t-elle une influence sur les réponses des individus testés ? Nous désignerons par « coïncidences positives » (CP) les cas où l’étudiant a reconnu son signe, c’est-à-dire les cas où l’horoscope qu’il a sélectionné correspond bien à son signe. Les résultats des tests effectués de 1998 à 2004 sont résumés dans le tableau suivants : année signes connus signes inconnus n CP n CP 1998 69 8 67 2 1999 - - 78 5 2000 - - 65 12 2001 76 19 65 3 2002 71 9 71 9 2003 57 10 72 5 2004 81 15 44 2 total 354 61 418462 38 6.4.1. Test de la fiabilité des horoscopes. Nous considérons l’ensemble des quatre années et retenons les tests où les signes n’étaient pas connus, afin d'éviter des biais éventuels. Nous avons un échantillon de 462 réponses, avec 38 coïncidences positives. Si ces coïncidences positives étaient dues au hasard uniquement, c’est-à- dire si chaque individu répondait au hasard, il aurait une chance sur 12 de choisir l’horoscope correspondant à son signe. Par le hasard seul, nous nous attendrions donc à
  • 22. 462 = 38,5 CP 12 Or, nous avons 38 CP, ce qui est pratiquement égal au nombre attendu par l’action du hasard. C’est très mauvais signe pour la fiabilité des horoscopes ! Nous allons cependant utiliser nos connaissances en statistique pour analyser ces tests de manière plus quantitative.
  • 23. (a) le nombre de coïncidences positives est compatible avec l’action du hasard seul. Dans le cas d’une répartition au hasard, le nombre de CP doit être, en 1 moyenne, du nombre de réponses. 12 La proportion de CP, p+ , vaut donc : 1 p+ = = 0,083 12 avec un écart type p+ (1 - p+) 0,083 × = 0,013 0,917 σ = += n 418 L’intervalle de confiance à 95 % vaut donc : 0,083 ± 0,026 ou encore : [0,057 ; 0,109] La valeur obtenue par l’étude de notre échantillon vaut : 38 p+ = = 0,082 462 Elle se trouve dans l’intervalle de confiance pour une répartition due au hasard. On peut donc conclure que la petite différence entre la valeur mesurée et la valeur attendue est parfaitement compatible avec le hasard : c’est ce qu’on appelle une fluctuation statistique. Exemple de fluctuation statistique. Si on lance une pièce de monnaie, on s’attend à avoir, en moyenne, autant de « pile » que de « face ». Sur 100 lancers, on n’aura que rarement 50 « pile » et 50 « face » exactement. Les écarts par rapport à ce nombre moyen sont les fluctuations statistiques. ex : 47 pile et 53 face, 52 pile et 48 face,… (b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité des horoscopes ? Nous devons tout d’abord définir ce que nous entendons par fiabilité des horoscopes. Si l’astrologie était une science exacte, elle devrait être capable de prédire avec certitude ce qui va nous arriver. Toutefois, nous ne lui en demanderons pas tant. Nous dirons que les horoscopes sont fiables à 50 % si les prédictions concernant notre signe sont celles qui correspondent le mieux à ce qui nous arrive, dans au moins un cas sur deux.
  • 24. Dans ce cas, au moins la moitié des individus devraient reconnaître leur signe. Remarque : cette définition est très peu contraignante pour l’astrologie. En effet :  nous ne lui demandons pas de prédire avec précision ce qui va nous arriver, mais seulement que la prédiction concernant notre signe soit la plus proche de ce qui va nous arriver, parmi les 12 prédictions.  nous ne demandons pas que cela se produise pour tous les individus, mais seulement pour la moitié d’entre eux. Soit p+ la proportion des individus qui reconnaissent leur signe. Dans notre échantillon, nous avons : 38 p+ = = 0,082 462 avec un écart type : p+ (1 - p+) 0,082 × = 0,013 0,918 σ = += n 462 Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la p+ ≥ 0.5, donc un écart minimum avec population, une proportion notre valeur d’échantillon : δ− 0,418 + = 0,5 0,082 = et donc : δ 0,418 ≅! + 32 = Z0 = σ 0,013 + Cette valeur est si grande qu’elle ne figure pas dans notre table de la loi normale. En fait, il n’y a pas une chance sur des milliards de milliards pour que les horoscopes testés soient fiables à 50 %. Notre échantillon nous permet d’exclure cette hypothèse avec une certitude quasi absolue. Les horoscopes pourraient-ils être fiables à 25 % ? Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond le mieux à un individu soit celle de son signe ?
  • 25. Dans ce cas, au moins un quart des individus devraient reconnaître leur signe. Il faudrait donc p+ ≥ 0.25, et donc un écart δ − 0,168 + = 0,25 0,082 = et : δ 0,168 ≅ + 12,9 = Z0 = σ 0,013 + Cette valeur est, une fois de plus, en dehors de la table de la loi normale. Notre test nous permet d’exclure avec une quasi certitude que les horoscopes testés soient fiables une fois sur 4. Tester une fiabilité plus faible n’a pas beaucoup de sens car :  être fiable moins d’une fois sur 4, c’est plutôt être non fiable. le hasard seul donne une fiabilité d’une fois sur 12→on risque  évidemment de trouver que les horoscopes sont fiables une fois sur 12 ! En résumé : Nous pouvons conclure que la fiabilité des horoscopes testés est nulle, puisque l’on obtiendrait le même résultat en choisissant les signes au hasard. Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les prévisions des autres signes s’appliquent tout aussi bien (ou plutôt : tout aussi mal) à vous ! 6.4.2. La connaissance du signe a-t-elle influencé les réponses ? Nous allons tâcher de déterminer si les individus testés se sont laissé influencer par la connaissance de leur signe, lorsque celui-ci était indiqué. Dans les tests avec signes connus, nous avons 61 coïncidences positives sur 354 réponses, soit une proportion: 61 pc = = 0,172 354 avec un écart type: 0,172 × = 0,020 0,828 σ c= 354
  • 26. Avec les signes inconnus, nous avons 38 coïncidences positives sur 462 réponses, soit une proportion: 38 pi = = 0,082 462 avec un écart type: 0,082 × = 0,013 0,918 σ i= 462 On a donc une proportion plus grande de coïncidences positives lorsque les signes sont connus, ce qui laisse supposer que certains individus se sont laissé influencer par la connaissance de leur signe . Cette différence est-elle statistiquement significatives ? Avec quelle confiance pouvons-nous affirmer que cette différence ne peut pas être due à l'action du hasard (fluctuation statistique). Nous pouvons supposer que les deux échantillons sont indépendants car nous ne voyons pas comment la réponse à un des test pourrait influencer la réponse à l'autre. Nous avons une différence de proportion: δ 0,172 − = pc − 0,082 = 0,090 pi = entre les CP avec signes connus et inconnus. L'écart type sur cette différence vaut: σ δ = σ c + σ i = 0,020 2 + 0,013 2 = 0,024 2 2 Nous obtenons donc: δ 0,090 ≅ 3,7 = Z0 = σ 0,024 δ D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est de 0,0001. Nous pouvons donc conclure avec 99,99 % de confiance que la connaissance du signe a effectivement influencé les réponses. Ce résultat illustre l'importance de réaliser les tests quot;à l'aveuglequot;, sans que les sujets testés puissent se laisser influencer par la connaissance d'informations de nature à influencer le résultat. Même en essayant de ne pas tenir compte de ces informations, on risque fort de se laisser influencer. 7Corrélation 7.1. Corrélation entre deux variables Jusqu'à présent, nous nous sommes intéressés à des questions du type:  quelle est la taille moyenne des garçons belges âgés d'une vingtaine d'années ?  quelle est la probabilité pour qu'un médicament soit efficace ?
  • 27.  quel pourcentage de voix un parti politique recueillera-t-il aux prochaines élections ?  quelle fraction des barres métalliques produites par une usine sera-t- elle rejetée par le client ?  le poids moyen des pains produits dans une boulangerie est-il supérieur à 800 grammes ? Dans toutes ces questions, nous étudions le comportement statistique d'une seule variable: taille, efficacité du médicament, pourcentage de voix, longueur des barres, poids des pains. Il existe cependant toute une gamme de problèmes statistiques où l'on s'intéresse à la relation entre plusieurs variables. Exemples:  les individus les plus grands sont-ils les plus lourds ?  le revenu d'une famille a-t-il une influence sur les résultats scolaires des enfants ?  y a-t-il une relation entre le tabagisme et les cancers du poumon ?  le rendement en céréales dépend-il de la quantité d'engrais utilisée ?  la productivité d'une entreprise est-elle liée au salaire des ouvriers ou employés ? Dans ces questions, nous désirons savoir si le comportement d'une variable est influencé par la valeur d'une autre variable: taille poids revenu résultats tabagisme cancer rendement engrais La relation peut être causale ou non Pour étudier les relations ou corrélations entre deux variables statistiques, on peut les porter sur un graphique. Exemple: relation entre la taille et le poids des individus pour chaque individu de l'échantillon, on porte sur un graphique: sa taille en abscisse (l'abscisse d'un point correspond à sa projection  sur l'axe horizontal) son poids en ordonnée (l'ordonnée d'un point correspond à sa  projection sur l'axe vertical) chaque individu est donc, dans ce graphique, représenté par un point (point représentatif) soit un individu mesurant 172 cm et pesant 66 kg:
  • 28. 70 p 66 o i point représentatif d 60 s (kg) 50 150 160 170 180 172 taille (cm) Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans l'échantillon. . . p . o 80 . ... i .. . . . . d 70 . . .. . . . . s . . .. . . . (kg) 60 .. 50 150 160 170 180 190 200 taille (cm) Relation entre le poids et la taille dans un échantillon de 30 individus. On peut (par la pensée ou réellement) tracer une droite qui passe au mieux par ces points (au milieu du quot;nuagequot; de points).
  • 29. Si cette droite quot;montequot;, on dira qu'il y a corrélation positive entre les deux variables. Si elle quot;descendquot;, c'est une corrélation négative. Si elle est quot;horizontalequot;, ou si on ne peut pas décider, c'est qu'il y a absence de corrélation. Corrélation positive: y . . . . ... .. . . . . . . .. . . . . . . .. . . . .. x Corrélation négative: y . .. . . . . .. .. . . .. . . . . . .. . . .. . . . . x Absence de corrélation: y y . .. . .. . . . . . .. . . . . .. . . . . . . .. . .. . . . . . . . . . . .. . . . . .. . . .. . . x x La qualité de la corrélation entre deux variables peut se mesure par la dispersion des points autour de la relation moyenne. Corrélation parfaite:
  • 30. y . .. .. . . x Bonne corrélation (corrélation forte): y . .. . .. . .. .. x Mauvaise corrélation (corrélation faible): y . . .. . . . . . .. x
  • 31. Exemple: 1. Corrélation entre le poids et la taille pour les garçons de 2ème candidature communication (1998). 100 .. . . p . .. .. o 80 .. . . .. . . . . .. i .. d . . . .. .. . . s . (kg) 60 . 40 140 160 180 200 taille (cm) On constate une augmentation du poids avec la taille (corrélation positive): les garçons les plus grands sont généralement les plus lourds. Mais la dispersion des points est assez grande: la corrélation est assez faible. 2. Corrélation entre le poids et la taille pour les filles de 2ème candi. commu. p o 80 i . . .... . . d . . s . .. ..... . . (kg) 60 . . .. .. .. . . .... . . ..... .. . . .. . 40 140 160 180 200 taille (cm) On ne constate pas de relation entre le poids et la taille (absence de corrélation): le poids des filles est indépendant de leur taille.
  • 32. (Les filles les plus grandes sont donc les plus minces) 7.2. Méthode des moindres carrés Si on se contente de tracer à main levée la droite qui quot;passe au mieuxquot; par les points représentatifs, différentes personnes vont obtenir des résultats différents. Il existe une méthode mathématique pour déterminer la quot;meilleurequot; droite: c'est la méthode des moindres carrés. Elle consiste, dans sa version la plus simple, à trouver la droite qui minimise les carrés des écarts des points représentatifs à cette droite. Y d5 d3 d4 d1 d2 X Trouver la droite telle que la somme des carrés des écarts d1, d2,… soit minimale: ∑ d 2 = minimum Soit Y = aX + b l'équation de la droite cherchée (droite de régression) Les coefficients a et b peuvent être calculés à partir des formules suivantes: Pente: (X )( )( )( ) ( )( ) − X . Y1 − Y + X 2 − X . Y2 − Y +  + X n − X . Yn − Y a= 1 (X − X ) + (X − X ) ++ (X − X ) 2 2 2 1 2 n ou: ∑ ( X − X ).(Y − Y ) a= ∑ (X − X )2
  • 33. Ordonnée à l'origine: b = Y − a. X Rappels: 1 ∑X X= n 1 Y = ∑Y n 7.3. Coefficient de corrélation Le signe de la pente a donne le sens de corrélation, mais pas sa qualité. a>0 corrélation positive a<0 corrélation négative a=0 pas de corrélation La qualité de la corrélation peut être mesurée par un coefficient de corrélation r ∑ ( X − X ).(Y − Y ) r= ∑ ( X − X ) × ∑ (Y − Y )2 2 Le coefficient de corrélation est compris entre −1 et +1. Plus il s'éloigne de zéro, meilleure est la corrélation r = +1 corrélation positive parfaite r = −1 corrélation négative parfaite r=0 absence totale de corrélation
  • 34. Quelques exemples de corrélation (le coefficient de corrélation r est indiqué dans chaque cas)
  • 35. Exemples: 1. Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant les dépenses de recherche X et les profits Y suivants (en milliers de dollars): X Y 40 50 40 60 30 40 50 50 Trouvez la droite de régression et le coefficient de corrélation. Calculons tout d'abord X et Y: 1 1 160 ∑ X = 4 ( 40 + 40 + 30 + 50) = 4 = 40 X= n 1 1 200 Y = ∑ Y = ( 50 + 60 + 40 + 50 ) = = 50 n 4 4 Complétons le tableau suivant: ( X − X ) .(Y − Y ) ( X − X ) 2 (Y − Y ) 2 Y X X−X Y −Y 40 50 0 0 0 0 0 40 60 0 +10 0 +100 0 −10 −10 30 40 +100 +100 +100 50 50 +10 0 +100 0 0 On a donc: ∑ ( X − X ) = 200 2 ∑ (Y − Y ) = 200 2 ∑ ( X − X ).(Y − Y ) = 100 Les coefficients de la droite de régression sont: ∑ ( X − X )(Y − Y ) = 100 = 0,5 . a= ∑(X − X ) 2 200 b = Y − a. X = 50 − 0,5 × 40 = 50 − 20 = 30 Et le coefficient de corrélation: ∑ ( X − X )(Y − Y ) . 100 100 r= = = = 0,5 ∑ ( X − X ) × ∑ (Y − Y ) 200 × 200 200 2 2
  • 36. La corrélation est positive et de qualité moyenne Y 60 50 40 30 40 50 60 X 2. La corrélation entre la taille (X) et le poids (Y) pour les garçons de 2ème candi. commu. donne les résultats suivants: (a) droite de régression Y = aX + b a = 0,816 b = -77,0 (b) coefficient de corrélation r = 0,61 la corrélation est donc positive, de qualité moyenne 3. De la même manière, pour les filles, on obtient: (a) droite de régression a = 0,239 b = 16,6 (b) coefficient de corrélation r = 0,20 la corrélation est positive (les filles les plus grandes tendent à être les plus lourdes), mais de très mauvaise qualité (r proche de zéro). Remarques: 1. Le coefficient de corrélation nous donne des informations sur l'existence d'une relation linéaire (sous forme d'une droite) entre les deux grandeurs considérées. Un coefficient de corrélation nul ne signifie pas l'absence de toute relation entre les deux grandeurs. Il peut exister une relation non linéaire entre elles. (cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations sur la valeur de Y).
  • 37. 2. Il ne faut pas confondre corrélation et relation causale. Une bonne corrélation entre deux grandeurs peut révéler une relation de cause à effet entre elles, mais pas nécessairement. Exemples: 1. Si on compare la durée de vie des individus à la quantité de médicaments pour le cœur qu'ils ont absorbée, on observera probablement une corrélation négative. Il serait imprudent de conclure que la prise de médicaments pour le cœur abrège la vie des individus… (en fait, dans ce cas, la corrélation est l'indice d'une cause commune: la maladie de cœur). 2. Le soleil tire son énergie de réactions nucléaires transformant l'hydrogène en hélium. Notre société tire une bonne part de son énergie de la combustion du pétrole. Si on compare, année après année, la quantité d'hélium contenue dans le soleil au prix moyen du pétrole, on obtiendra une bonne corrélation positive, sans qu'il y ait la moindre relation de cause à effet, ni aucune cause commune. 3. Depuis une dizaine d'années, la taille de mon fils cadet, né en 1989, est très bien corrélée avec la puissance de calcul des ordinateurs personnels. Cette excellente corrélation ne révèle bien évidemment aucune relation de cause à effet, ni cause commune. L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve d'une relation de cause à effet.