Stat4 Principes Des Tests Statistiques

7,405 views
7,244 views

Published on

Principes des tests statistiques, sous Excel, à l'aide d'exemples empruntés à la kinesitherapie.

Published in: Education, Technology
1 Comment
7 Likes
Statistics
Notes
No Downloads
Views
Total views
7,405
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
1
Likes
7
Embeds 0
No embeds

No notes for slide

Stat4 Principes Des Tests Statistiques

  1. 1. 4- Principes des tests statistiques Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source Enkre
  2. 2. <ul><li>Ces diaporamas ne sauraient remplacer un cours de biostatistiques. </li></ul><ul><li>Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. </li></ul><ul><li>Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. </li></ul><ul><li>Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées dans ces diaporamas. </li></ul><ul><li>Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. </li></ul>Nécessaires préambules…
  3. 3. Pourquoi faire des tests statistiques ? <ul><li>La statistique concerne l’étude d’une variable sur un échantillon qui présente les mêmes caractéristiques que la variable dans la population dont il est issu. Elle ne serait pas nécessaire si la mesure pouvait se faire sur l’ensemble de la population. </li></ul><ul><li>La meilleure façon d’obtenir un échantillon représentatif de cette population est de le tirer au sort dans la population, ce qui sous-entend de laisser faire le hasard pour décider de la représentativité de l’échantillon. </li></ul>
  4. 4. Pourquoi faire des tests statistiques ? <ul><li>Le problème commence lorsque sont tirés au hasard plusieurs échantillons issus d’une même population : il existe, pour deux échantillons semblables, des fluctuations d’échantillonnage, leur donnant des valeurs proches, jamais identiques, mais contenues raisonnablement dans un intervalle de confiance. Le hasard est responsable d’une partie ou de la totalité de ces différences. </li></ul><ul><li>Le test statistique permet de se prononcer sur ce fait : «Existe-t-il intrinsèquement une différence entre les deux variables en plus des fluctuations liées au hasard ? » </li></ul><ul><li>Il est donc une règle de décision permettant de conclure si les quantités à comparer sont égales. Il fournit une valeur numérique, qui peut être comparée à une valeur de référence, et permet de se prononcer en standardisant les critères décisionnels. </li></ul>
  5. 5. Comment faire des tests statistiques ? <ul><li>Quelle que soit le type de variable, la procédure est toujours la même, en trois étapes. </li></ul><ul><li>Poser clairement le problème </li></ul><ul><li>Réaliser le test statistique </li></ul><ul><li>Conclure </li></ul>
  6. 6. Quel est le problème ? <ul><li>Formaliser la question à laquelle le test doit répondre consiste à émettre toutes les hypothèses plausibles, soit l’hypothèse nulle, suivie de l’hypothèse alternative. </li></ul><ul><li>L’hypothèse nulle (H 0 ) : </li></ul><ul><li>L’hypothèse de départ sera toujours de dire « il n’y a pas de différence liée à autre chose que le hasard dans la comparaison des quantités mesurées ». </li></ul><ul><li>L’hypothèse alternative (H 1 ) : </li></ul><ul><li>Dans le cas ou le test statistique autoriserait le rejet de l’hypothèse nulle, l’énoncé de l’hypothèse alternative doit être posé, ce qui se fait de deux manières : Elle peut envisager simplement que les quantités sont différentes l’une de l’autre, ou estimer, à la vue des connaissances antérieures sur la question, qu’une quantité est plus grande qu’une autre. </li></ul>
  7. 7. Quel est le problème ? <ul><li>Exemple </li></ul><ul><li>Les tailles des garçons et des filles de l’IFMK sont comparées. </li></ul><ul><li>L’hypothèse nulle consistera à dire : « les tailles des garçons sont identiques aux tailles des filles ». </li></ul><ul><li>L’hypothèse alternative consistera à dire soit : </li></ul><ul><li>« Les tailles des garçons sont supérieures aux tailles des filles » parce qu’il est connu que, dans la population, ce fait se retrouve. C’est une hypothèse unilatérale . Elle sous-entend un choix de départ. </li></ul><ul><li>« Les tailles des garçons sont différentes des tailles des filles ». C’est une hypothèse bilatérale , qui est systématiquement utilisée en épidémiologie ou lorsque le phénomène mesuré est inconnu, même si elle ne permet pas de se prononcer sur le sens de la différence, parce que plus rigoureuse. </li></ul>
  8. 8. Comment faire ? <ul><li>Ce petit paragraphe sera en fait sujet aux plus grands développements ultérieurs : </li></ul><ul><li>Pour chaque type de variable, pour la comparaison de 2 ou de plus de 2 variables, pour la comparaison de variables suivant une loi normale ou non, il y aura un test particulier. </li></ul><ul><li>Tous les tests aboutiront à donner une valeur numérique. </li></ul>
  9. 9. Conclure <ul><li>Il sera possible, à l’aide de la valeur numérique donnée par le test et issue de l’échantillon, de la comparer à des valeurs seuils, afin de soit : </li></ul><ul><li>Ne pas rejeter l’hypothèse nulle si les deux quantités sont estimées « proches » l’une de l’autre, ce qui veut dire « l’écart observé n’est attribué qu’aux fluctuations d’échantillonnage » </li></ul><ul><li>Rejeter l’hypothèse nulle si les deux quantités sont estimées « éloignées » l’une de l’autre, ce qui veut dire « l’écart observé est aussi dû à des valeurs intrinsèquement différentes » </li></ul>
  10. 10. Conclure <ul><li>Cela peut se définir graphiquement si la valeur numérique trouvée par le test se situe : </li></ul><ul><li>Dans la zone d’acceptation de l’hypothèse nulle </li></ul><ul><li>En deçà ou au dessus de cette zone lorsque l’hypothèse est a priori posée bilatéralement </li></ul><ul><li>Soit en deçà, soit au dessus lorsque l’hypothèse est a priori posée unilatéralement </li></ul>
  11. 11. Réalisation par l’exemple d’un test Z <ul><li>Formaliser la question </li></ul><ul><li>Cherchant à déterminer si les tailles des garçons et des filles sont identiques, nous comparons deux moyennes dont l’outil « statistiques descriptives » d’Excel nous indique, entre autres, les valeurs : </li></ul>
  12. 12. Réalisation par l’exemple d’un test Z <ul><li>Nous posons : </li></ul><ul><li>Comme hypothèse nulle H 0  :  « La taille moyenne des sujets de sexe masculin est équivalente à la taille des sujets de sexe féminin de même âge ». On rejettera l’hypothèse nulle si la valeur absolue de la valeur numérique obtenue par le test est supérieure à la valeur seuil de z  /2 . C’est une hypothèse bilatérale . </li></ul><ul><li>Comme hypothèse alternative H 1  : « La taille moyenne des sujets de sexe masculin est plus grande de la taille des sujets de sexe féminin de même âge ». On envisagera l’hypothèse alternative d’une différence de taille entre les sexes, au détriment des sujets du sexe féminin si la valeur numérique obtenue par le test est supérieure à la valeur seuil de z  . C’est une hypothèse unilatérale. </li></ul>
  13. 13. Réalisation par l’exemple d’un test Z <ul><li>Conditions d’application du test </li></ul><ul><li>Nous sommes face à de grands échantillons, puisque n M ≥30 ET n F ≥30. </li></ul><ul><li>De toute manière, même si la distribution de la variable taille était inconnue, même si nous ne pouvions prouver qu’elle soit normale, le test Z est utilisable : </li></ul><ul><li>Il n’y a aucune condition d’application pour de grands échantillons. </li></ul><ul><li>De plus, nous savons que moyenne, médiane et mode sont de valeurs semblables chez les F et les M, pour des variables admises comme suivant habituellement une loi normale, avec un kurstosis et un coefficient d’asymétrie proches de 0. </li></ul><ul><li>Chacun de ces arguments plaide en faveur de variables suivant une loi normale. </li></ul>
  14. 14. Réalisation par l’exemple d’un test Z <ul><li>Le test proprement dit </li></ul><ul><li>Il s’agit de calculer une valeur numérique z 0 prenant en compte la différence des moyennes entre les deux groupes et les pondérant avec les variances observées et le nombre de sujets. </li></ul><ul><li>Cette valeur s’écrit : </li></ul>
  15. 15. Réalisation par l’exemple d’un test Z <ul><li>Le test proprement dit </li></ul><ul><li>Le calcul manuel donne une valeur de Z 0 = 11,14 </li></ul><ul><li>Notre test est un test unilatéral, soit un test qui émet comme hypothèse alternative le fait que les deux populations dont sont issus les échantillons mesurés sont différentes, et que l’une est plus grande que l’autre. </li></ul><ul><li>Nous pourrons rejeter l’hypothèse nulle si notre valeur (en valeur absolue) est supérieure à la borne seuil définie au préalable, soit z  /2 . </li></ul>
  16. 16. Réalisation par l’exemple d’un test Z <ul><li>Trouver z  avec une table </li></ul><ul><li>Avant l’ère de l’ordinateur, les valeurs de z  se recherchaient dans la table de la loi normale centrée réduite. Cette table donne, pour une valeur  de 0,025 une valeur de z  égale à 1,96. </li></ul><ul><li>Cela veut dire que la probabilité que z soit supérieure à 1,96 est égale à 0,025 ou, ce qui est équivalent, que la probabilité de la valeur absolue de z soit supérieure à 1,96 est égale à 0,05*. </li></ul><ul><li>P(z>1,960)=0,025  P(valeur absolue de z>1,960)=0,05 </li></ul>* La loi normale se représente sous la forme d’une courbe parfaitement symétrique. La probabilité qu’une valeur X soit, en valeur absolue, supérieure à une valeur donnée z équivaut à la probabilité que cette valeur X soit à la fois plus grande que –z et plus petite que +z soit P(X>-z) + P(X<+z). La probabilité se représentant par l’aire sous la courbe, cette probabilité correspond à deux fois la valeur de l’aire au delà de z.
  17. 17. Réalisation par l’exemple d’un test Z <ul><li>Trouver z  avec Excel </li></ul><ul><li>Il suffit de rechercher la fonction «  loi.normale.standard.inverse  ». </li></ul><ul><li>Cette valeur de 1,96 est quasiment une constante liée au consensus scientifique plaçant le risque de 1° espèce habituellement à 5% . </li></ul>
  18. 18. Réalisation par l’exemple d’un test Z <ul><li>Trouver z 0 avec Excel </li></ul><ul><li>L’utilitaire d’analyse d’Excel permet l’appel de la fonction «  Test de la différence significative minimale (z-Test)  » </li></ul>
  19. 19. Réalisation par l’exemple d’un test Z Trouver z 0 avec Excel Cela qui permet d’afficher un tableau de résultat où nous retrouvons la valeur de z précédemment calculée et la valeur critique de z  /2 pour un seuil de signification à 0,05.
  20. 20. Réalisation par l’exemple d’un test Z <ul><li>Conclure </li></ul><ul><li>Notre valeur 11,1 est largement supérieure à la borne seuil de 1.960, appelée par Excel « valeur critique de z en bilatéral ». </li></ul><ul><li>Nous pouvons donc rejeter l’hypothèse H 0 d’égalité des tailles entre garçons et filles, et admettre l’hypothèse alternative, puisque cette valeur numérique est aussi supérieure à la borne seuil de 1.645, valeur critique de z en unilatéral. </li></ul><ul><li>Même en répétant 100 fois l’étude avec des échantillons différents, nous aboutirions dans 95% des cas au fait incontournable que statistiquement, les garçons sont plus grands que les filles. </li></ul>
  21. 21. Réalisation par l’exemple d’un test Z Premier abord du « petit p » Excel mentionne « P(Z<=z) » unilatéral ou bilatéral. Ce P (usuellement écrit en minuscule) sert à donner du poids à l’affirmation selon laquelle les deux populations dont sont issus les échantillons ont une taille différente.
  22. 22. Réalisation par l’exemple d’un test Z <ul><li>Premier abord du « petit p » </li></ul><ul><li>Il est ici nul en unilatéral comme en bilatéral, ce qui n’est pas dû au fait qu’Excel arrondisse le résultat, mais qu’il limite à 30 décimales ses mesures. </li></ul><ul><li>Interprétation </li></ul><ul><li>Selon Huguier & Flahaut*, le hasard a moins d’une chance sur 10 30 d’être intervenu dans les différences observées. </li></ul><ul><li>N.B. tous les statisticiens ne sont pas d’accord avec cette simplification, pourtant bien compréhensible… </li></ul>* Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003
  23. 23. Bibliographie <ul><li>Livres : </li></ul><ul><li>Bouyer J. Méthodes statistiques. Médecine – Biologie. Estem. Editions Inserm. 2004 </li></ul><ul><li>Georgin JP. Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 </li></ul><ul><li>Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 </li></ul><ul><li>Sites : </li></ul><ul><li>Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes : http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ </li></ul><ul><li>Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) : http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# </li></ul><ul><li>Cours : </li></ul><ul><li>Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre. http://u569.kb.inserm.fr/ecolete/index.htm </li></ul><ul><li>Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM) http://cesam.vjf.inserm.fr/ </li></ul>

×