Your SlideShare is downloading. ×
Analyse de variance et correlation
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Analyse de variance et correlation

2,419

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,419
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
237
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Notions essentielles de statistique Livret 4/4 La méthode statistique Analyse de variance Corrélation et régression linéaire Youcef Elmeddah
  • 2. ________________________________________________________________________________ I _______________________________________________________________________________ STATISTIQUE TABLE DES MATIÈRES AVERTISSEMENT ..................................................................................................... 1 PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1 COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1 CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2 Séquence de travail n° 1 3 ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION .......................... 3 I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE VARIANCE ..................................................................................................................................................4 1. But de l'analyse de variance ............................................................................................4 2. Hypothèse à tester............................................................................................................5 3. Conditions d'application de l'analyse de variance ...........................................................5 II. THÉORIE DE L'ANALYSE DE VARIANCE.............................................................................................7 1. Variance intra-population : s2intra..................................................................................7 2. Variance inter-population : s2inter................................................................................7 3. Le rapport F et les tables de distributions F ...................................................................8 III. RÉALISATION DE L'ANALYSE DE VARIANCE ..................................................................................9 1. Echantillons d'effectifs inégaux.....................................................................................10 1. Première étape de l'analyse....................................................................................... 10 2. Deuxième étape de l'analyse...................................................................................... 11 3. Exemple pratique....................................................................................................... 12 2. Echantillons de mêmes effectifs....................................................................................16 1. Première étape de l'analyse....................................................................................... 16 2. Deuxième étape de l'analyse...................................................................................... 17 3. Exemple pratique....................................................................................................... 17 IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS ...........................................19 Séquence de travail n° 2 23 ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION................. 23 I. POSITION DU PROBLÈME.........................................................................................................................24 II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION........................................................................................................25 1. Présentation des données et des calculs ........................................................................25
  • 3. _______________________________________________________________________________ II ______________________________________________________________________________ STATISTIQUE 1. Première partie.......................................................................................................... 25 2. Deuxième partie......................................................................................................... 26 2. Application pratique.....................................................................................................28 3. Exécution de l'analyse de variance par le logiciel EXCEL ...........................................31 Séquence de travail n° 3 33 CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE......................................... 33 I. POSITION DU PROBLÈME.........................................................................................................................34 1. Analyse de régression et de corrélation.........................................................................34 2. La relation de causalité en statistique............................................................................35 II. ANALYSE DE RÉGRESSION .....................................................................................................................36 1. Diagramme de dispersion..............................................................................................36 2. Notion de covariance.....................................................................................................38 3. Droite de régression.......................................................................................................39 4. Estimation à l'aide de l'équation de régression..............................................................42 III. L'ERREUR TYPE DE L'ESTIMATION...................................................................................................44 1. Calcul de l'erreur type de l'estimation : Ey.x.................................................................44 2. Intervalles de prédiction ................................................................................................45 IV. ANALYSE DE CORRÉLATION................................................................................................................48 1. Le coefficient de détermination = r2 ............................................................................48 2. Le coefficient de corrélation..........................................................................................50 1. Méthode pratique de calcul du coefficient de corrélation......................................... 50 2. Propriétés du coefficient de corrélation.................................................................... 51 V. TRANSFORMÉE DE FISHER.....................................................................................................................52 1. Position du problème.....................................................................................................52 2. Premier cas : r = 0 .........................................................................................................52 3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle................................................53 TABLE I.................................................................................................................... 55 TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................55 TABLE II................................................................................................................... 56 TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART RÉDUIT ......................................................................................................................................................56 TABLE III.................................................................................................................. 57 TABLE DE STUDENT.......................................................................................................................................57 TABLE IV ................................................................................................................. 58
  • 4. ______________________________________________________________________________ III ______________________________________________________________________________ STATISTIQUE TABLE DU C2 ..................................................................................................................................................58 TABLE V-A............................................................................................................... 59 TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,05).................................................59 TABLE V-B .............................................................................................................. 60 TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,05)....................................................60 TABLE VI-A.............................................................................................................. 61 TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,01)..................................................61 TABLE VI-B ............................................................................................................. 62 TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,01)....................................................62 TABLE VII ................................................................................................................ 63 CORRÉLATION TRANSFORMÉE DE FISHER...........................................................................................63 BIBLIOGRAPHIE ..................................................................................................... 64
  • 5. _______________________________________________________________________________ 1 ______________________________________________________________________________ Avertissement AVERTISSEMENT Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de mieux comprendre les concepts et les outils de la statistique. C'est un ouvrage d'initiation dont l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné surtout à des utilisateurs de l'outil statistique et non à des théoriciens. Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les connaissances théoriques à l'application pratique, le document réunit l'essentiel des connaissances avec de nombreux exemples d'application illustrant les parties théoriques. Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont signalées en grisé dans le texte. Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite suppose que d’autres notions sont connues. En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions précédentes. Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant. Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de mieux en mieux. PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… Dans ce livret, nous exposons d'abord le principe général de l'analyse de variance. Nous appliquerons alors ce principe à l'analyse de la variance à un facteur puis à deux facteurs en gardant toujours la même démarche. Dans les problèmes relatifs à la corrélation et à la régression, nous nous limiterons à un rapide exposé sur le principe de l'analyse puis une application directe à la corrélation et à la régression linéaire simple. Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une bonne connaissance du principe des tests statistiques, de la formulation et la résolution des problèmes de statistique. Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous aux livrets 2/4 et 3/4 de la série. COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen, doit être réalisée avec le plus grand soin. • Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé en relation avec votre programme. - Quelles sont les données (nature de la variable, loi de probabilité, taille de l’échantillon, paramètres donnés…) ?
  • 6. _______________________________________________________________________________ 2 ______________________________________________________________________________ Avertissement - Que vous demande-t-on ? - Les questions sont-elles liées ? - Quelle table statistique utiliser ? • Commencez alors par résoudre l’exercice sur du brouillon, question par question. • A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se contentant par exemple, - d' « appliquer » des formules sans expliquer les conditions d'applications, - d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse de leurs conclusions. Si certains exercices proposés précisent les conditions des données, il n'en est pas de même pour d'autres. C'est donc à vous de le faire en tout début de la rédaction. Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de vous « déchiffrer ». Il peut se lasser… Vous risquez alors de perdre des points inutilement. - Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être respectés. - Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite conclusion. CONSEILS GÉNÉRAUX DE TRAVAIL Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à vérifier l'atteinte des objectifs visés par la séquence de travail proposée. Pour cela, nous vous conseillons : • de travailler aussi régulièrement que possible ; • d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé… • d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une gomme ; • de vérifier, chaque fois que vous avez un doute, les calculs développés ; • de traiter la totalité des exercices d'application proposés avant de passer à la séquence suivante ; • d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile pour la séquence suivante ; • si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous permettra de faire des simulations en changeant les données pour « voir ce qui se passe ». Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours de statistique. Tous savent combien il est délicat de traiter un problème de statistique en faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent document voudront bien l'utiliser avec indulgence et en nous communiquant, éventuellement, leurs remarques et suggestions. Nous les remercions par avance.
  • 7. _______________________________________________________________________________ 3 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification Séquence de travail n° 1 6 h ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION 9 Objectifs pédagogiques A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. d'exposer le principe général et le but de l'analyse de variance ; 2. de préciser les conditions d'application de l'analyse de variance ; 3. d'appliquer l'analyse de variance à un critère de classification ; 4. d'utiliser la technique d'analyse de variance et les tables de distributions F pour prendre les décisions statistiques appropriés concernant la comparaison des moyennes de trois populations ou plus ; 5. de conduire une comparaison multiple de moyennes par le test de la PPDS.
  • 8. _______________________________________________________________________________ 4 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE VARIANCE 1. But de l'analyse de variance Le but de l'analyse de variance est de déterminer si toutes les moyennes des populations étudiées sont égales entre elles. Il s'agit de comparer les moyennes de plusieurs populations supposées normales et de même variance à partir d'échantillons aléatoires simples et indépendants les uns des autres. En pratique, le but de l'analyse de variance est de tester l'influence d'un ou de plusieurs facteurs ou effets sur une variable mesurable (ou quantifiable) traduisant l'influence de ce (ou ces) facteur (s). Par exemples, l'analyse de variance s'impose lorsqu'on veut étudier : • l'influence du facteur alimentation sur la croissance d'un animal ou la production laitière; • l'influence des facteurs race et alimentation sur la composition d'un lait de vache ou de brebis. Les facteurs dont on veut tester l'influence peuvent être : • soit des facteurs étudiés pour leur intérêt biologique, zootechnique ou agronomique : sexe, alimentation, agent fertilisant etc. • soit des facteurs destinés à contrôler la variabilité due à des facteurs « extérieurs » : effets de l'année, de l'étable, du bloc, etc. Chaque facteur étudié ou contrôlé peut présenter plusieurs niveaux comme par exemples : - 2 niveaux pour le sexe (mâle ou femelle) - 4 niveaux pour la race : Prim'Holstein, Normande, Montbéliarde, Salers. Tester l'influence d'un facteur sur la variable étudiée revient à tester l'existence ou l'absence de différences entre les diverses modalités de ce facteur.
  • 9. _______________________________________________________________________________ 5 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification On peut tester simultanément l'influence de plusieurs facteurs et de leurs interactions, sur la variable étudiée : on parlera alors d'analyse de variance à deux, trois ou plusieurs facteurs (ou critères) qui sera étudiée au chapitre suivant. Dans le présent chapitre, on se limitera à l'étude d'un seul facteur étudié : il s'agit d'une analyse de variance à un facteur de variation, ou un critère de classification. Nous étudierons, au chapitre suivant, le cas de l'analyse de variance à deux critères de classification. 2. Hypothèse à tester L'hypothèse nulle à tester dans ce cas est : Ho : les échantillons proviennent de différentes populations dont les moyennes sont identiques. Ho :  1 =  2 =  3 = ... =  k k = nombre de populations considérées. Dans ces conditions, l'hypothèse alternative (H1) sera la suivante : les moyennes des populations ne sont pas toutes égales entre elles. Si H1 est acceptée, il faut conclure qu'au moins une moyenne de population diffère des autres moyennes de population. Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec cette technique, quelles sont les moyennes qui diffèrent. 3. Conditions d'application de l'analyse de variance Trois conditions essentielles d'application sont requises pour l'analyse de variance : 1. les échantillons sont aléatoires et indépendants ; 2. les distributions des populations sont approximativement normales ou normales ; 3. les populations ont toutes la même variance. 1 2 = 2 2 = 3 2 = ........ = k 2
  • 10. _______________________________________________________________________________ 6 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification Autrement dit, lorsque Ho est vraie et lorsque ces trois conditions sont remplies, la situation est essentiellement équivalente à celle où tous les échantillons sont prélevés dans la même population (figure 1) En revanche, les moyennes des populations ne sont pas égales si Ho est fausse, et les échantillons pourront être considérés comme provenant de populations telles que celles illustrées à la figure 2 si les trois conditions sont remplies. 1 2 3 Fig. 1. k populations normales avec : Fig. 2. Trois populations normales avec :  1 = 2 = 3 =...........k 1 ≠ 2 ≠ 3  1 2 = 2 2 = 3 2 ...= k 2 1 2 = 2 2 = 3 2
  • 11. _______________________________________________________________________________ 7 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification II. THÉORIE DE L'ANALYSE DE VARIANCE On examinera des estimations de la variance de la population, 2, afin de déterminer si les moyennes des populations sont égales et ce, pour les raisons exposées ci-dessous. Dans une analyse de variance, on calcule deux estimations de la variance de la population selon deux approches indépendantes. 1. Calculer une estimation de 2 qui demeurera valable, que les moyennes des populations soient égales ou non. 2. Estimer sans biais 2 si et seulement si les moyennes des populations sont égales. Toute différence entre les moyennes des populations affectera la valeur de cette estimation 2. Cependant, s'il n'existait aucune différence entre les moyennes, les deux estimations calculées de 2 seraient très proches l'une de l'autre (une comparaison de ces deux estimations servira à tester la validité de Ho ). Autrement dit : • Si les deux estimations calculées sont approximativement égales, on peut conclure qu'il n'y a probablement pas de différence entre les moyennes des populations. Donc, Ho est acceptée. • S'il existe une différence significative entre les estimations calculées selon les deux approches, on doit conclure que les différences au sein des moyennes des populations ont influencé la valeur de la seconde estimation. Donc Ho doit être rejetée. 1. Variance intra-population : 2 intra 2 intra est une estimation de 2 non influencée par les moyennes des populations. C'est la première estimation de 2 qui consiste en une moyenne des variances à l'intérieur de chacun des échantillons. Chacune des variances échantillonnales (s2) pourrait, après une légère modification, servir d'estimateur sans biais de 2 ; cependant, on utilise généralement la moyenne arithmétique des variances de tous les échantillons pour estimer 2 , l'estimation obtenue reposant alors sur un plus grand nombre de données. 2. Variance inter-population : 2 inter 2 inter est un estimateur de 2 si Ho est vraie. C'est la seconde approche qui est basée sur la variation entre les moyennes échantillonnales. Si Ho est vraie, on peut alors considérer que tous les échantillons proviennent d'une même population de moyenne . L'écart type de la distribution d'échantillonnage - ou erreur type de la moyenne échantillonnale - est obtenu par la formule suivante :
  • 12. _______________________________________________________________________________ 8 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification  x =  n ou 2 x = 2 n c'est-à-dire n 2 x = 2 Donc, si Ho était vraie,  inter serait une estimation sans biais de la variance de la population et devrait être approximativement égal à la valeur de  intra . Par contre, s'il devait y avoir une différence significative entre  intra et  inter , on devrait conclure que cette différence est causée par des différences entre les moyennes des populations. 3. Le rapport F et les tables de distributions F Il s'agit de savoir à quel moment la différence entre les deux estimations de 2 est significative et si la différence entre  intra et  inter est due à l'inégalité des moyennes des populations ou simplement aux fluctuations d'échantillonnage. En pratique, on analyse le rapport entre  inter et  intra plutôt que la différence entre ces deux valeurs. Ce rapport, appelé valeur F observé (ou calculé), est donc : F = 2 inter 2 intra Idéalement, si Ho est vraie, F observé devrait être égal à 1. Cependant, du fait des fluctuations d'échantillonnage, on s'attend à des différences entre les deux estimations de 2 et ce, même si Ho est vraie. Il faudrait alors déterminer de quelle grandeur doit être cette différence qui se reflète dans la valeur F calculée pour rejeter légitimement Ho. La valeur maximale que peut atteindre le rapport F calculé avant le rejet de Ho est donnée dans les tables de distributions F. ( Voir tables V et VI de distributions F en fin de livret). La conclusion à tirer concernant Ho sera basée sur la comparaison de F calculé (ou observé) avec une valeur repérée dans les tables. Si Fobservé < à la valeur trouvée dans les tables, Ho sera acceptée sinon Ho est rejetée. ATTENTION ! Il faut se souvenir que, contrairement au test F appliqué à la comparaison de deux variances (chapitre 7) qui est un test bilatéral, le test F appliqué dans l' analyse de variance, est un test unilatéral à droite pour lequel on doit utiliser les tables V-A ( pour  = 0,05) et VI- A (pour  = 0,01).
  • 13. _______________________________________________________________________________ 9 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification III. RÉALISATION DE L'ANALYSE DE VARIANCE L'analyse de variance à un critère de classification ( on dit aussi à un facteur) permet de comparer les moyennes de plusieurs populations supposées normales et de même variance, à partir d'échantillons aléatoires simples et indépendants les uns des autres. Le tableau 1 (page suivante) présente les données relatives à l'analyse de variance à un critère de classification. Comment lire ce tableau ? Le facteur étudié présente p modalités et nous désignerons par i l'une quelconque de ces modalités (i = 1, 2, 3 … … p) ; il y a donc p échantillons de tailles n1 , n2 … … ni … np avec ni = n. Nous désignerons par xik la variable aléatoire, résultat du kième individu soumis à la iième modalité du facteur étudié. La moyenne de l'échantillon i sera désignée par xi et la moyenne de tous les échantillons par x . Dans ces conditions, le modèle de l'analyse de variance s'écrit : xik - x = xi - x + xik - xi ce qui indique que les écarts constatés sur l'individu xik par rapport à la moyenne générale xik - x auxquels correspond la variation totale, se décomposent en deux éléments additifs : • les écarts entre la moyenne de l'échantillon et la moyenne générale, xi - x , auxquels correspond la variation factorielle. • les écarts de chaque individu par rapport à la moyenne de l'échantillon, xik - xi , auxquels correspond la variation résiduelle. On démontre que, en élevant au carré les deux membres de cette égalité puis en sommant, on obtient la décomposition en carrés ci-dessous, appelée l'équation de l'analyse de variance:  i=1 p  k=1 ni (xik - x ) 2 =  i=1 p ni ( xi - x )2 +  i=1 p  k=1 ni (xik - xi ) 2
  • 14. ______________________________________________________________________________ 10 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Somme des carrés des écarts totale SCEt Somme des carrés des écarts factorielle SCEf Somme des carrés des écarts résiduelle (ou aléatoire) SCEr 1. Echantillons d'effectifs inégaux 1. Première étape de l'analyse La réalisation de l'analyse de variance, dans le cas d'échantillons d'effectifs inégaux se fera selon la présentation du tableau 1. Tableau 1. Présentation des données et des calculs lors de la réalisation de l'analyse de variance à un critère de classification. i(modalités) k (individus) 1 2 … p Totaux 1 2 . . . x11 x12 . . . x1n1 x21 x22 . . . . x2n2 … xp1 xp2 . . xpnp ni n1 n2 … np n. = ni (effectif total) Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.  xik 2  x1k 2  x2k 2 …  xpk 2 T =   x2 ik Xi. 2/ni X1. 2/n1 X2. 2/n2 … Xp. 2/np - SCEi =  x2 ik - X2 i. ni (pour tout i) SCE1 SCE2 … SCEp SCEr =  SCEi ^ i 2 = SCEi ni-1 (pour tout i) ^ 1 2 ^ 2 2 … ^ p 2 - xi = Xi. ni (pour tout i) x1 x2 … xp - Moyenne générale x = X.. n. La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes : • Terme correctif : C = X.. 2 / n. • Somme des carrés des écarts totale : SCEt = T - C
  • 15. ______________________________________________________________________________ 11 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification • Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr • Carrés moyens : CMf = SCEf p-1 et CMr = SCEr n-p Fobservé = CMf CMr = 2 inter 2 intra
  • 16. ______________________________________________________________________________ 12 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Deuxième étape de l'analyse Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme degrés de liberté : 1 = p-1 et 2 = n-p La présentation du tableau de l'analyse de variance se fera ainsi : Sources de variation ddl SCE CM F Entre populations -facteur contrôlé- (2 inter) 1 = p-1 SCEf CMf Fobs = CMf CMr Entre observations, dans les populations (erreur résiduelle) (2 intra) 2 = n-p SCEr CMr Totaux n-1 SCEt Nous retrouvons bien ce qui a déjà été signalé. En effet, cette façon de procéder indique que les écarts constatés par rapport à la moyenne générale - auxquels correspond la variation totale - se décomposent en 2 éléments additifs : • les écarts par rapport à la moyenne de l'échantillon, auxquels correspond la variation résiduelle ; • les écarts entre la moyenne de l'échantillon et la moyenne générale, auxquels correspond la variation factorielle. Ce qui se traduit par l'équation de l'analyse de variance ci-dessous : SCEt = SCEf + SCEr En divisant ces SCE par le nombre de degrés de libertés correspondant, on obtient les carrés moyens ou tout simplement les variances. Si l'hypothèse Ho est vraie, le rapport Fcalculé (on dit aussi Fobservé) Fobservé = CMf CMr est une variable aléatoire de Fisher-Snedecor à 1 = p-1 et 2 = n-p degrés de liberté.
  • 17. ______________________________________________________________________________ 13 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification La règle de décision sera alors la suivante : • Si Fobservé < Ftable (pour 1 et  ddl et un risque  donné), on garde Ho. Cela veut dire qu'il n' y a pas d'influence significative du facteur étudié sur la variable considérée. • Si Fobservé ≥ Ftable (pour 1 et  ddl et un risque  donné), on rejette Ho. Cela veut dire que le facteur étudié a une influence significative sur la variable considérée. 3. Exemple pratique On souhaite comparer le poids moyen, à un âge déterminé, de moutons d'une même race provenant de 3 régions différentes. Les résultats obtenus sur 3 échantillons sont les suivants (en kg) : Région 1 Lot 1 Région 2 Lot 2 Région 3 Lot 3 59,8 61,5 58,9 62,1 60,5 60 59,2 60,6 59,3 59,2 61,3 57 58,4 58,5 59,9 61,1 63 59,9 62,3 60,2 58,9 60 62,3 56,8 60,5 60,6 57,6 61,3 61,1 58,7 62,5 62 - 58,9 62,1 - 58,6 65,3 - - 60,5 - En fait, il s'agit de savoir si la région d'où provient chacun de ces trois lots, influence le poids des moutons ou non. Pour répondre à la question posée, il faudrait réaliser une analyse de variance pour tester l'hypothèse d'égalité des moyennes des poids qui sont donnés. Bien évidemment, l'hypothèse nulle consiste à considérer qu'il n' y a pas de différence entre les moyennes des poids des 3 lots. Ho : 1 = 2= 3 Sous cette hypothèse Ho, on peut considérer que quelle que soit la région d'où proviennent les moutons, leur poids est le même ; autrement dit la région n'a aucune influence sur le poids des animaux. Le test de l'analyse de variance nous permettra soit d'accepter cette hypothèse d'égalité des moyennes, soit alors de la rejeter.
  • 18. ______________________________________________________________________________ 14 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Pour cela, réalisons le premier tableau de présentation des données et des calculs. Pour une meilleure compréhension, ce tableau se présentera de façon légèrement différente du tableau 1 exposé plus haut. Lot 1 Lot 2 Lot 3 Totaux 59,8 61,5 58,9 62,1 60,5 60 59,2 60,6 59,3 59,2 61,3 57 58,4 58,5 59,9 61,1 63 59,9 62,3 60,2 58,9 60 62,3 56,8 60,5 60,6 57,6 61,3 61,1 58,7 62,5 62 58,9 62,1 58,6 65,3 60,5 ni 13 14 10 37 = n. Moyenne 60,30 61,39 58,70 -  xi = Xi. 783,90 859,50 587,00 2230,4 = X..  xi 2 = A 47294,15 52799,45 34469,62 134563,22 = T Xi. 2/ni = B 47269,17 52767,16 34456,9 - SCEi = A - B 24,98 32,29 12,72 69,99 = SCEr ^ i 2 2,082 2,484 1,413 - C = X.. 2/n. = 134450,9 SCEt = T - C = 112,298 L'étape suivante est la réalisation du tableau de l'analyse de variance Sources de variation ddl SCE CM F Différences entre régions 2 42,30 21,153 10,28*** = Fobs Différences entre les poids (pour un même lot) 34 69,99 2,058 F0,05,;2,;34 = 3,28 F0,01,;2,;34 = 5,29 Totaux 36 112,297 Au seuil de 5 %, pour ddl1 = 2 et ddl2 = 34, la table V-A donne F = 3,28 Au seuil de 1 %, pour ddl1 = 2 et ddl2 = 34, la table VI-A donne F = 5,29 Au seuil de 1 0/00, pour ddl1 = 2 et ddl2 = 34, F = 8,52
  • 19. ______________________________________________________________________________ 15 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Dans les 3 cas, Fobservé > Ftable . Ceci nous conduit au rejet de HO. Concrètement cela signifie que la région d'où proviennent les animaux influence leur poids. Remarques 1. Il est d'usage de marquer les différences significatives d'un, de deux ou de trois astérisques respectivement pour les niveaux 0,05, 0,01 et 0,001. Dans notre cas Fobs = 10,28 est supérieur à Ftable même au niveau de 0,001, c'est-à-dire avec un risque d'erreur de première espèce inférieur à 10/00. Aussi, la valeur 10,28 est désignée par 3 astérisques. 2. Il faut se souvenir que si H1 est acceptée, ce qui est le cas dans notre exemple, il faut conclure qu'au moins une moyenne de population diffère des autres moyennes de population. Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec cette technique, quelles sont les moyennes qui diffèrent. Exemple. Appliquons l'analyse de variance pour les deux premiers lots uniquement (lots 1 et 2) Après calculs, nous obtenons le tableau suivant : Sources de variation ddl SCE CM F 2 inter 1 8,051 8,050714 3,51 = Fobs 2 intra 25 57,27 2,290771 F0,05;1;25 = 4,24 F0,01;1;25 = 7,77 Totaux 26 65,320 Décision : on accepte Ho Dans ce cas, on remarque que Fobs < Ftable . Ce qui nous conduit à accepter Ho, c'est-à-dire qu'il n' y a pas de différence significative des poids des lots 1 et 2. Appliquons à présent l'analyse de variance pour les lots 1 et 3 Après calculs, nous obtenons le tableau suivant : Sources de variation ddl SCE CM F
  • 20. ______________________________________________________________________________ 16 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2 inter 1 14,470 14,469 8,059 = Fobs 2 intra 21 37,70 1,7952 F0,05;1;21 = 4,32 F0,01;1;21 = 8,02 Totaux 22 52,170 Décision : rejet de Ho Dans ce cas, on remarque que Fobs > Ftable . Ce qui nous conduit à rejeter Ho, c'est-à-dire qu'il existe une différence significative entre les poids des lots 1 et 3.
  • 21. ______________________________________________________________________________ 17 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Echantillons de mêmes effectifs 1. Première étape de l'analyse Dans ce cas, les calculs sont simplifiés comme le montre le tableau 2. Tableau 2. Présentation des données et des calculs lors de la réalisation de l'analyse de variance à un critère de classification (échantillons de mêmes effectifs). i k 1 2 … p Totaux 1 2 . . . n x11 x12 . . . x1n x21 x22 . . . x2n … xp1 xp2 . . . xpn n n n n n. = pn Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.  xik 2  x1k 2  x2k 2 …  xpk 2 T =   x2 ik Xi. 2/n X1. 2/n X2. 2/n … Xp. 2/n - SCEi =  x2 ik - X2 i. n (pour tout i) SCE1 SCE2 … SCEp SCEr =  SCEi xi = Xi. n (pour tout i ) x1 x2 … xp - La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes : • Terme correctif : C = X.. 2 / pn • Somme des carrés des écarts : SCEt = T - C • Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr • Carrés moyens : CMf = SCEf/p-1et CMr = SCEr/p(n-1) • Fobservé = CMf/CMr
  • 22. ______________________________________________________________________________ 18 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Deuxième étape de l'analyse Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme degrés de liberté : 1 = p-1 et 2 = p (n-1) La présentation du tableau de l'analyse de variance se fera ainsi : Sources de variation ddl SCE CM F Entre populations -facteur contrôlé- (2 inter) p-1 SCEf CMf Fobs = CMf CMr Entre observations, dans les populations (erreur résiduelle) (2 intra) p (n-1) SCEr CMr Totaux pn - 1 SCEt 3. Exemple pratique On voudrait comparer les rendements en matière sèche (en kg/ha), à une date déterminée, d'un certain fourrage cultivé sur 3 prairies différentes. Les résultats obtenus dans chaque prairie sont résumés dans le tableau ci-dessous : Prairie 1 Prairie 2 Prairie 3 20,5 14,8 12,5 19,6 18,7 17,2 26,4 19,6 17,4 28,5 21,4 18,3 27,9 25,2 20,2 Ho : pas de différence entre les rendements fourragers des 3 types de prairies. Tableau des données et des calculs. Prairie 1 Prairie 2 Prairie 3 Totaux 20,5 14,8 12,5 19,6 18,7 17,2 26,4 19,6 17,4 28,5 21,4 18,3 27,9 25,2 20,2 n 5 5 5 15 = n. Moyenne 24,58 19,94 17,12 - Xi =  xi 122,90 99,70 85,60 308,2 = X..  xi 2 = A 3092,03 2045,89 1497,78 6635,7 = T Xi 2/5 = B 3020,882 1988,018 1465,472 - SCEi = A-B 71,15 57,87 32,31 161,33 = SCEr
  • 23. ______________________________________________________________________________ 19 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification C = X2../15 = 6332,5 SCEt = T-C = 303,217 Le tableau de l'analyse de variance se présente alors ainsi : Sources de variation ddl SCE CM F inter 2 141,88 70,94 5,277* = Fobs intra 12 161,33 13,44 F0,05;2;12 = 3,89 Totaux 14 303,21 F0,01;2;12 = 6,93 Décision statistique : Fobservé > F0,05;2;12  rejet de Ho à 5%. Fobservé < F0,01;2;12  acceptation de Ho à 1% Autrement dit au seuil de 5%, Fobs. > Ftable ; ce qui nous conduit au rejet de l'hypothèse nulle c'est-à-dire que les rendements en matière sèche sont influencés par le type de prairie. En revanche, au seuil de 1%, Fobs. < Ftable ; ce qui nous conduit à accepter l'hypothèse nulle.
  • 24. ______________________________________________________________________________ 20 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS Nous avons signalé le fait que, lorsqu'un test d'analyse de variance aboutit au rejet de l'hypothèse nulle (hétérogénéité des moyennes), la technique utilisée dans cette analyse ne permettait pas de distinguer les moyennes qui différaient significativement des autres. Ce problème peut être résolu par différentes méthodes de comparaisons multiples de moyennes dont la méthode de la « PPDS » ou Plus Petite Différence Significative fait partie. Il s'agit d'une méthode simple de comparaison de p moyennes deux à deux. Dans tout ce qui suivra, les conditions d'application de l'analyse de variance sont supposées remplies. Nous supposerons aussi l'égalité des effectifs de tous les échantillons à comparer. Partons d'un exemple… On voudrait étudier la fréquentation des agents commerciaux pour 4 stands au salon de l'Agriculture de Paris, sur les 5 premiers jours de la semaine d'ouverture. On voudrait tester l'hypothèse d'égalité de fréquentation moyenne Ho contre l'inégalité H1, en supposant le facteur " jour " sans influence. Les jours sont des répétitions. Les résultats sont consignés dans le tableau ci-dessous. Stand 1 Stand 2 Stand 3 Stand 4 J1 10 12 8 9 J2 9 10 9 6 J3 11 14 11 11 J4 13 12 8 11 J5 10 12 8 9 Il s'agit de comparer 4 moyennes de fréquentation des stands par les agents commerciaux. Réalisation de l'analyse de variance Stand 1 Stand 2 Stand 3 Stand 4 Totaux J1 10 12 8 9 J2 9 10 9 6 J3 11 14 11 11 J4 13 12 8 11 J5 10 12 8 9 n 5 5 5 5 n. = 20 Moyenne 10,60 12,00 8,80 9,20 Xi =  xi 53,00 60,00 44,00 46,00 X.. = 203  xi 2 = A 571 728 394 440 T = 2133 Xi 2/5 = B 561,8 720 387,2 423,2 SCEi = A-B 9,20 8,00 6,80 16,80 SCEr = 40,8
  • 25. ______________________________________________________________________________ 21 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification C = X2../n. = 2060,5 SCEt = T-C = 72,550 Tableau de l'analyse de variance Sources variation ddl SCE CM Fobs Ftable inter 3 31,750 10,5833 4,150327 F3,16,0,05 = 3,24 intra 16 40,80 2,55 total 19 72,550 Conclusion : Fobs (4,15) > Ftable (3,24) : on rejette l'hypothèse Ho d'égalité des fréquentations moyenne. Il y a au moins une moyenne qui diffère des autres. Lorsqu'on se trouve devant cette situation, il est parfois souhaitable de déterminer les signes d'égalité à éliminer, en comparant les moyennes deux à deux grâce au test t de Student par exemple. Pour p moyennes à comparer, il existe p (p - 1) 2 couples (i,i' ) à comparer. S'agissant d'une comparaison de deux moyennes observées sur deux petits échantillons de mêmes effectifs, dont les variances sont inconnues, pour chaque couple de moyennes comparées, on utilisera la formule : tobs = xi - xi' SCEi + SCEi' n(n - 1) avec un ddl = 2n - 2. Cependant, les conditions de l'analyse de variance étant supposées remplies (variances de populations égales ), il n'est guère utile de rechercher, pour chacune de ces comparaisons, une nouvelle estimation de la variance commune par la quantité : ^2 = SCEi + SCEi' ni + ni' - 2 Dans ces conditions, on utilise préférentiellement, la quantité : ^2 = CMr qui représente une estimation globale fournie par le carré moyen résiduel. Par ailleurs, pour des effectifs égaux, nous pouvons comparer les moyennes observées deux à deux en calculant les p (p - 1)/2 valeurs du t observé de Student en utilisant la formule :
  • 26. ______________________________________________________________________________ 22 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification tobs = xi - xi' 2 CMr n puis en comparant la valeur de tobs aux t de la table de Student. Cependant, pour des raisons mathématiques, il semble préférable de calculer la quantité : PPDS  = t ,  2  CMr n   étant le risque d'erreur choisi et  le nombre de degrés de liberté de la «résiduelle», puis de rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence xi - xi' (en valeur absolue) est supérieure ou égale à la PPDS. Cette première définition de la PPDS reste valable pour l'analyse de variance à un critère de classification mais peut être étendue, après modification, à l'analyse de variance à deux critères. Ainsi dans notre exemple : n = 5 CMr = 2,55  CMr = 16 ddl ttable ( = 0,05, ddl = 16) = 2,12 d'où : PPDS  = t ,  2  CMr n = 2,12  2  2,55 5 = 2,141 Deux méthodes de représentation des résultats sont alors possibles. • Première méthode On peut disposer toutes les différences dans un tableau à double entrée et indiquer par un astérisque la signification au seuil  = 0,05 et par deux astérisques au seuil de 0,01. x3 = 8,8 x4 = 9,2 x1 = 10,6 x2 = 12,0 Moyenne 0,4 9,2 - 8,8 1,8 10,6 - 8,8 3,2* 12 - 8,8 x3 = 8,8 1,4 10,6 - 9,2 2,8* 12,0 - 9,2 x4 = 9,2
  • 27. ______________________________________________________________________________ 23 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 1,4 12,0 - 10,6 x1 = 10,6 Sur ce tableau les seules valeurs supérieures à la PPDS sont 3,2 et 2,8. Autrement dit, seules les moyennes 2 et 3 d'une part et 2 et 4 d'autre part diffèrent significativement au risque de 5 %. • Deuxième méthode On peut aussi ordonner les moyennes et souligner celles qui ne diffèrent pas significativement : x3 8,8 x4 9,2 x1 10,6 x2 12,0 ---------------------------------------- -------------------------- Remarque. La méthode de la PPDS est critiquée par de nombreux auteurs qui ne la considèrent pas tout à fait fiable quant à l'interprétation de ses résultats notamment en matière de risque d'erreur associé à la conclusion. Sans entrer dans les détails mathématiques, il faut retenir que la méthode de la PPDS est d'autant moins fiable que le nombre de comparaisons de moyennes deux à deux, est élevé. Pour un nombre de moyennes « élevé », on risque de déclarer à tort des différences significatives qui ne le sont pas. Il faut donc éviter d'utiliser la PPDS dans ce cas ou, à la rigueur, l'utiliser avec un risque de 0,01.
  • 28. ______________________________________________________________________________ 25 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Séquence de travail n° 2 3 h ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION MODÈLES CROISÉS ÉCHANTILLONS DE MÊMES EFFECTIFS 10 Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. de réaliser une analyse de variance à deux critères de classification ; 2. de définir concrètement une interaction entre deux facteurs ; 3. d'interpréter les résultats d'une analyse de variance à deux critères de classification.
  • 29. ______________________________________________________________________________ 26 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification I. POSITION DU PROBLÈME Dans l'analyse de variance à un critère de classification, le principe consistait à diviser la variation totale en deux composantes : • factorielle • résiduelle Cette façon de procéder peut être étendue à deux critères de classification, la variation totale étant alors divisée en plus de deux composantes : l'une résiduelle et les autres liées aux deux critères de classification. Les deux facteurs considérés peuvent être placés sur le même pied (modèles croisés) ou subordonnés l'un à l'autre (modèles hiérarchisés). Dans chaque cas, on doit distinguer un modèle fixe, un modèle aléatoire et un modèle mixte selon que les deux critères de classification sont fixes, aléatoires, ou l'un fixe, l'autre aléatoire. Dans ce qui suivra, nous ne considérerons que la réalisation et l'interprétation de l'analyse de variance à deux critères de classification pour des modèles croisés et des échantillons de mêmes effectifs.
  • 30. ______________________________________________________________________________ 27 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION. ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS 1. Présentation des données et des calculs La présentation des tableaux des données et des calculs se fera en deux parties. 1. Première partie Tableau 1. Analyse de variance à deux critères de classification : réalisation des calculs. i 1 .......... p Totaux j k 1 .......... q .......... 1 .......... q 1 2 . . . n x111 x112 . . . x11n .......... .......... .......... x1q1 x1q2 . . . x1qn .......... .......... .......... xp11 xp12 . . . xp1n .......... .......... .......... xpq1 xpq2 . . . xpqn Xij. X11. .......... X1q. .......... Xp1. .......... Xpq. X...  k=1 n x2 ijk  k=1 n x2 11k ..........  k=1 n x2 1qk ..........  k=1 n x2 p1k ..........  k=1 n x2 pqk T X2 ij./n X2 11./n .......... X2 1q./n .......... X2 p1./n .......... X2 pq./n - SCEij SCE11 .......... SCE1q .......... SCEp1 .......... SCEpq SCEr avec les principales notations et formules suivantes : • Pour les totaux par échantillon : Xij. =  k=1 n xijk pour tout i et tout j • Pour le total général : X... =  i=1 p  j=1 q Xij. • Pour la somme des carrés générale : T =  i=1 p  j=1 q  k=1 n x2 ijk • Pour le terme correctif : C = X2 .../pqn • Pour la somme des carrés des écarts totale : SCEt = T - C • Pour la somme des carrés des écarts par échantillon :
  • 31. ______________________________________________________________________________ 28 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification SCEij =  k=1 n x2 ijk - X2 ij. / n (pour tout i et tout j) • Pour la somme des carrés des écarts résiduelle : SCEr =  i=1 p  j=1 q SCEij La différence [ SCEt - SCEr ] est une somme des carrés des écarts relative à l'ensemble des facteurs contrôlés. Cette différence sera en fait divisée en trois composantes factorielles : - les deux premières liées chacune à l'un des 2 facteurs contrôlés - la troisième à l'interaction des 2 facteurs. Pour cela, il faut dresser un deuxième tableau de la façon suivante : - en reportant le contenu de la ligne Xij. du tableau précédant ; - et en calculant les sommes suivantes : • Xi.. =  j=1 q Xij. (pour tout i) • X.j. =  i=1 p Xij. (pour tout j) 2. Deuxième partie Tableau 2. Analyse de variance à deux critères de classification : Suite de la réalisation des calculs j i 1 ................. q Xi.. 1 . . . p X11. . . . Xp1. ................. . . . ................. X1q. . . . Xpq. X1.. . . . Xp.. X.j. X.1. ................. X.q. X... Dans ces conditions, on aura évidemment :  i=1 p Xi.. =  j=1 q X.j. = X... Les sommes des carrés des écarts liées aux deux facteurs seront : - SCEf = 1 qn  i=1 p X2 i.. - C
  • 32. ______________________________________________________________________________ 29 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification - SCEb = 1 pn  j=1 q X2 .j. - C On obtient alors par différence : SCEfb = SCEt - SCEr - SCEf - SCEb ou encore, l'équation de l'analyse de variance pour deux facteurs contrôlés simultanément : SCEt = SCEf + SCEb + SCEfb + SCEr Cette équation indique donc que la variation totale (SCEt) peut être décomposée en 4 composantes principales : • variation due au facteur a : SCEf ; • variation due au facteur b : SCEb ; • variation due à l'interaction entre les facteurs a et b : SCEfb ; • une somme résiduelle. La notion d'interaction sera précisée plus loin A ces différentes sommes des carrés sont affectés des nombres de degrés de liberté par la relation suivante : pqn - 1 = (p - 1) + (q - 1) + (p - 1) (q - 1) + pq (n - 1) À cette étape, nous pouvons dresser le tableau d'analyse de la variance en calculant les nombres de degrés de liberté, les carrés moyens et les valeurs de Ff , Fb et Fab : Ff = CMf CMr Fb = CMb CMr Ffb = CMfb CMr Tableau 3. Tableau d'analyse de variance Sources de variation ddl SCE CM F Facteur a p - 1 SCEf CMf Ff Facteur b q - 1 SCEb CMb Fb Interaction (p-1) (q-1) SCEfb CMfb Ffb Variation résiduelle pq (n-1) SCEr CMr Totaux pqn - 1 SCEt
  • 33. ______________________________________________________________________________ 30 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification 2. Application pratique Supposons que l'on veuille comparer, chez deux races bovines différentes (critère 1), les effets de 3 régimes alimentaires caractérisés par des teneurs énergétiques différentes (critère 2) : haut (H), bas (B) et moyen (M). Le tableau 1 donne les résultats de la production laitière (en kg de lait/jour) obtenus avec chacun de ces 3 régimes. Pour chaque combinaison entre ces 2 critères, 4 valeurs sont données. Tableau 1. Comparaison des productions laitières (en kg de lait/j), chez 2 races bovines différentes recevant 3 régimes énergétiques différents (H, B ou M). H (j = 1) B (j = 2) M (j = 3) Moyennes ( x i.. ) 33 31 32 Race 1 35 32 34 (i = 1) 36 33 36 43 34 38 36,75 32,50 35,00 34,75 30 25 27 Race 2 30 27 29 (i = 2) 30 30 30 33 30 30 30,75 28,00 29,00 29,25 Moyennes ( x .j. ) 33,75 30,25 32,00 32,00 ( x ...) Ainsi calculées, ces moyennes montrent une influence considérable du facteur " race ". En effet, tous régimes confondus, la race 2 présente une moyenne de 29,25 kg de lait contre 34,75 pour la race 1 soit une différence de 5,5 kg. Calculées par rapport à la moyenne générale, les différences dues à ce premier critère de classification sont : 34,75 - 32,00 = 2,75 29,25 - 32,00 = - 2,75 Vous remarquerez que la somme de ces deux termes est forcément nulle. De la même façon, si on considère le deuxième critère, on aura : 33,75 - 32,00 = 1,75 30,25 - 32,00 = - 1,75 32,00 - 32,00 = 0 la somme de ces 3 termes étant également nulle.
  • 34. ______________________________________________________________________________ 31 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Considérons à présent l'interaction entre le facteur " race " et le facteur " régime "… Le tableau 2 illustre ce phénomène… Tableau 2. Calcul des termes de l'interaction entre les 2 facteurs H B M Somme Race 1 0,25 -0,50 0,25 0 Race 2 -0,25 0,50 -0,25 0 Somme 0 0 0 0 La première case ombrée (0,25) est obtenue ainsi : 36,75 - 34,75 - 33,75 + 32 = 0,25 De la même façon, la dernière case ombrée (-0,25) est obtenue ainsi : 29 - 29,25 -32 + 32 = - 0,25 et ainsi de suite pour les autres cases… Ces valeurs ainsi obtenues représentent les termes de l'interaction entre les deux facteurs étudiés. Dans le cas présent l'interaction entre le facteur " race " et le facteur " régime " peut être considérée comme étant faible. On le confirmera plus loin par des calculs. Imaginons à présent, des valeurs différentes pour la race 2 avec le régime B (valeurs en grisé dans le tableau ci-dessous). H (j = 1) B (j = 2) M (j = 3) Moyennes ( x i.. ) 33 31 32 race 1 35 32 34 (i = 1) 36 33 36 43 34 38 36,75 32,50 35,00 34,75 30 25,5 27 race 2 30 28,5 29 (i = 2) 30 24,5 30 33 27,5 30 30,75 26,5 29,00 28,75 Moyennes ( x .j. ) 33,75 29,50 32,00 31,75 ( x ...) Avec de telles valeurs, tous les termes de l'interaction seraient exactement nuls. Exemples Race 1, régime H : 36,75 - 34,75 -33,75 + 31,75 = 0 Race 2, régime B : 26,5 - 28,75 - 29,50 + 31,75 = 0 etc.
  • 35. ______________________________________________________________________________ 32 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Ce cas particulier traduit l'absence totale d'interaction entre les 2 facteurs. Concrètement cela signifie que les 3 types de régimes donnent exactement la même différence entre les 2 races. Cet écart s'obtient tout simplement par différence entre les valeurs moyennes obtenues pour chaque race. Dans notre cas, ce sera : 36,75 - 30,75 (colonne 1) = 32,50 - 26,50 (colonne 2) = 35,00 - 29,00 (colonne 3) = 6 Bien évidemment, cette valeur peut être également obtenue directement par la différence entre x 1.. ( soit 34,75 pour la race 1) et x 2.. (soit 28,75 pour la race 2). En effet : 34,75 - 28,75 = 6 Vous remarquerez aussi que l'absence d'interaction signifie aussi que les différences entre les races sont indépendantes des régimes. Exemples : 36,75 - 32,50 = 30,75 - 26,50 = 4,25 pour les régimes H et B 36,75 - 35,00 = 30,75 - 29,00 = 1,75 pour les régimes H et M etc. En revanche, la présence de termes d'interaction non nuls signifie qu'il existe une " dépendance " entre les 2 facteurs étudiés. Reprenons à présent les données du tableau 1 et effectuons l'analyse de variance… Répétitions (k) Race 1 (i = 1) Race 2 (i = 2) Totaux H (j = 1) B (j = 2) M (j = 3) H (j = 1) B (j = 2) M (j = 3) 1 33 31 32 30 25 27 2 35 32 34 30 27 29 3 36 33 36 30 30 30 4 43 34 38 33 30 30 Moyenne 36,8 32,5 35,0 30,8 28,0 29,0 - Xij. 147 130 140 123 112 116 X... = 768  k=1 4 x2 ijk 5459 4230 4920 3789 3154 3370 T = 24922 X2 ij./4 5402,25 4225 4900 3782,25 3136 3364 - SCEij 56,8 5,0 20,0 6,8 18,0 6,0 SCEr = 112,5
  • 36. ______________________________________________________________________________ 33 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification H (j=1) B (j=2) M (j=3) Xi.. Race 1 (i = 1) 147 130 140 417 Race 2 (i = 2) 123 112 116 351 270 242 256 768 • Terme correctif : C = X2 .../pqn = 24576 • Somme des carrés des écarts totale : SCEt = T - C = 346,0 • Somme des carrés des écarts résiduelle : SCEr =  i=1 p  j=1 q SCEij = 112,5 • SCEf = (4172 + 3512)/12 - 24576 = 181,5 • SCEb = (2702 + 2422 + 2562) / 8 - 24576 = 49,0 • SCEfb = 346,0 - 112,5 - 181,5 - 49,0 = 3,0 Tableau de l'analyse de variance Sources de variation ddl SCE CM Fobs Ftable Race 1 181,5 181,5 29,04*** F1;18;0,05 = 4,41 Régime 2 49,0 24,5 3,92* F2;18;0,05 = 3,55 Interaction 2 3,00 1,5 0,24 F2;18;0,05 = 3,55 Variance résiduelle 18 112,5 6,25 Totaux 23 346,0 Conclusions • il existe un effet race très important (Fobs >>> Ftable) ; • il existe un effet régime mais faible (Fobs > Ftable); • il n'y a pas d'interaction entre la race et le régime (Fobs < Ftable). 3. Exécution de l'analyse de variance par le logiciel EXCEL Le problème ci-dessus peut être évidemment traité par un logiciel de statistique. Par exemple, pour EXCEL, les données doivent être introduites ainsi : Tableau de présentation des données H M B race 1 33 31 32 35 32 34 36 33 36 43 34 38 race 2 30 25 27 30 27 29 30 30 30 33 30 30
  • 37. ______________________________________________________________________________ 34 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification En utilisant l'« UTILITAIRE D'ANALYSE » du menu « OUTILS », la sortie EXCEL sera présentée selon les tableaux ci-dessous. Tableaux de l'édition des résultats de l'analyse par EXCEL ANALYSE DE VARIANCE : DEUX FACTEURS AVEC RÉPÉTITION D'EXPÉRIENCE RAPPORT DÉTAILLE H M B Total race 1 Nombre d'échantillons 4 4 4 12 Somme 147 130 140 417 Moyenne 36,75 32,5 35 34,75 Variance 18,91666667 1,666666667 6,666666667 10,75 race 2 Nombre d'échantillons 4 4 4 12 Somme 123 112 116 351 Moyenne 30,75 28 29 29,25 Variance 2,25 6 2 4,204545455 Total Nombre d'échantillons 8 8 8 Somme 270 242 256 Moyenne 33,75 30,25 32 Variance 19,35714286 9,071428571 14 ANALYSE DE VARIANCE Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F Échantillon 181,5 1 181,5 29,04 4,03299E-05 4,413863053 Colonnes 49 2 24,5 3,92 0,038620684 3,55456109 Interaction 3 2 1,5 0,24 0,789105089 3,55456109 A l'intérieur du groupe 112,5 18 6,25 Total 346 23 Vous remarquerez qu'on retrouve dans le tableau de l'analyse de variance, les mêmes résultats effectués précédemment. • La dernière colonne indique la valeur critique pour F, c'est-à-dire la valeur au-dessus de laquelle on considère la différence comme significative ; autrement dit, il s'agit du Ftable donné par les tables V-A ou VI-A pour un risque d'erreur donné. • La colonne « probabilité » indique le risque d'erreur associé à notre décision d'acceptation ou de rejet de l'hypothèse nulle.
  • 38. ______________________________________________________________________________ 35 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Séquence de travail n° 3 6 h CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE 11 Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. d'expliquer les objectifs de l'analyse de régression et de corrélation ; 2. d'exposer le principe général de l'analyse de corrélation ; 3. d'établir un diagramme de dispersion; 4. d'estimer la liaison entre deux caractères par une équation de régression ; 5. de calculer une erreur type d'estimation et d'établir un intervalle de prédiction ; 6. de calculer et d'interpréter un coefficient de détermination et de corrélation.
  • 39. ______________________________________________________________________________ 36 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple I. POSITION DU PROBLÈME Il est fréquent, en biologie ou en agronomie, de découvrir une relation très forte entre deux ou plusieurs variables : Exemples : - Relation entre la taille et le poids d'un animal. - Relation entre la production laitière d'une vache et le stade de lactation - Relation entre la production laitière et la composition du lait. - Relation entre l'administration de doses d'un produit et son effet biologique ou physiologique sur l'organisme. etc. La régression et la corrélation sont deux outils qui servent à étudier et à mesurer la relation statistique existant entre deux - ou plus de deux - variables. On se limitera, pour notre part, à deux variables, c'est-à-dire au cas de la régression et corrélation simples. Cependant, il faut savoir que le problème ne change pas fondamentalement lorsqu'on passe à trois variables ou plus (corrélation et régression multiples). 1. Analyse de régression et de corrélation La première et principale étape d'une analyse de régression consiste à déduire, en se basant sur les données échantillonnales, une équation d'estimation, qui décrit la nature fonctionnelle de la relation entre les variables. L'équation d'estimation (ou de régression) servira à estimer la valeur d'une des variables à partir de la valeur prise par l'autre variable. La variable dépendante, ou à prédire, est la variable qui doit être estimée. Cette variable est placée en général sur l'axe des Y (ordonnée). La variable indépendante ou prédictrice (notée X et portée sur l'axe des abscisses) est censée exercer une influence sur la variable dépendante Y. Dans l'analyse de régression, on ne se limite pas à établir une équation de la variable dépendante. On doit déterminer aussi le degré de fiabilité des prédictions obtenues à l'aide de cette équation. Autrement dit l'analyse de régression pose la question suivante : " De quel type est la relation entre les variables ?" Le but visé dans l'analyse de corrélation est de mesurer le degré d'association entre les variables. Par conséquent, il s'agit de répondre à la question : "Quelle est la force de la relation décrite par l'analyse de régression ?".
  • 40. ______________________________________________________________________________ 37 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple On devine alors que certaines situations ne se prêtent qu'à une analyse de régression tandis que d'autres ne se prêtent qu'à une analyse de corrélation. Cependant, en biologie, la plupart des phénomènes étudiés se prêtent à une analyse conjointe de régression et de corrélation. En réalité, l'expression "analyse de corrélation" englobe souvent les deux éléments, régression et corrélation. 2. La relation de causalité en statistique Le seul fait que deux variables soient reliées entre elles, au sens statistique du terme, n'est pas suffisant pour conclure à l'existence d'une relation de cause à effet. En effet, il existe plusieurs explications du fait que deux séries de données varient en même temps. Il est logique alors d'interpréter les mesures de corrélation dans le sens d'une relation de cause à effet au moins dans certaines situations. Si une relation existe entre deux variables, il y aura corrélation entre elles mais la seule existence d'une corrélation statistique n'est pas une preuve de causalité. Les relations de causalité peuvent être classées en deux catégories : la cause à effet et la cause commune. La relation de cause à effet existe si la variation d'une variable est attribuable à la variation de l'autre variable. Exemple : variation de température dans une réaction chimique et variation du résultat de cette réaction. Un facteur commun peut influencer conjointement deux variables. Exemple : variation de la croissance et du poids d'un animal et variation de l'état nutritionnel de cet animal. En fait, il s'agit, en régression et en corrélation, de n’étudier que les relations logiques entre les variables dont on veut analyser le comportement.
  • 41. ______________________________________________________________________________ 38 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple II. ANALYSE DE RÉGRESSION 1. Diagramme de dispersion Étude d'un exemple de régression linéaire simple On voudrait savoir s'il existe une relation entre les notes obtenues en contrôle continu (x) et celles obtenues à un concours national (y) pour 8 étudiants. Le tableau suivant résume ces notes : Tableau 1. Étudiants Notes au concours (y) /100 Notes du contrôle continu (x) / 20 A 42 9 B 70 14 C 27 5 D 63 12 E 58 11 F 38 7 G 62 11 H 76 15 Avant tout, il faudrait porter sur un graphique - appelé diagramme de dispersion - les données disponibles. Sur ce graphique, chaque point représente un couple de valeurs observées de la variable dépendante et de la variable indépendante. Diagramme de dispersion C F y = a + bx droite de regression 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 notes au contrôle continu ( x ) notesauconcours(y) Ce diagramme de dispersion remplit deux rôles :
  • 42. ______________________________________________________________________________ 39 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple - il aide à déterminer s'il existe une relation entre les deux variables - il aide aussi à déterminer le type d'équation appropriée pour décrire la relation. Si l'on prend pour acquis que les notes du contrôle continu reflètent bien le niveau de l'étudiant, on peut raisonnablement prétendre que les étudiants ayant obtenu les meilleures notes à ce contrôle seront les meilleurs au concours. Les données associées à un étudiant représentent un point du diagramme ci-dessus. On remarque alors que les 8 points semblent se rapprocher d'une même droite. Dans ce cas, la relation est positive (on dit aussi directe) puisque les 2 variables évoluent dans le même sens. Il existe bien entendu des situations où la relation est négative (ou inverse). La relation entre les variables n'est pas toujours linéaire comme le montre la figure ci-dessous représentant les différents diagrammes de dispersion rencontrés. Enfin, il est possible qu'aucune relation n'existe entre les variables (cas g de la figure ci- dessous). Les droites représentées à la figure ci-dessous décrivent la relation entre les variables. Ces droites sont appelées droites de régression (ou d'estimation) . ° ° ° ° ° ° ° ° ° °° ° ° °° ° °° °° ° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° X Y Y X a- Relation linéaire positive b-Relation linéaire postive avec une plus grande dispersion ° °° ° ° ° ° ° ° ° °° ° ° ° ° ° ° ° X Y Y X X°° ° °°° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Y °° ° ° ° ° ° ° ° ° ° ° ° °° ° ° ° ° ° ° ° ° ° c- Relation linéaire négative d- Relation curviligne positive e- Relation curviligne négative ° ° ° °° ° ° ° ° ° ° ° °°° ° ° ° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° °° ° °° ° ° ° ° ° ° ° °° ° °° ° ° ° ° ° ° °°° ° °° ° ° °° ° ° ° °° °°° ° ° ° ° ° Y X Y X f- Relation curviligne g- Absence de relation Différents diagrammes de dispersion
  • 43. ______________________________________________________________________________ 40 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple 2. Notion de covariance Soit une population dans laquelle on étudie simultanément les deux variables aléatoires X et Y avec E (X) =  et E(Y) = . Par définition, Cov (X , Y) = E [ (X - ) (Y - )] Si nous utilisons un échantillon de n individus, pour lequel on obtient les moyennes x et y , l'estimation de Cov (X,Y) sera : Cov (x,y) = 1 n  (x - x ) (y - y ) autrement dit, la moyenne des produits des écarts (S.P.E) que l'on écrit : Cov ( x , y) = S.P.E n =  xy -  x .  y n n =  xy - n x . y n Exemple Calculer la covariance des deux distributions suivantes : (x, y) ; (x',y) x y xy x' y x'y 6 30 180 12 30 180 9 49 441 10 49 441 3 18 54 8 18 54 8 42 336 7 42 336 7 39 273 9 39 273 5 25 125 14 25 125 8 41 328 8 41 328 10 52 520 10 52 520 n 8 8 8 8  56 296 2257 78 296 2837 Cov (x,y) =  xy -  x .  y n n = 23,12 Cov (x',y) =  x'y -  x' .  y n n = - 6,125 Considérons à présent le nuage de points des valeurs observées de x et y et les droites x = x et y = y . Ces deux droites partagent le plan en 4 secteurs (figure ci-dessous) : • secteur I dans lequel x > x et y > y ; donc tout produit (x - x ) (y - y ) > 0 ; • secteur II dans lequel x < x et y > y ; donc tout produit (x - x ) (y - y ) < 0 ;
  • 44. ______________________________________________________________________________ 41 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple • secteur III avec (x - x ) (y - y ) > 0 ; • secteur IV avec (x - x ) (y - y ) < 0 . II I IVIII x y y x La covariance sera positive ou négative selon que le nuage de points sera situé surtout dans les secteurs I et III ou surtout dans les secteurs II et IV. Elle sera d'autant plus élevée en valeur absolue que le nuage de points sera plus aplati autour de son grand axe ; elle sera nulle lorsque les points tendent à se répartir uniformément dans les 4 secteurs (nuage en forme de cercle ou de « patate ») ou si le nuage est allongé et son grand axe parallèle à l'un des axes. La valeur absolue de la covariance et son signe, sont des indicateurs de la liaison existant entre deux caractères : • lorsque la covariance est positive et élevée : les caractères sont liés et varient dans le même sens ; on parle de liaison positive ; • lorsque la covariance est négative et élevée : les caractères sont liés et varient en sens inverse ; on parle de liaison négative ; • lorsque la covariance est voisine de 0 : les caractères sont indépendants ; il n'y pas de liaison entre les caractères. 3. Droite de régression L'équation utilisée pour ajuster la droite de régression aux données du diagramme de dispersion est appelée équation de régression ou d'estimation . Rappelons que nous nous limiterons à l'étude de la régression linéaire dans le cas d'une variable prédictrice ; c'est la régression linéaire simple et la fonction obtenue est l'équation
  • 45. ______________________________________________________________________________ 42 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple d'une droite : la droite de régression de y sur x ( ou de y en x ) ou droite des moindres carrés . Si on considère le nuage de points représentant l'ensemble des données permettant d'obtenir l'équation de la droite de régression, la droite passe approximativement « au milieu » du nuage de points. L'équation de régression sera : y^ = a + bx où : a = ordonnée à l'origine (la valeur de y^ pour x = 0) b = pente de la droite de régression (la variation de y^ pour une variation d'une unité de x) x = valeur de la variable indépendante. y^ = valeur calculée de la variable dépendante Attention à la confusion ! certains auteurs utilisent l'équation y^ = ax + b Ainsi, la droite de régression et la droite de tendance sont toutes les deux décrites par l'équation générale de la droite; cependant la similitude entre ces deux droites ne s'arrête pas là. En effet, la droite de régression (tout comme la droite de tendance et la moyenne arithmétique) possède les deux propriétés suivantes :   ( y - y^ ) = 0 et  ( y - y^ )2 = valeur minimale Autrement dit, l'ajustement de la droite de régression aux données du diagramme de dispersion sera tel que les écarts positifs observés entre les points situés au-dessus de la droite et la droite annuleront les écarts négatifs observés entre les points situés au-dessous de la droite et celle-ci; la somme des écarts sera alors égale à 0 (figure ci-dessous).
  • 46. ______________________________________________________________________________ 43 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple y = a + bx i x y yi xi y = a + bx Les calculs reliés à l'analyse de régression et de corrélation seront simplifiés si les formules précédentes sont exprimées en termes d'écarts aux moyennes des variables x et y, c'est-à- dire d'écarts x et y . Dans ces conditions, les valeurs de a et de b de l'équation de régression sont obtenues à l'aide des formules suivantes : b =  (x - x )  (y - y )  (x - x )2 et a = y - b x avec, b =  (xi - x ) (yi - y )  (xi - x )2 =  xi yi -  xi .  yi n  xi 2 - [ xi]2 n =  xi yi - n x y  xi 2 - n x 2 En effet,  (xi - x )2 =  xi 2 - 2 x  xi + x  xi =  xi 2 - n x 2 et,  (xi - x ) (yi - y ) =  xi yi - x  yi - y  xi + n x y =  xi yi - x . n y - y . n x + n x y =  xi yi - n x y
  • 47. ______________________________________________________________________________ 44 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple et donc, b = n . Cov ( x,y ) n . sx 2 = Cov ( x,y) sx 2 où sx 2 représente la variance calculée sur l'échantillon. b est appelé coefficient de régression de y sur x Ainsi, l'équation de la droite de régression de y sur x peut s'écrire : y^ - y = b ( x - x ) Appliquons ces formules aux données du tableau 1. Le tableau 2 résume l'essentiel des étapes nécessaires au calcul de a et b. Tableau 2. Étudiants Notes au concours ( y ) Notes du contrôle continu ( x ) (y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2 A 42 9 -12,50 -1,50 18,75 2,25 156,25 B 70 14 15,50 3,50 54,25 12,25 240,25 C 27 5 -27,50 -5,50 151,25 30,25 756,25 D 63 12 8,50 1,50 12,75 2,25 72,25 E 58 11 3,50 0,50 1,75 0,25 12,25 F 38 7 -16,50 -3,50 57,75 12,25 272,25 G 62 11 7,50 0,50 3,75 0,25 56,25 H 76 15 21,50 4,50 96,75 20,25 462,25 n = 8 436 84 0 0 397 80 2028 y =  y/n = 436/8 = 54,5 x =  x/n = 84/8 = 10,5 Les valeurs de a et b sont calculées ainsi :
  • 48. ______________________________________________________________________________ 45 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple b =  (y - y ) (x- x )  (x- x )2 = 397 80 = 4,96 a = y - b x = 54,5 - (4,96) (10,5) = 2,39 L'équation de régression qui décrit la relation entre les notes obtenues au concours et celles obtenues au contrôle continu est donc : y^ = 2,39 + 4,96 x 4. Estimation à l'aide de l'équation de régression L'équation de régression est utilisée principalement pour estimer la valeur de la variable dépendante pour une valeur donnée de la variable indépendante. Exemple. Supposons qu'un étudiant ait 6 de moyenne au contrôle continu. On peut "raisonnablement" estimer ou prévoir sa note au concours simplement en substituant 6 à x dans l'équation de régression. L'estimation désirée sera donc : y^ = 2,39 + 4,96 . (6) = 32,15 Cette estimation se retrouve à la figure ci-dessous. y = 2,39 + 4,96x droite de régression 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 notes au contrôle continu ( x ) notesauconcours(y) 32,15
  • 49. ______________________________________________________________________________ 46 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple III. L'ERREUR TYPE DE L'ESTIMATION Du fait que l'on a estimé y en fonction de x à l'aide de l'équation de régression, il est logique de se demander à quel point cette estimation est fiable. Considérons les deux exemples ci-dessous : ° ° ° ° ° ° °° ° ° °° °° ° ° ° °° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° X Y Y X ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° (a) (b) Deux diagrammes de dispersion présentant des degrés de dispersion différents Lorsque les points du diagramme de dispersion sont peu éloignés de la droite de régression (Fig. a), on peut logiquement présumer que l'estimation s'appuyant sur cette relation sera probablement plus fiable que celle qui aurait été obtenue à partir d'une droite comme celle de la figure b où on remarque que l'éparpillement est beaucoup plus grand. D'où l'intérêt d'une mesure de cet éparpillement ou dispersion des points autour de la droite de régression. Cette mesure nous permettra certainement de mieux juger la fiabilité des estimations obtenues à partir de la droite. Comment obtenir cette mesure ? D'abord, il est logique de penser que plus cette mesure est petite, plus la prévision sera fiable. On donne le nom d' erreur type de l'estimation à cette mesure qu'on symbolise par Ey.x. Elle sera donc utilisée afin de quantifier le degré de variation (ou erreur) possible associée à une estimation obtenue à partir de la droite de régression. 1. Calcul de l'erreur type de l'estimation : Ey.x L'erreur type de l'estimation se calcule ainsi : Ey.x =  (y - y^)2 n - 2 Le tableau 3 résume l'essentiel des étapes permettant de calculer Ey.x.
  • 50. ______________________________________________________________________________ 47 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Tableau 3 Notes au concours (y) Notes du contrôle continu (x) (y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2 y^ (y - y^ ) (y - y^ )2 42 9 -12,50 -1,50 18,75 2,25 156,25 47,06 -5,06 25,57 70 14 15,50 3,50 54,25 12,25 240,25 71,87 -1,87 3,49 27 5 -27,50 -5,50 151,25 30,25 756,25 27,21 -0,21 0,04 63 12 8,50 1,50 12,75 2,25 72,25 61,94 1,06 1,12 58 11 3,50 0,50 1,75 0,25 12,25 56,98 1,02 1,04 38 7 -16,50 -3,50 57,75 12,25 272,25 37,13 0,87 0,75 62 11 7,50 0,50 3,75 0,25 56,25 56,98 5,02 25,19 76 15 21,50 4,50 96,75 20,25 462,25 76,83 -0,83 0,69 436 84 397 80 2028 436* 57,887 *La somme des y est égale à la somme des y^ . Il en sera toujours ainsi puisque  (y - y^ ) = 0. Ey.x =  (y - y^)2 n-2 = 57,887 6 = 9,65 = 3,11 On remarquera que la valeur de Ey.x s'exprime dans les mêmes unités que la variable y. Bien que la formule Ey.x =  (y - y^)2 n-2 soit très utile pour expliquer l'erreur type de l'estimation, la formule suivante s'applique cependant plus facilement : Ey.x =  (y - y )2 - b  (x - x ) (y - y ) n - 2 Toutes les valeurs de cette formule se retrouvent dans le tableau 2. Appliquons.... Ey.x =  (y - y )2 - b  (x - x ) (y - y ) n - 2 = 2028 - (4,96)(397) 8-2 = 3,11 2. Intervalles de prédiction Rappelons que l'écart type est une mesure de la dispersion autour de la moyenne. Dans le chapitre 3, nous avons vu que dans une distribution normale : - 68, 3 % des valeurs centrales de la distribution se situent à moins d'un écart type de chaque côté de la moyenne - 95,4 % des valeurs se situent à une distance maximale de deux écarts types de la moyenne
  • 51. ______________________________________________________________________________ 48 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple - et qu'enfin 99,7 % des valeurs sont à moins de trois écarts types de cette moyenne. Signalons par ailleurs la similitude des calculs entre l'écart type et l'erreur type. Il faut savoir que ces deux mesures se ressemblent aussi quant à leur interprétation. En effet, si les valeurs de y sont distribuées « normalement » autour de la droite de régression, on peut supposer que 68 % environ des points du diagramme de dispersion se situeront à moins d'un écart type de l'estimation au-dessus ou en-dessous de la droite de régression (Figure ci-dessous) x1 y1 x intervalle de prédiction y1± 2 (Ey.x) Interprétation de l'erreur type de l'estimation ^ y { { + 3 Ey.x - 3 Ey.x  Cet intervalle ± Ey.x est représenté, sur cette figure, par les deux droites en pointillés les plus proches de la droite de régression. L'intervalle ± 3 Ey.x englobe presque tous les points du diagramme de dispersion. Sur cette même figure, l'estimation y1 a été obtenue par le remplacement de x par x1 (une valeur donnée) dans l'équation de régression (y1 = a + bx1). y1 est une estimation ponctuelle et, compte tenu de la dispersion autour de la droite de régression sur la figure ci-dessus, il est peu probable que cette estimation y1 de la valeur y pour une valeur x = x1 soit rigoureusement exacte. La fiabilité de cette estimation ponctuelle dépend largement de la grandeur de l'erreur type de l'estimation. On sait que plus cette erreur type est petite et plus il est probable que l'estimation ponctuelle soit voisine de la véritable valeur de la variable dépendante.
  • 52. ______________________________________________________________________________ 49 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Autrement dit, la connaissance de l'erreur type de l'estimation permet d'améliorer la méthode d'estimation. Donc, plutôt que de considérer l'estimation ponctuelle, on peut calculer un intervalle de prédiction auquel sera attachée une probabilité. Cet intervalle de prédiction sera : y^ ±  ( Ey.x )  étant la valeur de l'écart réduit. L'intervalle y1 ± 2 (Ey.x) représenté à la figure précédente est un intervalle de prédiction au niveau de 95,4 %. Reprenons notre exemple initial… L'estimation ponctuelle calculée était de 32,15 (note obtenue au concours) pour un étudiant ayant obtenu 6 en contrôle continu. Nous avons également évalué l'erreur type de l'estimation à 3,11. En supposant que, dans cet exemple, les points se distribuent normalement autour de la droite de régression, on peut établir un intervalle de prédiction à 95 % de cette façon : Intervalle = y^ ±  (Ey.x) = 32,15 ± (1,96) (3,11) = 32,15 ± 6,09 = 26,06 à 38,24 Que signifie concrètement cet intervalle ? Cela veut dire que 95 % des étudiants qui auront obtenu la note 6 au contrôle continu auront une note située entre 26,06 et 38,24 au concours.
  • 53. ______________________________________________________________________________ 50 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple IV. ANALYSE DE CORRÉLATION Il nous reste maintenant à savoir comment juger le degré d'association ou de corrélation existant entre les variables ou, en d'autres termes, juger la qualité de l'ajustement des points par la droite. 1. Le coefficient de détermination = r2 Examinons d'abord les différents termes et concepts illustrés à la figure ci-dessous. y y y x point du diagramme de dispersion( y ) ecart expliqué : ecart inexpliqué :y - yy -Ecart total = ^y = a + b x ^y ^y - y Illustration des concepts d'écart total, d'écart expliqué et d'écart inexpliqué Supposons que nous nous servions de y , la moyenne des valeurs observées de la variable dépendante, pour prévoir la valeur de y. Dans ce cas, on s'attend à ce que l'écart entre notre estimation et la valeur de y soit considérable. Un point particulier (y) a été choisi dans la figure ci-dessus, pour montrer l'importance de l'écart total qui existe, dans cet exemple, entre la valeur observée de y et y . En revanche, en utilisant la droite de régression pour estimer ou prévoir la valeur de la variable dépendante, il est possible de réduire l'écart probable entre la valeur de y et la valeur estimée de y. On remarque sur cette même figure que la droite de régression est plus rapprochée de la majorité des points du diagramme que ne l'est y . Donc, pour le point unique (y) de cette figure, la droite de régression explique en partie l'écart entre y et y . Autrement dit, l'écart expliqué par la droite est y^ - y . Mais, la droite de régression n'explique pas entièrement l'écart entre y et y , puisqu'il reste à expliquer l'écart entre y et y^ .
  • 54. ______________________________________________________________________________ 51 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Nous avons donc : Écart total = Écart expliqué + Écart inexpliqué y - y (y^ - y ) (y - y^ ) ou, en termes de « variations », Variation totale = Variation expliquée + Variation inexpliquée  (y - y )2 (y^ - y )2 (y - y^ )2 Avec ces considérations, le coefficient de détermination ( r2 ) est une mesure de la proportion de la variation dans la variable y qui s'explique par la présence de la variable x (ou par la droite de régression), c'est-à-dire : r2 = Variation expliquée Variation totale où la variation totale est  (y - y )2 (revoir tableau 2) et où la variation expliquée  (y^ - y )2 est donnée par b  (x - x ) (y - y ). Donc, r2 = b . [ (x - x ) (y - y )]  (y - y )2 Dans notre exemple (voir tableau 2) r2 = b . [ (x - x ) (y - y )]  (y - y )2 = (4,96) (397) 2028 = 0,971 Que représente alors ce coefficient de détermination r2 ? Il signifie que 97,1 % de la variation dans la variable y, est expliqué ou attribué à la variation dans la variable x.
  • 55. ______________________________________________________________________________ 52 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Dans notre exemple, on peut dire que 97,1 % de la variation dans les notes obtenues au concours, est expliqué par la variation des résultats au contrôle continu. On comprend alors que r2 ne peut être supérieur à 1, puisque c'est une probabilité et que plus la valeur de ce r2 est grande et plus celle de Ey.x est petite. 2. Le coefficient de corrélation C'est la racine carrée de r2 tout simplement. r = r2 Dans notre exemple, r = 0,971 = 0,985 Le coefficient de corrélation est moins utile que r2 parce qu'il représente une mesure assez abstraite qui ne se prête pas à une interprétation précise. r nous donne simplement une idée de l'importance de la liaison linéaire entre les variables x et y et sa valeur se situera toujours entre -1 et +1. * Si r = 0 : il y a absence de corrélation linéaire entre les deux variables. * r = 1 ou -1 : il y a une corrélation linéaire parfaite (positive ou négative) entre x et y. 1. Méthode pratique de calcul du coefficient de corrélation Le coefficient de corrélation peut également être défini ainsi : r = Cov ( x , y ) sx . sy où, Cov (x,y) représente la covariance du couple (x,y) qui a été déjà définie par : Cov (x,y) = 1 n xi - x ) (yi - y ) et où sx et sy sont les deux écarts types calculés sur les échantillons : sx =  nixi 2 n - x 2 sy =  niyi 2 n - y 2 Nous pouvons aussi écrire : r = Erreur !;Erreur !2 . Erreur ! (yi - Erreur !)2)) = Erreur !;Erreur !2 .  (yi - y )2)) = S.P.E SCEx . SCEy
  • 56. ______________________________________________________________________________ 53 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple ou encore, r =  xiyi -  xi  yi n [ xi 2 - ( xi ) 2 n ] [ yi 2 - ( yi ) 2 n ] = Cov (x , y ) sx sy 2. Propriétés du coefficient de corrélation Rappelons que le coefficient de corrélation est un indicateur de liaison linéaire et que la corrélation est une technique qui est utilisée pour établir une relation de cause à effet. Le coefficient de corrélation mesure la « netteté » de la liaison existant entre les deux séries d'observations, à condition que cette liaison soit linéaire ou approximativement linéaire. Dans le cas contraire, le coefficient de corrélation ne présente aucun intérêt. Le coefficient de corrélation a le même signe que la covariance ; il est nul quand la covariance est nulle. Le coefficient de détermination n'indique pas la nature de la relation qui unit les deux variables ; il n'indique que la part de la variation qui pourrait être expliquée si une relation de causalité existait. Il est dangereux d'interpréter le coefficient de corrélation comme un pourcentage. En effet, si r = 0,6, cela ne veut pas dire que 60 % de la variation de y est expliquée ; en fait, pour r = 0,6 nous avons r2 = 0,36 ; autrement dit seulement 36 % de la variation est expliquée.
  • 57. ______________________________________________________________________________ 54 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple V. TRANSFORMÉE DE FISHER 1. Position du problème Nous avons étudié les problèmes relatifs à la corrélation en introduisant la notion de coefficient de corrélation calculé sur un échantillon de taille n. A chaque échantillon prélevé, on faisait correspondre une valeur de r. Par analogie avec les problèmes d'échantillonnage d'une moyenne ou d'une fréquence, on peut envisager ici la distribution d'échantillonnage de r. En effet, si l'expérience pouvait être effectuée sur la totalité des individus de la population considérée, nous obtiendrons la vraie valeur de r que nous désignerons par  (rhô). Autrement dit, le coefficient de corrélation r, calculé à partir d'observations faites sur l'échantillon ne constitue qu'une estimation. Lorsque le nombre de mesures est très élevé, il peut arriver qu'une valeur de r soit le signe d'une liaison, lâche peut être, mais réelle entre les variables. Si, au contraire, le nombre de mesures est peu élevé, il peut arriver qu'une valeur de r, même proche de ± 1 soit due au seul hasard de l'échantillonnage, et ne révèle aucune liaison significative. Il est donc indispensable de savoir avec quelle précision le coefficient de corrélation a été estimé, et plus particulièrement de pouvoir tester par rapport à 0 la valeur r trouvée. Nous procéderons alors au même type de raisonnement que celui relatif à l'estimation d'une moyenne d'une population par un intervalle de confiance. Cependant, nous distinguerons deux cas selon la valeur du coefficient de corrélation : • A partir d'un échantillon, r sera voisin de 0 ; nous testerons ce résultat pour savoir si nous pouvons conclure à l'indépendance des deux variables x et y. • Dans le cas où r ≠ 0, nous déterminerons un intervalle de confiance de r. 2. Premier cas : r = 0 Dans ce cas, la quantité : tobs = r  n - 2 1 - r2 obéit à une loi de Student à  = n - 2 degrés de liberté. Avec un ddl =  et un risque d'erreur  choisi, nous déterminons, dans la table de Student t. • Si tobs < ttable, on accepte l'hypothèse nulle Ho :  = 0 ; • Si tobs ≥ ttable, on rejette l'hypothèse nulle Ho ; dans ce cas  ≠ 0.
  • 58. ______________________________________________________________________________ 55 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Exemple 1 La valeur d'un coefficient de corrélation, calculé sur un échantillon de taille 20, est égal à 0,24. Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. Autrement dit les deux variables x et y sont-elles indépendantes au risque  de première espèce ? ******** tobs = r  n - 2 1 - r2 = 0,24  20 - 2 1 - 0,242 = 1,049 Pour  = 0,05 et ddl = 18, ttable = 2,101 tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0 Exemple 2 Un échantillon de taille 25 a donné r = 0,32 Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. ( = 0,05) tobs = r  n - 2 1 - r2 = 0,32  25 - 2 1 - 0,322 = 1,32 Pour  = 0,05 et ddl = 23, ttable = 2,069 tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0 Considérons à présent, le même échantillon mais avec r = 0,68 tobs = 0,68  25 - 2 1 - 0,682 = 4,45 Dans ce cas, nous devons rejeter Ho. 3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle On définit dans cette situation, une nouvelle variable appelée transformée de Fisher par : Z = 1 2 Log [ 1 + r 1 - r ]
  • 59. ______________________________________________________________________________ 56 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Cette variable Z obéit à une loi normale de moyenne m = 1/2 Log [ 1 +  1 -  ] , et d'écart type Z = 1 n - 3 On peut déterminer les limites de  avec un risque . La valeur de Z est donnée par la table de la transformée de Fisher (Table VII en fin de livret) dont un extrait est présenté ci-dessous : Z 0,00 0,01 0,02 0,03 0,04 0,0 0,00000 0,01000 0,02000 0,02999 0,03998 0,1 0,09967 0,10956 0,11943 0,12927 0,13909 0,2 0,19738 0,20697 0,21652 0,22603 0,23550 0,3 0,29131 0,30044 0,30951 0,31852 0,32748 0,4 0,37995 0,38847 0,39693 0,40532 0,41364 0,5 0,46212 0,46995 0,47770 0,48538 0,49299 0,6 0,53705 0,54413 0,55113 0,55805 0,56490 0,7 0,60437 0,61068 0,61691 0,62307 0,62915 0,8 0,66404 0,66959 0,67507 0,68048 0,68581 0,9 0,71630 0,72113 0,72590 0,73059 0,73522 Dans l'exemple 2 ci-dessus, avec r = 0,68, l a table VII donne 0,8 et 0,03 c'est-à-dire Z = 0,83 (valeurs en grisé ci-dessus). Dans ces conditions, les limites de confiance à 0,95 de mZ sont : Z -   1 n - 3 et Z +   1 n - 3  étant donné par la table de l'écart réduit Dans notre exemple, n = 25 ; = 1,96 ; Z = 0,83 L'intervalle de confiance de  sera donc : 0,83 - 1,96  1 25 - 3 <  < 0,83 + 1,96  1 25 - 3 ou 0,3885 <  < 0,8483
  • 60. ______________________________________________________________________________ 57 _____________________________________________________________________________ Tables statistiques TABLE I TABLE DE LA DISTRIBUTION NORMALE RÉDUITE FONCTION DE RÉPARTITION  (u) =   - u 1 2 e -1/2 u2 du Exemple :  (0,52) = 0,6985 ;  (-1,93) = 1 -  (1,93) = 1 - 0,97320 = 0,02680 u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
  • 61. ______________________________________________________________________________ 58 _____________________________________________________________________________ Tables statistiques 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
  • 62. ______________________________________________________________________________ 59 _____________________________________________________________________________ Tables statistiques TABLE II TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART RÉDUIT 0 + -   / 2 + •  / 2 1 -  N (0,1) - • La probabilité  s'obtient par addition des nombres inscrits en marge. Exemple : Pour  = 1,96, la probabilité est  = 0,00 + 0,05 = 0,05  0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696 0,10 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311 0,20 1,282 1,254 1,227 1,201 1,175 1,150 1,127 1,103 1,080 1,058 0,30 1,037 1,015 0,995 0,974 0,954 0,935 0,915 0,897 0,878 0,860 0,40 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,723 0,706 0,690 0,50 0,675 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539 0,60 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399 0,70 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266 0,80 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138 0,90 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013 TABLES POUR LES PETITES VALEURS DE   0,001 0,000 1 0,000 01 0,000 001 0,000 000 1 0,000 000 01 0,000 000 001  3, 290 53 3,890 59 4,417 17 4,891 64 5,326 72 5,730 73 6,109 41
  • 63. ______________________________________________________________________________ 60 _____________________________________________________________________________ Tables statistiques TABLE III TABLE DE STUDENT La table donne la probabilité  pour que t égale ou dépasse, en valeur absolue, une valeur donnée, en fonction du nombre de degrés de liberté (ddl). Exemple : avec ddl = 10, pour t = 2,228, la probabilité est  = 0,05  0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 ddl 1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 63,656 636,578 2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,600 3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,924 4 0,134 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610 5 0,132 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869 6 0,131 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959 7 0,130 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408 8 0,130 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041 9 0,129 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,128 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,692 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,128 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073 16 0,128 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,128 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,127 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,127 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,127 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,768 24 0,127 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725 26 0,127 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,689 28 0,127 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,127 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,660 30 0,127 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646 40 0,126 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551 80 0,126 0,678 1,043 1,292 1,664 1,990 2,374 2,639 3,416 120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373 ∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293
  • 64. ______________________________________________________________________________ 61 _____________________________________________________________________________ Tables statistiques TABLE IV TABLE DU2 La table donne la probabilité  pour que 2 égale ou dépasse une valeur donnée, en fonction du nombre de degrés de liberté. Exemple : avec ddl = 3, pour 2 = 0,11 la probabilité  = 0,99.  0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001 ddl 1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83 2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82 3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27 4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47 5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51 6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46 7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 24,32 8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,12 9 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 27,88 10 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 29,59 11 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,73 31,26 12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 32,91 13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 34,53 14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 36,12 15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 37,70 16 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 39,25 17 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 40,79 18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 42,31 19 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 43,82 20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,31 21 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 46,80 22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27 23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73 24 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 51,18 25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62 26 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 54,05 27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 55,48 28 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28 56,89 29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 58,30 30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 59,70
  • 65. ______________________________________________________________________________ 62 _____________________________________________________________________________ Tables statistiques TABLE V-A TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL ( = 0,05) Si F est une variable aléatoire qui suit la loi de Snedecor à : • degrés de liberté, (ddl du numérateur) et •  degrés de liberté, (ddl du dénominateur) La table donne le nombre f tel que Prob (F ≥ f ) =  = 0,05 Exemple : F0,05 = 3,36 pour 1 = 4 et 2 = 11   1 2 3 4 5 6 8 10 15 20 30 ∞ 1 161 199 216 225 230 234 239 242 246 248 250 254 2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50 3 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,66 8,62 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,80 5,75 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,50 4,37 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,87 3,81 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,44 3,38 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,08 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,94 2,86 2,71 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,77 2,70 2,54 11 4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,85 2,72 2,65 2,57 2,40 12 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30 13 4,67 3,81 3,41 3,18 3,03 2,92 2,77 2,67 2,53 2,46 2,38 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13 15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,54 2,40 2,33 2,25 2,07 16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01 17 4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,45 2,31 2,23 2,15 1,96 18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92 19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,38 2,23 2,16 2,07 1,88 20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84 21 4,32 3,47 3,07 2,84 2,68 2,57 2,42 2,32 2,18 2,10 2,01 1,81 22 4,30 3,44 3,05 2,82 2,66 2,55 2,40 2,30 2,15 2,07 1,98 1,78 23 4,28 3,42 3,03 2,80 2,64 2,53 2,37 2,27 2,13 2,05 1,96 1,76 24 4,26 3,40 3,01 2,78 2,62 2,51 2,36 2,25 2,11 2,03 1,94 1,73 25 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71 26 4,23 3,37 2,98 2,74 2,59 2,47 2,32 2,22 2,07 1,99 1,90 1,69 27 4,21 3,35 2,96 2,73 2,57 2,46 2,31 2,20 2,06 1,97 1,88 1,67 28 4,20 3,34 2,95 2,71 2,56 2,45 2,29 2,19 2,04 1,96 1,87 1,65 29 4,18 3,33 2,93 2,70 2,55 2,43 2,28 2,18 2,03 1,94 1,85 1,64 30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62 40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51 50 4,03 3,18 2,79 2,56 2,40 2,29 2,13 2,03 1,87 1,78 1,69 1,44 60 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
  • 66. ______________________________________________________________________________ 63 _____________________________________________________________________________ Tables statistiques 80 3,96 3,11 2,72 2,49 2,33 2,21 2,06 1,95 1,79 1,70 1,60 1,32 100 3,94 3,09 2,70 2,46 2,31 2,19 2,03 1,93 1,77 1,68 1,57 1,28 ∞ 3,84 3,00 2,61 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,01
  • 67. ______________________________________________________________________________ 64 _____________________________________________________________________________ Tables statistiques TABLE V-B TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL ( = 0,05) Si F est une variable aléatoire qui suit la loi de Snedecor à : • degrés de liberté, (ddl du numérateur) et •  degrés de liberté, (ddl du dénominateur) La table donne le nombre f tel que Prob (F ≥ f ) =  = 0,05 Exemple : F0,05 = 4,28 pour 1 = 4 et 2 = 11   1 2 3 4 5 6 8 10 15 20 30 ∞ 1 648 799 864 900 922 937 957 969 985 993 1001 1018 2 38,5 39,0 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4 39,5 39,5 3 17,4 16,04 15,44 15,10 14,88 14,73 14,54 14,42 14,25 14,17 14,08 13,90 4 12,22 10,65 9,98 9,60 9,36 9,20 8,98 8,84 8,66 8,56 8,46 8,26 5 10,01 8,43 7,76 7,39 7,15 6,98 6,76 6,62 6,43 6,33 6,23 6,02 6 8,81 7,26 6,60 6,23 5,99 5,82 5,60 5,46 5,27 5,17 5,07 4,85 7 8,07 6,54 5,89 5,52 5,29 5,12 4,90 4,76 4,57 4,47 4,36 4,14 8 7,57 6,06 5,42 5,05 4,82 4,65 4,43 4,30 4,10 4,00 3,89 3,67 9 7,21 5,71 5,08 4,72 4,48 4,32 4,10 3,96 3,77 3,67 3,56 3,33 10 6,94 5,46 4,83 4,47 4,24 4,07 3,85 3,72 3,52 3,42 3,31 3,08 11 6,72 5,26 4,63 4,28 4,04 3,88 3,66 3,53 3,33 3,23 3,12 2,88 12 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,73 13 6,41 4,97 4,35 4,00 3,77 3,60 3,39 3,25 3,05 2,95 2,84 2,60 14 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49 15 6,20 4,77 4,15 3,80 3,58 3,41 3,20 3,06 2,86 2,76 2,64 2,40 16 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32 17 6,04 4,62 4,01 3,66 3,44 3,28 3,06 2,92 2,72 2,62 2,50 2,25 18 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19 19 5,92 4,51 3,90 3,56 3,33 3,17 2,96 2,82 2,62 2,51 2,39 2,13 20 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09 21 5,83 4,42 3,82 3,48 3,25 3,09 2,87 2,73 2,53 2,42 2,31 2,04 22 5,79 4,38 3,78 3,44 3,22 3,05 2,84 2,70 2,50 2,39 2,27 2,00 23 5,75 4,35 3,75 3,41 3,18 3,02 2,81 2,67 2,47 2,36 2,24 1,97 24 5,72 4,32 3,72 3,38 3,15 2,99 2,78 2,64 2,44 2,33 2,21 1,94 25 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91 26 5,66 4,27 3,67 3,33 3,10 2,94 2,73 2,59 2,39 2,28 2,16 1,88 27 5,63 4,24 3,65 3,31 3,08 2,92 2,71 2,57 2,36 2,25 2,13 1,85 28 5,61 4,22 3,63 3,29 3,06 2,90 2,69 2,55 2,34 2,23 2,11 1,83 29 5,59 4,20 3,61 3,27 3,04 2,88 2,67 2,53 2,32 2,21 2,09 1,81 30 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79 40 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64 50 5,34 3,97 3,39 3,05 2,83 2,67 2,46 2,32 2,11 1,99 1,87 1,55 60 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
  • 68. ______________________________________________________________________________ 65 _____________________________________________________________________________ Tables statistiques 80 5,22 3,86 3,28 2,95 2,73 2,57 2,35 2,21 2,00 1,88 1,75 1,40 100 5,18 3,83 3,25 2,92 2,70 2,54 2,32 2,18 1,97 1,85 1,71 1,35 ∞ 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,01
  • 69. ______________________________________________________________________________ 66 _____________________________________________________________________________ Tables statistiques TABLE VI-A TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL ( = 0,01) Si F est une variable aléatoire qui suit la loi de Snedecor à : • degrés de liberté, (ddl du numérateur) et •  degrés de liberté, (ddl du dénominateur) La table donne le nombre f tel que Prob (F ≥ f ) =  = 0,01 Exemple : F0,01 = 5,67 pour 1 = 4 et 2 = 11 1 2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 ∞ 1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6157 6209 6260 6302 6334 6350 6360 6366 2 98,5 99,0 99,2 99,3 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 99,5 3 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2 26,9 26,7 26,5 26,4 26,2 26,2 26,1 26,1 4 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 14,2 14,0 13,8 13,7 13,6 13,5 13,5 13,5 5 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 9,7 9,6 9,4 9,2 9,1 9,1 9,0 9,0 6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,56 7,40 7,23 7,09 6,99 6,93 6,90 6,88 7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,31 6,16 5,99 5,86 5,75 5,70 5,67 5,65 8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,52 5,36 5,20 5,07 4,96 4,91 4,88 4,86 9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 4,96 4,81 4,65 4,52 4,41 4,36 4,33 4,31 10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,56 4,41 4,25 4,12 4,01 3,96 3,93 3,91 11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,25 4,10 3,94 3,81 3,71 3,66 3,62 3,60 12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,01 3,86 3,70 3,57 3,47 3,41 3,38 3,36 13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,82 3,66 3,51 3,38 3,27 3,22 3,19 3,17 14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,66 3,51 3,35 3,22 3,11 3,06 3,03 3,00 15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,52 3,37 3,21 3,08 2,98 2,92 2,89 2,87 16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,41 3,26 3,10 2,97 2,86 2,81 2,78 2,75 17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,31 3,16 3,00 2,87 2,76 2,71 2,68 2,65 18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,23 3,08 2,92 2,78 2,68 2,62 2,59 2,57 19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,15 3,00 2,84 2,71 2,60 2,55 2,51 2,49 20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,09 2,94 2,78 2,64 2,54 2,48 2,44 2,42 22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 2,98 2,83 2,67 2,53 2,42 2,36 2,33 2,31 24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 2,89 2,74 2,58 2,44 2,33 2,27 2,24 2,21 26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,81 2,66 2,50 2,36 2,25 2,19 2,16 2,13 28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,75 2,60 2,44 2,30 2,19 2,13 2,09 2,06 30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,70 2,55 2,39 2,25 2,13 2,07 2,03 2,01 40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,52 2,37 2,20 2,06 1,94 1,87 1,83 1,80 50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,42 2,27 2,10 1,95 1,82 1,76 1,71 1,68 60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,35 2,20 2,03 1,88 1,75 1,68 1,63 1,60 80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,27 2,12 1,94 1,79 1,65 1,58 1,53 1,49 100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,22 2,07 1,89 1,74 1,60 1,52 1,47 1,43 200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,50 2,41 2,13 1,97 1,79 1,63 1,48 1,39 1,33 1,28 500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,44 2,36 2,07 1,92 1,74 1,57 1,41 1,31 1,23 1,17
  • 70. ______________________________________________________________________________ 67 _____________________________________________________________________________ Tables statistiques ∞ 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,04 1,88 1,70 1,52 1,36 1,25 1,15 1,02
  • 71. ______________________________________________________________________________ 68 _____________________________________________________________________________ Tables statistiques TABLE VI-B TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL ( = 0,01) Si F est une variable aléatoire qui suit la loi de Snedecor à : • degrés de liberté, (ddl du numérateur) et •  degrés de liberté, (ddl du dénominateur) La table donne le nombre f tel que Prob (F ≥ f ) =  = 0,01 Exemple : F0,01 = 6,88 pour 1 = 4 et 2 = 11 1 2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 ∞ 1 1621 2000 2161 2250 2306 2344 2372 2392 2409 2422 2463 2484 2504 2521 2534 2540 2544 2547 2 199 199 199 199 199 199 199 199 199 199 199 199 199 199 199 199 200 200 3 55,6 49,8 47,5 46,2 45,4 44,8 44,4 44,1 43,9 43,7 43,1 42,8 42,5 42,2 42,0 41,9 41,9 41,8 4 31,3 26,3 24,3 23,2 22,5 22,0 21,6 21,4 21,1 21,0 20,4 20,2 19,9 19,7 19,5 19,4 19,4 19,3 5 22,8 18,3 16,5 15,6 14,9 14,5 14,2 14,0 13,8 13,6 13,1 12,9 12,7 12,5 12,3 12,2 12,2 12,1 6 18,63 14,54 12,9 12,0 11,5 11,1 10,8 10,6 10,4 10,3 9,81 9,59 9,36 9,17 9,03 8,95 8,91 8,88 7 16,24 12,40 10,9 10,1 9,52 9,16 8,89 8,68 8,51 8,38 7,97 7,75 7,53 7,35 7,22 7,15 7,10 7,08 8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 6,81 6,61 6,40 6,22 6,09 6,02 5,98 5,95 9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,03 5,83 5,62 5,45 5,32 5,26 5,21 5,19 10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,47 5,27 5,07 4,90 4,77 4,71 4,67 4,64 11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,05 4,86 4,65 4,49 4,36 4,29 4,25 4,23 12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,72 4,53 4,33 4,17 4,04 3,97 3,93 3,90 13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,46 4,27 4,07 3,91 3,78 3,71 3,67 3,65 14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,25 4,06 3,86 3,70 3,57 3,50 3,46 3,44 15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,07 3,88 3,69 3,52 3,39 3,33 3,29 3,26 16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 3,92 3,73 3,54 3,37 3,25 3,18 3,14 3,11 17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 3,79 3,61 3,41 3,25 3,12 3,05 3,01 2,98 18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,68 3,50 3,30 3,14 3,01 2,94 2,90 2,87 19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,59 3,40 3,21 3,04 2,91 2,85 2,80 2,78 20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,50 3,32 3,12 2,96 2,83 2,76 2,72 2,69 22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81 3,70 3,36 3,18 2,98 2,82 2,69 2,62 2,57 2,55 24 9,55 6,66 5,52 4,89 4,49 4,20 3,99 3,83 3,69 3,59 3,25 3,06 2,87 2,70 2,57 2,50 2,46 2,43 26 9,41 6,54 5,41 4,79 4,38 4,10 3,89 3,73 3,60 3,49 3,15 2,97 2,77 2,61 2,47 2,40 2,36 2,33 28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52 3,41 3,07 2,89 2,69 2,53 2,39 2,32 2,28 2,25 30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,01 2,82 2,63 2,46 2,32 2,25 2,21 2,18 40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 2,78 2,60 2,40 2,23 2,09 2,01 1,96 1,93 50 8,63 5,90 4,83 4,23 3,85 3,58 3,38 3,22 3,09 2,99 2,65 2,47 2,27 2,10 1,95 1,87 1,82 1,79 60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,57 2,39 2,19 2,01 1,86 1,78 1,73 1,69 80 8,33 5,67 4,61 4,03 3,65 3,39 3,19 3,03 2,91 2,80 2,47 2,29 2,08 1,90 1,75 1,66 1,60 1,56 100 8,24 5,59 4,54 3,96 3,59 3,33 3,13 2,97 2,85 2,74 2,41 2,23 2,02 1,84 1,68 1,59 1,53 1,49 200 8,06 5,44 4,41 3,84 3,47 3,21 3,01 2,86 2,73 2,63 2,30 2,11 1,91 1,71 1,54 1,44 1,37 1,31 500 7,95 5,35 4,33 3,76 3,40 3,14 2,94 2,79 2,66 2,56 2,23 2,04 1,84 1,64 1,46 1,35 1,26 1,18
  • 72. ______________________________________________________________________________ 69 _____________________________________________________________________________ Tables statistiques ∞ 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,19 2,00 1,79 1,59 1,40 1,28 1,17 1,02
  • 73. ______________________________________________________________________________ 70 _____________________________________________________________________________ Tables statistiques TABLE VII CORRÉLATION TRANSFORMÉE DE FISHER La valeur Z s'obtient par addition des chiffres de la ligne et de la colonne. La valeur correspondante de r se lit à l'intersection de la ligne et de la colonne Exemple : pour Z = 2,03, r = 0,96609 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,0 0,00000 0,01000 0,02000 0,02999 0,03998 0,04996 0,05993 0,06989 0,07983 0,08976 0,09967 0,1 0,09967 0,10956 0,11943 0,12927 0,13909 0,14889 0,15865 0,16838 0,17808 0,18775 0,19738 0,2 0,19738 0,20697 0,21652 0,22603 0,23550 0,24492 0,25430 0,26362 0,27291 0,28213 0,29131 0,3 0,29131 0,30044 0,30951 0,31852 0,32748 0,33638 0,34521 0,35399 0,36271 0,37136 0,37995 0,4 0,37995 0,38847 0,39693 0,40532 0,41364 0,42190 0,43008 0,43820 0,44624 0,45422 0,46212 0,5 0,46212 0,46995 0,47770 0,48538 0,49299 0,50052 0,50798 0,51536 0,52267 0,52990 0,53705 0,6 0,53705 0,54413 0,55113 0,55805 0,56490 0,57167 0,57836 0,58498 0,59152 0,59798 0,60437 0,7 0,60437 0,61068 0,61691 0,62307 0,62915 0,63515 0,64108 0,64693 0,65271 0,65841 0,66404 0,8 0,66404 0,66959 0,67507 0,68048 0,68581 0,69107 0,69626 0,70137 0,70642 0,71139 0,71630 0,9 0,71630 0,72113 0,72590 0,73059 0,73522 0,73978 0,74428 0,74870 0,75307 0,75736 0,76159 1,0 0,76159 0,76576 0,76987 0,77391 0,77789 0,78181 0,78566 0,78946 0,79320 0,79688 0,80050 1,1 0,80050 0,80406 0,80757 0,81102 0,81441 0,81775 0,82104 0,82427 0,82745 0,83058 0,83365 1,2 0,83365 0,83668 0,83965 0,84258 0,84546 0,84828 0,85106 0,85380 0,85648 0,85913 0,86172 1,3 0,86172 0,86428 0,86678 0,86925 0,87167 0,87405 0,87639 0,87869 0,88095 0,88317 0,88535 1,4 0,88535 0,88749 0,88960 0,89167 0,89370 0,89569 0,89765 0,89958 0,90147 0,90332 0,90515 1,5 0,90515 0,90694 0,90870 0,91042 0,91212 0,91379 0,91542 0,91703 0,91860 0,92015 0,92167 1,6 0,92167 0,92316 0,92462 0,92606 0,92747 0,92886 0,93022 0,93155 0,93286 0,93415 0,93541 1,7 0,93541 0,93665 0,93786 0,93906 0,94023 0,94138 0,94250 0,94361 0,94470 0,94576 0,94681 1,8 0,94681 0,94783 0,94884 0,94983 0,95080 0,95175 0,95268 0,95359 0,95449 0,95537 0,95624 1,9 0,95624 0,95709 0,95792 0,95873 0,95953 0,96032 0,96109 0,96185 0,96259 0,96331 0,96403 2,0 0,96403 0,96473 0,96541 0,96609 0,96675 0,96740 0,96803 0,96865 0,96926 0,96986 0,97045 2,1 0,97045 0,97103 0,97159 0,97215 0,97269 0,97323 0,97375 0,97426 0,97477 0,97526 0,97574 2,2 0,97574 0,97622 0,97668 0,97714 0,97759 0,97803 0,97846 0,97888 0,97929 0,97970 0,98010 2,3 0,98010 0,98049 0,98087 0,98124 0,98161 0,98197 0,98233 0,98267 0,98301 0,98335 0,98367 2,4 0,98367 0,98400 0,98431 0,98462 0,98492 0,98522 0,98551 0,98579 0,98607 0,98635 0,98661 2,5 0,98661 0,98688 0,98714 0,98739 0,98764 0,98788 0,98812 0,98835 0,98858 0,98881 0,98903 2,6 0,98903 0,98924 0,98946 0,98966 0,98987 0,99007 0,99026 0,99045 0,99064 0,99083 0,99101 2,7 0,99101 0,99118 0,99136 0,99153 0,99170 0,99186 0,99202 0,99218 0,99233 0,99248 0,99263 2,8 0,99263 0,99278 0,99292 0,99306 0,99320 0,99333 0,99346 0,99359 0,99372 0,99384 0,99396 2,9 0,99396 0,99408 0,99420 0,99431 0,99443 0,99454 0,99464 0,99475 0,99485 0,99496 0,99505 3,0 0,99505 0,99515 0,99525 0,99534 0,99543 0,99552 0,99561 0,99570 0,99578 0,99587 0,99595 3,1 0,99595 0,99603 0,99611 0,99618 0,99626 0,99633 0,99641 0,99648 0,99655 0,99662 0,99668 3,2 0,99668 0,99675 0,99681 0,99688 0,99694 0,99700 0,99706 0,99712 0,99717 0,99723 0,99728 3,3 0,99728 0,99734 0,99739 0,99744 0,99749 0,99754 0,99759 0,99764 0,99768 0,99773 0,99777 3,4 0,99777 0,99782 0,99786 0,99790 0,99795 0,99799 0,99803 0,99807 0,99810 0,99814 0,99818 3,5 0,99818 0,99821 0,99825 0,99828 0,99832 0,99835 0,99838 0,99842 0,99845 0,99848 0,99851 3,6 0,99851 0,99854 0,99857 0,99859 0,99862 0,99865 0,99868 0,99870 0,99873 0,99875 0,99878 3,7 0,99878 0,99880 0,99883 0,99885 0,99887 0,99889 0,99892 0,99894 0,99896 0,99898 0,99900 3,8 0,99900 0,99902 0,99904 0,99906 0,99908 0,99909 0,99911 0,99913 0,99915 0,99916 0,99918 3,9 0,99918 0,99920 0,99921 0,99923 0,99924 0,99926 0,99927 0,99929 0,99930 0,99932 0,99933 4,0 0,99933 0,99934 0,99936 0,99937 0,99938 0,99939 0,99941 0,99942 0,99943 0,99944 0,99945
  • 74. ______________________________________________________________________________ 71 _____________________________________________________________________________ Tables statistiques BIBLIOGRAPHIE Les Statistiques : une approche nouvelle. Donald H. Sanders ; A. Franklin Murph et Robert J. Eng. 2e édition. McGraw-Hill, Editeurs. Statistique et Probabilités. M. Laviéville. Dunod Université. Probabilité et statistique pour biologistes. F. Couty ; J. Debord et D. Fredon. Flash U. Armand Colin. Statistique : cours et exercices résolus . E. Azoulay et D. Cohen. Ediscience International. Théorie et méthodes statistiques. (Volumes 1 et 2) P. Dagnélie. Les Presses Agronomiques de Gembloux. Méthodes statistiques à l'usage des médecins et des biologistes. D. SChwartz Flammarion Medecine Sciences
  • 75. ______________________________________________________________________________ 72 _____________________________________________________________________________ Tables statistiques

×