• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Cours de proba stat 2012-2013
 

Cours de proba stat 2012-2013

on

  • 1,812 views

 

Statistics

Views

Total Views
1,812
Views on SlideShare
1,695
Embed Views
117

Actions

Likes
0
Downloads
151
Comments
0

1 Embed 117

http://campuscentre-hei.unilim.fr 117

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Cours de proba stat 2012-2013 Cours de proba stat 2012-2013 Document Transcript

    • ECOLE DES HAUTES ETUDES D’INGENIEUR Cycle général et de consolidation du projet professionnel Cycle Ingénieur - HEI 3 Statistique Cours Intervenants : Christian GODART, Fouad MEDJAHED, Jean-Marie NIANGA, Anthony RIDARDHEI Année 2012/2013 Tél : 03 28 38 48 5813, rue de Toul Télécopieur: 03 28 38 48 0459 046 Lille Cedex Site Internet : www.hei.fr E-mail : ecole@hei.fr
    • 2
    • Table des mati`res e1 Modes d’´chantillonnage et param`tres d’une population e e 5 1.1 Modes d’´chantillonnage . . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . 5 1.1.1 Sondage al´atoire simple . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . 5 1.1.2 Sondage en strates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Param`tres d’une population . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . 7 1.2.1 Moyenne et variance d’une variable al´atoire . . . . e . . . . . . . . . . . . . . . . . 7 1.2.2 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Estimation 9 2.1 Estimation ponctuelle et estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Loi Forte des Grands Nombres et applications . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Qualit´s d’un estimateur . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.2 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.4 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.5 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Tests statistiques 15 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1.1 Les faiseurs de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1.2 Quelques g´n´ralit´s . e e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2 Tests de conformit´ . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2.3 Proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 Tests de comparaison de deux ´chantillons e ind´pendants e . . . . . . . . . . . . . . . . . . . 19 3.3.1 Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.2 Variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.3 Proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4 Test d’ind´pendance du chi 2 e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5 Test d’ajustement du chi 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 R´gression lin´aire e e 23 4.1 A partir de toute la population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.1 Interpr´ter le nuage de points e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1.2 Construire le mod`le . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.1.3 Mesurer la qualit´ du mod`le e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.2 A partir d’un ´chantillon . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.1 Ce qui change . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2.2 Hypoth`ses du mod`le . . . . e e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2.3 Estimation des coefficients du mod`le e . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2.4 Tests de la nullit´ de la pente e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2.5 Intervalle de pr´vision . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3
    • 5 Analyse de variance 31 5.1 Un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.1.1 Hypoth`ses du mod`le . . . . . . . . . . . . . . e e . . . . . . . . . . . . . . . . . . . . 32 5.1.2 La m´thode de l’ANOVA . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . 32 5.2 R´gression lin´aire et analyse de variance ` un facteur e e a . . . . . . . . . . . . . . . . . . . . 33 5.2.1 Points communs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.2.2 Diff´rences . . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . 33 5.3 Deux facteurs (Excel uniquement) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3.1 Sans r´p´tition d’exp´rience . . . . . . . . . . . e e e . . . . . . . . . . . . . . . . . . . . 34 5.3.2 Avec r´p´tition d’exp´rience . . . . . . . . . . . e e e . . . . . . . . . . . . . . . . . . . . 35 Annexes 39 4
    • Chapitre 1Modes d’´chantillonnage et eparam`tres d’une population eSi la Statistique descriptive consiste en l’´tude d’une population toute enti`re d’individus selon un ou e eplusieurs caract`res, la Statistique inf´rentielle permet d’estimer ou de tester des caract´ristiques d’une e e epopulation de taille N ` partir d’un ´chantillon de taille n. Avant de pr´ciser ces caract´ristiques, nous a e e eallons pr´senter diff´rentes mani`res de pr´lever les ´chantillons. e e e e e1.1 Modes d’´chantillonnage e1.1.1 Sondage al´atoire simple eIl est important de rappeler que chaque individu d’une population est caract´ris´ par un ou plusieurs e ecaract`res appel´s aussi variables. On distingue deux types et quatre sous-types de variables. e e Figure 1.1 – Deux types et quatre sous-types de variablesAttention, une variable est une application (au sens math´matique du terme) qui, ` chaque individu, e aassocie une valeur (num´rique ou non). Si, en Math´matiques, l’usage est plutˆt d’appeler f, g ou h les e e oapplications, en Statistique celles-ci sont not´es X, Y ou Z. Les minuscules x, y ou z repr´sentent alors e eles r´alisations (valeurs) de ces variables (applications). Autrement dit, si l’on note ω un individu de la epopulation et X la variable ´tudi´e, alors X(ω) = x signifie que le caract`re X a pour valeur x pour e e el’individu ω. Si l’individu est choisi au hasard, la variable est dite al´atoire (va). e 5
    • Un n-´chantillon al´atoire est un n-uplet de variables al´atoires (X1 , ..., Xn ) qui, ` un n-uplet d’individus e e e achoisis au hasard dans la population (ω1 , ..., ωn ), associe le n-uplet de valeurs (x1 , ..., xn ) o` xi = X(ωi ). uRemarque.– On fera bien la diff´rence entre majuscules et minuscules pour ´viter toute confusion entre applications e e et valeurs.– Une variable al´atoire poss`de une loi de probabilit´ qui r´git son comportement. Si la variable est e e e e discr`te, la loi est d´finie par un diagramme en bˆtons qui, ` chaque valeur possible, associe sa e e a a probabilit´. Si la variable est continue, le diagramme est remplac´ par une courbe de densit´. e e eUn n-´chantillon al´atoire (X1 , ..., Xn ) est dit simple si les va sont ind´pendantes et de mˆme loi. Dans e e e ece cas, la loi est celle de la va ´tudi´e X. Cela se produit si les individus sont choisis au hasard : e e– soit avec remise n– soit sans remise (ou simultan´ment) ` condition que le taux de sondage N soit inf´rieur ` 10%. e a e aRemarque. Le premier cas est th´orique et le deuxi`me pratique. e e1.1.2 Sondage en stratesDans un sondage al´atoire simple, tous les ´chantillons d’une population de taille N sont possibles avec e ela mˆme probabilit´. On imagine que certain d’entre eux puissent s’av´rer a priori ind´sirables. e e e ePlus concr`tement, dans l’´tude du lancement d’un nouveau produit financier, on peut supposer des e ediff´rences de comportement entre les “petits” et les “gros” clients de la banque. Il serait malencontreux eque les hasards de l’´chantillonnage conduisent ` n’interroger que les clients appartenant ` une e a aseule de ces cat´gories, ou simplement que l’´chantillon soit trop d´s´quilibr´ en faveur de l’une e e ee ed’elles. S’il existe dans la base de sondage une information auxiliaire permettant de distinguer, apriori, les cat´gories de petits et gros clients, on aura tout ` gagner ` utiliser cette information pour e a ar´partir l’´chantillon dans chaque souspopulation. C’est le principe de la stratification : d´couper la e e epopulation en sous-ensembles appel´s strates et r´aliser un sondage al´atoire simple dans chacune d’elles. e e e Figure 1.2 – D´coupage en strates eNous avons alors deux mani`res de choisir les nh : e n n– allocation proportionnelle : ∀h, Nh = N h 1 nh SH– allocation optimale : ∀h, Nh = n N S . H H hDans toute la suite du cours, les ´chantillons al´atoires seront suppos´s simples (hypoth`se th´orique). e e e e e 1. On cherche la r´partition de l’´chantillon qui maximise la pr´cision (et donc qui minimise la variance). Pour cela, on e e eva augmenter les effectifs ´chantillonn´s dans les strates o` la variabilit´ est grande et diminuer les effectifs ´chantillonn´s e e u e e edans les strates homog`nes. e 6
    • 1.2 Param`tres d’une population e1.2.1 Moyenne et variance d’une variable al´atoire eSoit X la va ´tudi´e. e eNous avons d´j` vu qu’une va poss`de une loi de probabilit´ r´gissant son comportement, elle poss`de ea e e e eaussi deux caract´ristiques importantes : e– une caract´ristique de tendance centrale, l’esp´rance ou la moyenne, d´finie par 2 : e e e m = E(X) = xi P (X = xi ) i– une caract´ristique de dispersion, la variance, d´finie par : e e σ 2 = V (X) = E (X − m)2 σ= V (X) est l’´cart-type de X. eExemple (Loi de Bernoulli).La loi de Bernoulli B(p) est d´finie par : e P (X = 1) = p et P (X = 0) = q = 1 − pSon esp´rance et sa variance sont : e E(X) = p et V (X) = pqElle mod´lise une exp´rience al´atoire ` deux issues possibles : le succ`s de probabilit´ p et l’´chec de e e e a e e eprobabilt´ q = 1 − p. e1.2.2 ProportionOn s’int´resse tout simplement ` la proportion p c’est ` dire ` la part des individus dans une population e a a aposs´dant un certain caract`re. e eRemarque. Cette proportion p est en fait la moyenne de la va de Bernouilli qui, ` un individu, associe a1 s’il poss`de le caract`re d´sir´ et 0 sinon. e e e e 2. Dans le cas o` X est une va discr`te u e 7
    • 8
    • Chapitre 2Estimation2.1 Estimation ponctuelle et estimateurL’estimation consiste ` donner des valeurs approch´es aux param`tres d’une population (m, σ 2 , p) ` l’aide a e e ad’un ´chantillon de n observations issues de cette population. e2.1.1 Loi Forte des Grands Nombres et applicationsTh´or`me (LFGN). Si (X1 , ..., Xn ) est un ´chantillon de va ind´pendantes et de mˆme loi d’esp´rance e e e e e e n ¯ 1m, alors X = Xi m d`s que n est assez grand (≥ 30). e n i=1 ¯La LFGN nous assure que la moyenne empirique X “est” une application constante ´gale ` la moyenne e a e e ¯ ¯th´orique m d`s que n est assez grand. Toute r´alisation x de X est donc une estimation de m. On dit e ¯aussi que X est un estimateur de m. e ¯On notera bien ici la diff´rence entre l’estimateur X (en majuscule) qui est une va et l’estimation x ¯(en minuscule) qui est une valeur. C’est la mˆme diff´rence qu’entre l’application f et la valeur f (x) en e eMath´matiques ! e n 1 ¯De mˆme, la LFGN nous assure que la variance empirique S 2 = e (Xi − X)2 est un estimateur de la n i=1variance th´orique σ 2 . eEn utilisant la remarque faite pr´c´demment sur la proportion et la LFGN, on montre enfin que la e e n 1fr´quence empirique F = e Xi est un estimateur de la proportion p o` les Xi sont des Bernouilli de u n i=1param`tre p. eAttention, le mˆme param`tre peut ˆtre estim´ ` l’aide d’estimateurs diff´rents. Il convient donc de e e e e a ed´finir les qualit´s exig´es d’un estimateur pour choisir ”le meilleur”. e e e2.1.2 Qualit´s d’un estimateur eSoit θ le param`tre ` estimer et T un estimateur 1 . e aLa premi`re qualit´ d’un estimateur est d’ˆtre convergent : e e e lim T = θ n→+∞ 1. Va qui est fonction des observations Xi et dont la loi d´pend de θ(d´finition rigoureuse). e e 9
    • Deux estimateurs convergents ne convergent cependant pas n´cessairement ` la mˆme vitesse, on parle e a ealors de pr´cision. eSupposons maintenant la loi de probabilit´ de T connue pour une valeur donn´e de θ. e eL’erreur d’estimation T − θ est une va qui se d´compose de la mani`re suivante : e e T − θ = T − E(T ) + E(T ) − θT − E(T ) repr´sente les fluctuations al´atoires de T autour de sa valeur moyenne tandis que E(T ) − θ, e eappel´ biais, correspond ` une erreur syst´matique due au fait que T varie autour de sa valeur centrale e a eE(T ) et non autour de θ. Figure 2.1 – BiaisIl est donc souhaitable d’utiliser des estimateurs sans biais v´rifiant E(T ) = θ. e ¯Ainsi, X est un estimateur sans biais de m. ¯ ¯Attention, S 2 est biais´ 2 pour σ 2 . En effet, de Xi − m = Xi − X + X − m, on tire la d´composition : e e n 1 ¯ S2 = (Xi − m)2 − (X − m)2 n i=1et donc le biais : n−1 2 σ2 E(S 2 ) − σ 2 = σ − σ2 = − n nPour ne pas sous-estimer σ , on pr´f`rera souvent la variance corrig´e d’esp´rance σ 2 : 2 ee e e n S ∗2 = S2 n−1Attention, l’´cart-type corrig´ S ∗ reste biais´ pour σ mais asymptotiquement sans biais 3 . e e eLa pr´cision de T est quant ` elle souvent mesur´e par l’erreur quadratique moyenne E (T − θ)2 e a e qui 4se d´compose sous la forme : e 2 E (T − θ)2 = V (T ) + E(T ) − θDe deux estimateurs sans biais, le plus pr´cis est donc celui de variance minimale. e n 1Ainsi, l’estimateur D = (Xi − m)2 est meilleur que S ∗2 d`s que m est connue. e n i=1 2. Mais asymptotiquement sans biais ie lim (E(S 2 ) − σ 2 ) = 0 n→+∞ 3. Il n’existe pas d’expression g´n´rale donnant E(S ∗ ) pour toute distribution. e e 4. Il s’agit de la d´composition biais-variance e 10
    • 2.2 Estimation par intervalle de confiance e o ˆIl est souvent plus int´ressant de fournir un renseignement du type a < θ < b plutˆt que θ = c.2.2.1 PrincipeSoit T un estimateur de θ (le meilleur possible) dont on connaˆ la loi de probabilit´ 5 . ıt eEtant donn´e une valeur θ0 de θ (sa vraie valeur par exemple), d´terminer un intervalle de probabilit´ e e ede niveau 1 − α pour T revient ` chercher deux r´els t1 < t2 v´rifiant : a e e P (t1 < T < t2 |θ = θ0 ) = 1 − αOn peut traduire cette m´thode dans un plan (θ, T ) o` l’on trace t1 (θ) et t2 (θ) : e u Figure 2.2 – Estimation par intervallesOn lit alors l’intervalle de probabilit´ selon la verticale issue de θ0 et l’intervalle de confiance selon el’horizontale issue de t (r´alisation de T ). eSi l’on augmente le niveau de confiance 1 − α, les courbes s’´cartent et donc l’intervalle grandit. eSi la taille de l’´chantillon augmente, les courbes se rapprochent et donc l’intervalle diminue. e2.2.2 Loi normaleLa loi normale N (m, σ) a pour densit´ : e 2 1 1 x−m f (x) = √ exp − σ 2π 2 σSon esp´rance et sa variance sont : e E(X) = m et V (X) = σ 2 X −mDans le calcul des probabilit´s, on utilise le changement de variable U = e pour se ramener ` la a σloi normale centr´e r´duite N (0, 1) qui est tabul´e (cf Annexes). e e eEnfin, la somme de deux gaussiennes ind´pendantes est encore une gaussienne : e X1 ∼ N (m1 , σ1 ) 2 2 ⇒ X1 + X2 ∼ N m1 + m2 , σ1 + σ2 X2 ∼ N (m2 , σ2 ) 5. La loi peut, par exemple, ˆtre caract´ris´e par sa densit´ qui est fonction de θ e e e e 11
    • Exercice.On note X la note d’un candidat, choisi au hasard parmi tous les candidats ayant pass´ un examen, et el’on suppose que X ∼ (7, 2). 1. D´terminer la proportion de candidats ayant obtenu au moins 10/20. e 2. D´terminer le premier d´cile c’est ` dire la note en dessous de laquelle se situent 10% des candidats. e e a 3. Le but de cette question est de r´ajuster ` l’aide d’une transformation affine Y = aX + b (a et b e a ´tant des r´els positifs) les notes de la promotion de sorte que : e e – 50% des candidats aient obtenu au moins 10/20 – le premier d´cile soit ´gal ` 7 e e a (a) D´terminer la loi de Y en fonction de a et b. e (b) D´terminer un syst`me de deux ´quations en a et b issu des deux conditions et conclure. e e e2.2.3 MoyenneSupposons X ∼ N (m, σ) et estimons m.Quand σ est connu √¯ est le meilleur estimateur de m et X ∼ N (m, √ ) ou encore U = n (X − m) ∼ N (0, 1).X ¯ σ ¯ n σ e a e ¯L’intervalle de probabilit´ (` risques sym´triques) de X au niveau 1 − α est donc : σ ¯ σ m − u(1− α ) √ < X < m + u(1− α ) √ 2 n 2 n αo` u(1− α ) v´rifie 6 P (U < u(1− α ) ) = 1 − u e 2 2 2L’intervalle de confiance est alors : σ σ x − u(1− α ) √ < m < x + u(1− α ) √ ¯ ¯ 2 n 2 nQuand σ est inconnu √ n ¯On utilise ici le fait que T = (X − m) ∼ Tn−1 7 . S∗L’intervalle de probabilit´ (` risques sym´triques) de T au niveau 1 − α est donc : e a e −t(1− α ) < T < t(1− α ) 2 2 αo` t(1− α ) v´rifie 8 P (Tn−1 < t(1− α ) ) = 1 − u e 2 2 2L’intervalle de confiance est alors : s∗ s∗ x − t(1− α ) √ < m < x + t(1− α ) √ ¯ ¯ 2 n 2 n 6. L’utilisation de la table de la loi normale centr´e r´duite fournit par exemple u(1− α ) = 1, 96 pour 1 − α = 0, 95 e e 2 U 2 ind´pendantes 7. Tn = avec U ∼ N (0, 1) et X ∼ χn e X n 8. On utilise ici la table de la loi de Student (cf Annexes) 12
    • Quand l’´chantillon n’est plus gaussien eOn utilise le Th´or`me Central Limite : e eTh´or`me (TCL). Si (X1 , ..., Xn ) est un ´chantillon de va ind´pendantes et de mˆme loi d’esp´rance e e √ e e e e n ¯m et d’´cart-type σ, alors e (X − m) ∼ N (0, 1) d`s que n est assez grand (≥ 30). e σEn effet, si l’´chantillon n’est plus gaussien mais de grande taille (n > 30),√ TCL (accompagn´ du e le √ e n ¯ n ¯th´or`me de Slutsky pour le cas o` σ est inconnu) nous assure que les variables e e u (X −m) et ∗ (X −m) σ Ssuivent approximativement une N (0, 1) et donc ...2.2.4 VarianceSupposons X ∼ N (m, σ) et estimons σ 2 .Quand m est connue n 1 nDD= (Xi − m)2 est le meilleur estimateur de σ 2 et ∼ χ2 9 . n n i=1 σ2 nDL’intervalle de probabilit´ de e au niveau 1 − α est donc : σ2 nD kα < < k(1− α ) 2 σ2 2o` k α , k(1− α ) v´rifient 10 P (k α < χ2 < k(1− α ) ) = 1 − α u 2 2 e 2 n 2 Figure 2.3 – Densit´ du χ2 eL’intervalle de confiance est alors : nd nd < σ2 < k(1− α ) 2 kα 2Quand m est inconnue n 1 ¯ nS 2On utilise ici S 2 = (Xi − X)2 et le fait que ∼ χ2 . n−1 n i=1 σ2 nS 2L’intervalle de probabilit´ de e au niveau 1 − α est donc : σ2 nS 2 kα < < k(1− α ) 2 σ2 2 n 2 9. χ2 = n Ui avec les Ui ∼ N (0, 1) ind´pendantes e i=1 10. On utilise ici la table de la loi du χ2 (cf Annexes) 13
    • o` k α , k(1− α ) v´rifient P (k α < χ2 < k(1− α ) ) = 1 − α u 2 2 e 2 n−1 2L’intervalle de confiance est alors : ns2 ns2 < σ2 < k(1− α ) 2 kα 2Nota Bene. Ces intervalles ne sont valables que si X suit une loi normale.Exercice.En mesurant la quantit´ d’alcool (gr/l) contenue dans 10 cidres doux du march´, on obtient : e e 5, 42 − 5, 55 − 5, 61 − 5, 91 − 5, 93 − 6, 15 − 6, 20 − 6, 79 − 7, 07 − 7, 37Supposons que la quantit´ d’alcool suive une loi normale de moyenne µ et d’´cart-type σ. e e 1. D´terminer l’intervalle de confiance, au centi`me pr`s, pour µ au niveau 95% : e e e (a) Si σ = 0, 6 g/l. (b) Si σ est inconnu. 2. D´terminer l’intervalle de confiance, au centi`me pr`s, pour σ 2 au niveau 95% : e e e (a) Si µ = 6 g/l. (b) Si µ est inconnue.2.2.5 ProportionEtant donn´ une population infinie (ou finie si le tirage s’effectue avec remise) o` une proportion p des e uindividus poss`de un certain caract`re, il s’agit de trouver un intervalle de confiance pour p ` partir de e e ala fr´quence f obtenue dans un n-´chantillon. e eLe nombre d’individus nF poss´dant le caract`re ´tudi´ dans le n-´chantillon suit une loi binomiale e e e e eB(n, p) donc si n est grand, l’approximation d’une binomiale par une gaussienne fournit : nF ∼ N np, np(1 − p)ou encore p(1 − p) F ∼N p, nL’intervalle de probabilit´ (` risques sym´triques) de F au niveau 1 − α est donc : e a e p(1 − p) p(1 − p) p − u(1− α ) < F < p + u(1− α ) 2 n 2 n αo` u(1− α ) v´rifie 11 P (U < u(1− α ) ) = 1 − u e 2 2 2L’intervalle de confiance est alors : f (1 − f ) f (1 − f ) f − u(1− α ) < p < f + u(1− α ) 2 n 2 nExercice.Un groupe d’´tudiants d´sire effectuer un sondage aupr`s de la population ´tudiante pour estimer le e e e epourcentage d’adeptes du tabagisme.D´terminer la taille de l’´chantillon minimal pour assurer, au niveau 98%, une incertitude n’exc´dant e e epas 5%. 11. L’utilisation de la table de la loi normale centr´e r´duite fournit par exemple u(1− α ) = 1, 96 pour 1 − α = 0, 95 e e 2 14
    • Chapitre 3Tests statistiques3.1 Introduction3.1.1 Les faiseurs de pluieDes relev´s effectu´s pendant de nombreuses ann´es ont permis d’´tablir que le niveau naturel des e e e epluies dans la Beauce en millim`tres par an suit une loi normale N (600, 100). Des entrepreneurs, esurnomm´s faiseurs de pluie, pr´tendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci e epar ins´mination des nuages au moyen d’iodure d’argent. Leur proc´d´ fut mis ` l’essai entre 1951 et e e e a1959 et on releva les hauteurs de pluies suivantes : Ann´e e 1951 1952 1953 1954 1955 1956 1957 1958 1959 mm 510 614 780 512 501 534 603 788 650Que pouvait-on en conclure ? Deux hypoth`ses s’affrontaient : ou bien l’ins´mination ´tait sans effet, e e eou bien elle augmentait r´ellement le niveau moyen de pluie de 50 mm. Si m d´signe l’esp´rance e e emath´matique de X, variable al´atoire ´gale au niveau annuel de pluie, ces hypoth`ses pouvaient se e e e eformaliser comme suit : H0 : m = 600 mm H1 : m = 650 mmLes agriculteurs, h´sitant ` opter pour le proc´d´ forc´ment on´reux des faiseurs de pluie, tenaient ` e a e e e e al’hypoth`se H0 et il fallait donc que l’exp´rience puisse les convaincre. Ils choisirent α = 0, 05 comme e eniveau de probabilit´ autrement dit ils ´taient prˆts ` accepter H1 si le r´sultat obtenu faisait partie e e e a ed’une ´ventualit´ improbable qui n’avait que 5 chances sur 100 de se produire sous H0 . e eQuestion : pouvons-nous rejeter l’hypoth`se H0 (au profit de H1 ) ? e ¯Puisqu’il s’agit de tester la valeur de m, il est naturel d’utiliser la moyenne empirique X des observations.En fait, on utilise une variable, appel´e variable de d´cision, qui d´pend du param`tre ` tester m et dont e e e e ala loi sous H0 est tabul´e : e ¯ X − m0 T = σ ∼ N (0, 1) si H0 est vraie √ nSi T est trop grand, sup´rieur ` un seuil k qui n’a que 5 chances sur 100 d’ˆtre d´pass´ si H0 est vraie 1 , e a e e eon optera pour H1 avec une probabilit´ de se tromper ´gale ` 0,05. Par contre, si T < k, on conservera e e aH0 faute de preuves suffisantes.Ici, la table fournit : k = 1, 64La r`gle de d´cision est donc : e e 1. Ce raisonnement probabiliste est a comparer avec le raisonnement par l’absurde sauf que le r´sultat impossible est ` eici remplac´ par un r´sultat tr`s peu probable, et la n´gation de l’hypoth`se de d´part par l’hypth`se alternative H1 e e e e e e e 15
    • – Si T > 1, 64, on rejette H0 (et on accepte H1 )– Si T < 1, 64, on ne rejette pas H0L’ensemble d’´v´nements {T > 1, 64} s’appelle la r´gion critique (ou r´gion de rejet de H0 ). Son e e e ecompl´mentaire {T < 1, 64} s’appelle la r´gion d’acceptation de H0 . e e 610,2−600Ici, les donn´es relev´es indiquent que t = e e 100/3 = 0, 306 donc on ne rejette pas H0 . ¯Attention, on peut accepter H0 ` tort. En effet, on commet une erreur chaque fois que X prend une a X¯ − 650valeur inf´rieure ` 655, mais T = e a σ ∼ N (0, 1) si H1 est vraie donc on commet une erreur avec √ nune probabilit´ : e 655 − 650 β=P U< = P (U < 0, 15) = 0, 56 100/3α (resp. β) s’appelle le risque de premi`re (resp. deuxi`me) esp`ce. e e eIl convient enfin de remarquer le rˆle particulier jou´ par H0 : si la forme de la r´gion critique {T > k} o e eest indiqu´e par la nature de H1 (650 > 600), la valeur de k ne d´pend que de H0 . e e3.1.2 Quelques g´n´ralit´s e e eUn test est un m´canisme qui permet de trancher entre deux hypoth`ses au vu des r´sultats d’un e e e´chantillon.eEn notant H0 et H1 ces deux hypoth`ses, dont une et une seule est vraie, les quatre cas possibles sont erepr´sent´s dans le tableau suivant : e e XXX XXX V´rit´ H e e H1 0 D´cision e XXX X H0 1-α β H1 α 1-βα et β d´signent les probabilit´s d’erreur de premi`re et deuxi`me esp`ce : e e e e e– α est la probabilit´ de rejeter H0 ` tort e a– β est la probabilit´ de conserver H0 ` tort e aNotons que ces erreurs correspondent ` des risques diff´rents. Ainsi, dans l’exemple des faiseurs de pluie, a ele risque de premi`re esp`ce consiste ` acheter un proc´d´ d’ins´mination inefficace alors que le risque e e a e e ede deuxi`me esp`ce consiste ` perdre une occasion d’augmenter le niveau de pluie et donc d’obtenir une e e ar´colte plus abondante. eDans la pratique des tests statistiques, il est de r`gle de se fixer α ce qui fait jouer ` H0 un rˆle pr´´minent : e a o ee– H0 peut ˆtre une hypoth`se solidement ´tablie n’ayant jamais ´t´ contredite par l’exp´rience e e e ee e– H0 peut ˆtre une hypoth`se de prudence (l’innocuit´ d’un vaccin, l’innocence d’une personne) e e e– H0 peut ˆtre une hypoth`se ` laquelle on tient pour des raisons qui peuvent ˆtre subjectives e e a e– H0 peut ˆtre la seule hypoth`se facile ` formuler (m = m0 contre m = m0 ) e e aα ´tant fix´, β sera alors d´termin´ comme r´sultat d’un calcul (` condition que la loi de probabilit´ e e e e e a esous H1 soit connue). Notons cependant que β varie dans le sens contraire de α. En effet, diminuer αconduit ` une r`gle de d´cision plus stricte qui aboutit ` n’abandonner H0 que dans des cas rarissimes et a e e adonc ` conserver H0 bien souvent ` tort ce qui revient ` augmenter β ou encore ` diminuer la puissance a a a adu test 2 1 − β. 2. La m´thode de Neyman et Pearson permet de maximiser la puissance du test 1 − β pour une valeur donn´e de α en e echoisissant la variable de d´cision et la r´gion critique optimales e e 16
    • α ´tant fix´, il importe maintenant de choisir une variable de d´cision : variable dont la loi doit ˆtre e e e econnue sous H0 et bien entendu diff´rente sous H1 . eLa r´gion critique W est alors l’ensemble des valeurs de la variable de d´cision qui conduisent ` ´carter e e aeH0 (au profit de H1 ). Sa forme ´tant d´termin´e par la nature de H1 , sa d´termination exacte se fait en e e e e´crivant que :e P (W |H0 ) = α e e e ¯La r´gion d’acceptation ´tant son compl´mentaire W , on a : ¯ P (W |H0 ) = 1 − αPour r´sumer, voici la d´marche d’un test : e e 1. Choix de H0 et H1 2. D´termination de la variable de d´cision e e 3. D´termination de la forme de la r´gion critique selon H1 e e 4. D´termination exacte de la r´gion critique en fonction de α e e 5. Calcul de la valeur exp´rimentale de la variable de d´cision e e 6. Conclusion : rejet ou acceptation de H03.2 Tests de conformit´ e3.2.1 MoyenneSupposons X ∼ N (m, σ) et testons m.Quand σ est connu ¯ X − m0Sous H0 : m = m0 , la variable de d´cision T = e σ suit une N (0, 1). √ n H0 : m = m0Ainsi, pour le test , la r´gion critique est : e H1 : m = m1 avec m1 > m0 {T > k} o` k v´rifie P (U > k) = α u eou encore [u(1−α) ; +∞[ H0 : m = m0Remarque. Pour le test , la r´gion critique est encore [u(1−α) ; +∞[. e H1 : m > m0Exercice. Montrer que : H0 : m = m0 1. Pour le test , la r´gion critique est ] − ∞; −u(1−α) ]. e H1 : m < m0 H0 : m = m0 2. Pour le test , la r´gion critique est ] − ∞; −u(1− α ) ] ∪ [u(1− α ) ; +∞[. e H1 : m = m0 2 2Quand σ est inconnu ¯ X − m0Sous H0 : m = m0 , la variable de d´cision T = e S∗ suit une Tn−1 . √ n H0 : m = m0Ainsi, pour le test , la r´gion critique est : e H1 : m = m0 {|T | > k} o` k v´rifie P (|Tn−1 | > k) = α u eou encore ] − ∞; −t(1− α ) ] ∪ [t(1− α ) ; +∞[ 2 2 17
    • Nota Bene. Si l’´chantillon n’est plus gaussien mais de grande taille (n > 30), le TCL (accompagn´ e edu th´or`me de Slutsky pour le cas o` σ est inconnu) nous assure que T suit approximativement une e e uN (0, 1), et donc que les r´gions critiques sont les mˆmes que dans le cas o` l’´chantillon est gaussien e e u eavec σ connu.Exercice.Lors d’une enquˆte sur la dur´e de sommeil des enfants de 2 ` 3 ans dans un d´partement fran¸ais, on e e a e ca trouv´ une moyenne du temps de sommeil par nuit de 10,2 heures dans un groupe de 40 enfants avec eun ´cart type de 2,1 heures. La moyenne du temps de sommeil est de 11,7 heures chez les enfants de cet eaˆge.La dur´e du sommeil des enfants de ce d´partement est-elle significativement diff´rente des enfants de e e ecet ˆge ? a3.2.2 VarianceSupposons X ∼ N (m, σ) et testons σ.Quand m est connue nD 2Sous H0 : σ = σ0 , la variable de d´cision T = e 2 suit un χn . σ0 H0 : σ = σ0Ainsi, pour le test , la r´gion critique est : e H1 : σ > σ0 {T > k} o` k v´rifie P (χ2 > k) = α u e nou encore [k(1−α) ; +∞[Quand m est inconnue nS 2 (n − 1)S ∗2Sous H0 : σ = σ0 , la variable de d´cision T = e 2 = 2 suit un χ2 . n−1 σ0 σ0 H0 : σ = σ0Ainsi, pour le test , la r´gion critique est : e H1 : σ < σ0 {T < k} o` k v´rifie P (χ2 < k) = α u e n−1ou encore [0; kα ]Nota Bene. Si l’´chantillon n’est plus gaussien mais de grande taille (n > 30), la variable de d´cision e e S ∗2 − σ0 2T = suit approximativement une N (0, 1) et donc ... 2S ∗4 n−13.2.3 Proportion F − p0Sous H0 : p = p0 , la variable de d´cision T = e suit approximativement une N (0, 1). p0 (1−p0 ) nExercice.Sur un ´chantillon de 300 patients trait´s par un certain rem`de, 243 ont ´t´ gu´ris. e e e ee eLa proportion de gu´rison est-elle significativement diff´rente de 75% ? e e 18
    • 3.3 Tests de comparaison de deux ´chantillons ind´pendants e e3.3.1 MoyennesSoit deux ´chantillons gaussiens ind´pendants X1 ∼ N (m1 ; σ1 ) et X2 ∼ N (m2 ; σ2 ). e eAlors, sous H0 : m1 = m2 : ¯ ¯ X1 − X2– Si les variances sont connues, T = 2 2 suit une N (0, 1). σ1 σ2 n1 + n2 ¯ ¯ X1 − X2– Si les variances sont inconnues et suppos´es ´gales 3 , T = e e 2 2 suit une Tn1 +n2 −2 o` u Sp Sp n1 + n2 ∗2 ∗2 2 (n1 − 1)S1 + (n2 − 1)S2 Sp = est la variance de pool 4 n1 + n2 − 2 ¯ ¯ X1 − X2– Si les variances sont inconnues et suppos´es diff´rentes, T = e e ∗2 ∗2 suit une Tm o` u S1 S2 n1 + n2 2 S1 1 n1 −1 m= (1−c)2 avec c = 2 c2 S22 n1 −1 + n2 −1 S1 + n1 −1 n2 −1Nota Bene. Si les ´chantillons ne sont plus gaussiens mais de grandes tailles (n > 30), les variables ede d´cision suivent toutes approximativement une N (0, 1) et donc ... e3.3.2 Variances u ∗ ∗Soit deux ´chantillons gaussiens ind´pendants X1 ∼ N (m1 ; σ1 ) et X2 ∼ N (m2 ; σ2 ) o` S1 > S2 . e e 2 2Alors, sous H0 : σ1 /σ2 = 1 : D1– Si les esp´rances sont connues, T = e suit une loi de Fisher 5 F(n1 , n2 ). D2 S ∗2– Si les esp´rances sont inconnues, T = 1 suit une F(n1 − 1, n2 − 1). e ∗2 S2 2 2 H0 : σ1 /σ2 = 1Remarque. Le test ´tant ici e 2 2 , la r´gion critique est [f(1−α) ; +∞[. e H1 : σ1 /σ2 > 1Nota Bene. Si les ´chantillons ne sont plus gaussiens mais de grandes tailles (n > 30) et de distributions e ∗2 ∗2 S1 − S2unimodales pas trop dissym´triques, on consid`re la variable de d´cision T = e e e ∗4 ∗4 qui, sous 2S1 2S2 n1 −1 + n2 −1 2 2H0 : σ1 = σ2 , suit approximativement une N (0, 1) et donc ...Exercice.Les QI de 9 enfants d’un quartier d’une grande ville ont une moyenne de 107 avec un ´cart-type de 10. eLes QI de 12 enfants d’un autre quartier ont une moyenne de 112 avec un ´cart-type de 9. On suppose eque la variable al´atoire associ´e au QI suit une loi Normale. e eY a-t-il une diff´rence significative au seuil de 5% entre les QI moyens des 2 quartiers ? e 3. Le test de comparaison des esp´rances doit donc ˆtre pr´c´d´ par celui des variances e e e e e 2 4. Sp , apppel´e aussi variance combin´e, n’est rien d’autre que la moyenne des variances corrig´es des ´chantillons, e e e epond´r´es par les tailles des ´chantillons diminu´es de 1 e e e e χ2 /n 5. F (n, p) = n χ2 /p p 19
    • 3.3.3 ProportionsSoit deux ´chantillons ind´pendants o` F1 et F2 sont approximativement gaussiennes 6 . e e u F1 − F2 n1 f1 +n2 f2Alors, sous H0 : p1 = p2 , T = suit une N (0, 1) o` p = u ˆ n1 +n2 et donc ... p(1 − ˆ ˆ 1 p)( n1 + 1 n2 )3.4 Test d’ind´pendance du chi 2 eSoit deux variables X et Y et un n-´chantillon fournissant les effectifs observ´s Nij 7 . e e I J (Nij − Nij )2 tOn consid`re alors la distance D2 = e t entre les effectifs observ´s Nij et les effectifs e i=1 j=1 Nij t Ni. N.jth´oriques d’ind´pendances Nij = e e n , qui ne saurait ˆtre trop grande sous l’hypoth`se nulle e ed’ind´pendance. ePar ailleurs, D2 suit approximativement un χ2 t (I−1)(J−1) sous H0 d`s que nij ≥ 5 pour tout i, j. ePar cons´quent, la r´gion critique est [k(1−α) ; +∞[. e eExercice.Voici la pr´f´rence de 80 hommes et 70 femmes pour un type de vin. eeLes 150 couples observ´s permettent-ils de conclure que le type de vin pr´f´r´ est ind´pendant du sexe ? e eee e3.5 Test d’ajustement du chi 2Un test d’ajustement a pour objectif de tester si une distribution observ´e est mod´lisable par une loi e eth´orique discr`te ou discr´tis´e, c’est ` dire divis´e en k classes de probabilit´s p1 , p2 , · · · , pk . e e e e a e eSoit donc un n-´chantillon de cette loi th´orique fournissant les effectifs N1 , N2 , · · · , Nk de chaque classe. e e k (Ni − Nit )2On consid`re alors la distance D2 = e entre les effectifs observ´s Ni et les effectifs e i=1 Nitth´oriques d’ajustement Nit e = npi , qui ne saurait ˆtre trop grande sous l’hypoth`se nulle e eH0 : l’ajustement est correct.Par ailleurs, si la loi th´orique poss`de l param`tres ` estimer, D2 suit approximativement 8 un χ2 e e e a k−1−lsous H0 d`s que nt ≥ 5 pour tout i (un regroupement de classes permettra toujours de v´rifier ses e i econditions).Par cons´quent, la r´gion critique est [k(1−α) ; +∞[. e eExercice (Quel mod`le pour la dur´e de vie de la TX100 ?). e eL’objectif est d’ajuster l’histogramme des dur´es de vie observ´es par la densit´ de probabilit´ d’une loi e e e e 6. C’est le cas d`s que les ´chantillons sont de grande taille e e 7. Evidemment, Nij d´signe le nombre d’individus ayant la ie valeur pour X et la j e pour Y e 8. En r´alit´, si les estimations ne sont pas celles du maximum de vraisemblance effectu´es au moyen des k classes, la e e eloi limite de D2 n’est plus un χ2 mais reste comprise entre un χ2 2 k−1 et un χk−1−l 20
    • th´orique. On constate que l’histogramme est fortement dissym´trique avec un ´talement ` droite. Cette e e e aforme rappelle celle d’une loi exponentielle 9 .Le calcul de la distance d2 d’ajustement est d´taill´ dans le tableau suivant. e e 9. La loi exponentielle E(λ) a pour densit´ : e λe−λx sur [0, +∞[ f (x) = 0 ailleurs Si une va X suit E(λ), alors sa fonction de r´partition est d´finie par : e e x x F (x) = P (X ≤ x) = PX (] − ∞, x]) = f (x) dx = λe−λx dx = 1 − e−λx −∞ 0 Par suite, P (X ≥ x) = e−λx De plus, son esp´rance et sa variance sont : e 1 1 E(X) = et V (X) = 2 λ λ 21
    • 22
    • Chapitre 4R´gression lin´aire e eEn 1986, l’Organisation mondiale de la sant´ (OMS) a pr´sent´ les r´sultats d’une importante ´tude e e e e esur les facteurs de d´penses ´nerg´tiques des individus. Celle-ci indique que le m´tabolisme de base e e e edes individus d´pend de leurs poids, taille, sexe, ˆge, ´tat physiologique, r´gime alimentaire, activit´ e a e e ephysique et de l’absorption de certaines substances. Le tableau suivant indique seulement les valeurs dum´tabolisme de base et du poids de 20 individus. eLa r´gression du m´tabolisme par le poids r´alis´e par Excel fournit : e e e e 23
    • 4.1 A partir de toute la populationL’objectif est de montrer comment et sous quelles conditions il est possible de mod´liser une relation eentre deux variables quantitatives par une ´quation du type Y = f (X). La mod´lisation est effectu´e en e e e3 ´tapes : e– On construit le nuage de points pour, d’une part, infirmer ou confirmer l’intuition de d´pendance et, e d’autre part, d´terminer la forme du mod`le (nature de f : lin´aire, puissance, exponentielle, logistique) e e e– On construit le mod`le en utilisant la m´thode des moindres carr´es ordinaires (MCO) s’il est lin´aire e e e e (sinon, on effectue un changement de variables pour se ramener au cas lin´aire). e– On mesure la qualit´ du mod`le e e4.1.1 Interpr´ter le nuage de points eInd´pendance e Figure 4.1 – Absence de lien entre X et YD´pendances de formes diff´rentes e e Figure 4.2 – Quatre cas de d´pendance de formes diff´rentes e eNon corr´lation eDefinition (Covariance). Soit (X, Y ) un couple de va quantitatives, de moyennes respectives mX et mY ,pour lequel N couples d’observations (xi , yi ) ont ´t´ relev´s. La covariance du couple (X, Y ) est d´finie ee e epar : N 1 Cov(X, Y ) = (xi − mX )(yi − mY ) N i=1 24
    • Figure 4.3 – Interpr´tation du signe de la covariance eInterpr´tation du signe de la covariance : e– La covariance est un indicateur de monotonie : si la covariance est positive (resp. n´gative), alors X e et Y varient en g´n´ral dans le mˆme sens (resp. dans le sens contraire). e e e– Si la covariance est nulle ou presque nulle, alors il n’y a pas de tendance croissante ou d´croissante et e les variables sont dites non corr´l´es. ee– Attention, la covariance n’est pas un indicateur d’ind´pendance. e Figure 4.4 – Nuages ` covariance nulle aRemarque. Deux variables ind´pendantes sont non corr´l´es mais la r´ciproque est fausse. e ee eDefinition (Coefficient de corr´lation lin´aire). Soit (X, Y ) un couple de va quantitatives, d’´carts-types e e erespectifs σX et σY . Le coefficient de corr´lation lin´aire du couple (X, Y ) est d´fini par : e e e Cov(X, Y ) r= σX σY4.1.2 Construire le mod`le eNous nous pla¸ons dans le cas o` le nuage de points sugg`re une relation lin´aire entre deux variables X et c u e eY . Mod´liser la relation consiste ` chercher l’´quation d’une droite qui ajuste au mieux le nuage de points. e a eY est la variable expliqu´e (ou d´pendante) et X la variable explicative (ou ind´pendante). e e eUne relation du type y = ax + b d´finit une droite. R´aliser une r´gression lin´aire de Y en X consiste e e e ea` rechercher la meilleure droite d’ajustement, ` condition de d´finir ce que l’on entend par “meilleure”, a ec’est ` dire ` condition de choisir un crit`re d’optimisation. a a e N NEn fait, on cherche a et b qui minimisent : (yi − yi )2 = ˆ (yi − axi − b)2 = f (a, b). i=1 i=1La r´solution du syst`me correspondant ` l’annulation des deux d´riv´es partielles de f fournit : e e a e eProposition. La droite de r´gression de Y en X d’´quation y = ax + b est telle que : e e ˆ 25
    • – La moyenne des valeurs ajust´es de Y est ´gale ` la moyenne des valeurs observ´es de Y : e e a e N N 1 1 yi = ˆ yi N i=1 N i=1– La pente a v´rifie : e Cov(X, Y ) a= V ar(X)– La droite de r´gression des MCO passe par le point moyen G de coordonn´es (mX , mY ) donc e e b = mY − amX Figure 4.5 – Valeurs ajust´es de Y et r´sidus e eRemarque. De nombreux mod`les non lin´aires se ram`nent au mod`le lin´aire : e e e e e β– Le mod`le puissance Y = αX se ram`ne ` e e a Y = ln α + βX avec Y = ln Y et X = ln X– Le mod`le exponentielle Y = αeβX se ram`ne ` e e a Y = ln α + βX avec Y = ln Y eα+βX– Le mod`le logistique Y = e se ram`ne ` e a 1 + eα+βX Y Y = α + βX avec Y = ln 1−Y4.1.3 Mesurer la qualit´ du mod`le e eL’objectif est de construire un indicateur capable de quantifier, a posteriori, la qualit´ de la droite de er´gression. L’id´e consiste ` d´composer la variance de la variable expliqu´e Y . e e a e e 26
    • Figure 4.6 – D´composition des ´carts entre les valeurs observ´es de Y et leur moyenne e e eDe la d´composition yi − mY = (yi − yi ) + (ˆi − mY ), on tire apr`s calculs : e ˆ y e N N N (yi − mY )2 = i=1 (yi − yi )2 ˆ + i=1 (ˆi y − mY )2 ˆ i=1 Somme des Carr´s Totaux = e Somme des Carr´s Expliqu´s + e e Somme des Carr´s R´siduels e e SCT = SCE + SCREn divisant par N , il vient : N N N 1 N (yi − mY )2 = 1 N i=1 (yi − yi )2 ˆ + 1 N i=1 (ˆi y − mY )2 ˆ i=1 Variance totale de Y = Variance Expliqu´e + e Variance R´siduelle e V ar(Y ) = VE + VREnfin, nous avons :Proposition. Le carr´ du coefficient de corr´lation lin´aire, appel´ coefficient de d´termination, v´rifie : e e e e e e VE r2 = V ar(Y )Le coefficient de d´termination est donc ´gal ` la part de la variance totale de Y expliqu´e par la e e a er´gression. Si les points observ´s sont parfaitement align´s sur une droite, la variance r´siduelle est nulle e e e eet r2 vaut 1. Plus le coefficient de d´termination est ´lev´, plus la qualit´ du mod`le lin´aire est bonne e e e e e e4.2 A partir d’un ´chantillon e4.2.1 Ce qui changePr´c´demment, nous avons pos´es deux hypoth`ses simplificatrices : e e e e– On a suppos´ que l’int´gralit´ de la population ´tait connue ce qui conduit ` consid´rer les coefficients e e e e a e a et b de la r´gression comme ´tant les coefficients “r´els” et non des estimations. e e e– On a fait comme si la variable d´pendante Y ´tait int´gralement expliqu´e par la variable explicative e e e e X ce qui revient ` supposer que pour un xi donn´, il existe un unique yi . a eIci, le mod`le de r´gression lin´aire est analys´ en relˆchant ces deux hypoth`ses. Ainsi, le raisonnement e e e e a etitent compte ` pr´sent de l’incertitude ` deux niveaux : a e a– Celle li´e ` l’´chantillonnage. e a e– Celle li´e au fait que tous les facteurs explicatifs n’´tant jamais pris en compte, il convient de rajouter e e au mod`le un terme al´atoire d’erreur E ce qui revient ` supposer que pour un xi donn´, il est possible e e a e d’obtenir diff´rents yi . e 27
    • 4.2.2 Hypoth`ses du mod`le e e Figure 4.7 – Hypoth`ses de la r´gression lin´aire simple e e eOn suppose que pour chaque essai i de 1 ` n, on a : Yi = αxi + β + Ei o` : a u– Ei est une va appel´e ´galement terme d’erreur de r´alisations ei e e e– Yi est la r´ponse al´atoire attendue pour l’essai i, de r´alisations yi e e e– xi est la r´alisation du facteur explicatif X pour l’essai i e– n est la taille de l’´chantillon eRemarque. Les n observations (xi , yi ) v´rifient donc yi = αxi + bβ + ei . eLes hypoth`ses sur les termes d’erreur Ei sont : e– Les Ei sont des va d’esp´rance nulle et de mˆme variance 1 σE . e e 2– Les erreurs Ei sont ind´pendantes. e 2– Les erreurs Ei sont des va gaussiennes : Ei ∼ N (0; σE ).Remarque. Cette derni`re hypoth`se de normalit´ des erreurs entraˆ que les Yi sont aussi des va e e e ıne 2gaussiennes : Yi ∼ N (αxi + β; σE ).4.2.3 Estimation des coefficients du mod`le eL’objectif est d’utiliser le mod`le de r´gression E(Y |X = x) = αx + β pour faire de la pr´vision. On e e es’appuie pour cela sur le r´sultat suivant : eProposition.L’estimateur des MCO de α est : N 1 ¯ ¯ (Xi − X)(Yi − Y ) N i=1 A= N 1 ¯ (Xi − X)2 N i=1L’estimateur des MCO de β est : ¯ ¯ B = Y − AXL’estimateur des MCO du coefficient de d´termination r2 est : e SCE R2 = SCT N No` SCE = u ˆ ¯ (Yi − Y )2 et SCT = ¯ (Yi − Y )2 . i=1 i=1 1. La propri´t´ d’´galit´ des variances est connue sous le nom d’hypth`se d’homosc´dasticit´ e e e e e e e 28
    • 4.2.4 Tests de la nullit´ de la pente eMˆme si l’estimation de α est non nulle, il est n´cessaire de savoir si sa diff´rence avec 0 est significative. e e eTest de Student H0 : α = 0 A−αPour cela, on peut r´aliser le test bilat´ral e e avec la variable de d´cision e Sa qui suit Tn−2 H1 : α = 0 2 SE u 2o` Sa = nSX2 est un estimateur de V ar(A).Test de Fisher SCE H0 : SCR/(n−2) =1On peut aussi r´aliser le test unilat´ral e e SCE avec la variable de d´cision e H1 : SCR/(n−2) >1 SCE R2SCR/(n−2) = (1−R2 )/(n−2) qui suit F(1; n − 2) sous H0 (´quivalente ` α = 0). e aEn effet, on montre que : 2– Si H0 est vraie (α = 0), alors SCR/(n − 2) et SCE sont deux estimateurs non biais´s de σE . e 2– Si H0 est fausse (α = 0), alors SCR/(n − 2) reste sans biais mais SCE surestime σE .4.2.5 Intervalle de pr´vision e ˆ ˆNotons Y0 = Y |(X = x0 ) et Y0 = Y |(X = x0 ) o` x0 est une valeur non observ´e de X. u eOn montre alors que ˆ Y0 − Y0 ∼ Tn−2 1 (x0 −¯)2 x SE 1+ n + ns2XPar cons´quent, l’intervalle de pr´vision pour y0 , de confiance 2 1 − α, est : e e 1 (x0 − x)2 ¯ y0 ± t1− α sE ˆ 1+ + 2 n ns2X 2. Ne pas confondre le α pr´cisnat le niveau de confiance et la pente de droite de r´gression e e 29
    • 30
    • Chapitre 5Analyse de varianceL’analyse de la variance utilise un vocabulaire sp´cifique : les variables qualitatives susceptibles d’influer esur la distribution de la variable quantitative ´tudi´e sont appel´es facteurs (ou facteurs de variabilit´) e e e eet leurs modalit´s niveaux ou cat´gories. e e5.1 Un facteurUne importante entreprise agro-alimentaire cherche ` optimiser le rendement de ses plantations de ma¨ a ıs.Trois vari´t´s de ma¨ sont test´es et plant´es sur dix parcelles de deux hectares. Le tableau suivant ee ıs e eindique les rendements obtenus. Le responsable de l’´tude se demande si la vari´t´ de ma¨ a une influence e ee ıssur le rendement. Pour identifier une ´ventuelle influence, le probl`me est simplifi´ : il s’agit de tester si e e ele rendement moyen est diff´rent selon la vari´t´ de ma¨ utilis´e. e ee ıs eL’ANOVA ` un facteur r´alis´e par Excel fournit : a e e 31
    • 5.1.1 Hypoth`ses du mod`le e eL’analyse de la variance fait intervenir une variable quantitative mesur´e sur plusieurs populations. eChaque population correspond ` un niveau (une modalit´) du facteur explicatif envisag´. a e eLes notations utilis´es sont les suivantes : e– k va Xi (i allant de 1 ` k), d’esp´rance mi et d’´cart-type σi . Les va Xi sont d´finies dans les mˆmes a e e e e termes mais sont mesur´es sur k populations Pi . e– On tire un ´chantillon de taille ni dans chaque population Pi . Ainsi, (Xi1 , ..., Xini ) est un ni -´chantillon e e issu de Xi . k– L’effectif total des ´chantillons est n = e ni . i=1 H0 : m1 = ... = mkOn teste H1 : au moins deux des esp´rances sont diff´rentes e eIl convient ici de remarquer que si l’hypoth`se nulle est retenue ` l’issue du test, on consid`re que la e a evariable qualitative (le facteur) d´finissant les populations n’a pas d’influence sur la variable quantitative. eLes va Xi sont suppos´es ind´pendantes et pour tout i, Xi ∼ N (mi ; σ) o` σ 2 est la variance commune e e udes populations.5.1.2 La m´thode de l’ANOVA eLa variance commune σ 2 joue un rˆle fondamental car la m´thode de l’ANOVA (ANalysis Of VAriance) o eutilise deux estimations de cette variance. Les deux estimateurs correspondants sont construits ci-apr`s. eLe premier repose sur la variabilit´ des observations ` l’int´rieur de chaque ´chantillon, le second mesure e a e ela variablit´ des moyennes entre les ´chantillons. e eEstimation de la variance commune par la variance intra-´chantillon eLa variance intra-´chantillon est d´finie par : e e k ni ¯ (Xij − Xi )2 ∗2 ∗2 (n1 − 1)S1 + ... + (nk − 1)Sk i=1 j=1 SCE V arintra = = = (n1 + ... + nk ) − k n−k n−kC’est un estimateur non biais´ de la variance commune σ 2 des populations. eRemarque. SCE d´signe la Somme des Carr´s des Erreurs e eEstimation de la variance commune par la variance inter-´chantillon eLa variance inter-´chantillon est d´finie par : e e k ¯ ¯ ni (Xi − X)2 i=1 SCIe V arinter = = k−1 k−1 k ni u ¯o` X = 1 n Xij est la moyenne empirique g´n´rale. e e i=1 j=1Sous H0 , c’est un estimateur non biais´ de la variance commune σ 2 des populations. eVariable de d´cision eSous H0 , la variable de d´cision SCIe /(k−1) suit F(k − 1; n − k) et le test est unilat´ral ` droite (cf. test e SCE/(n−k) e ade Fisher en r´gression lin´aire). e e 32
    • 5.2 R´gression lin´aire et analyse de variance ` un facteur e e a5.2.1 Points communsL’objectif de fond des deux analyses est d’identifier des facterus explicatifs (et donc des leviers d’actions)de la variabilit´ d’une variable quantitative. ePar ailleurs, les deux approches reposent sur la d´composition de la somme des carr´s totaux : e e– Pour la r´gression, la d´composition SCT = SCR + SCE est obtenue ` l’aide de : e e a ¯ ˆ ˆ ¯ Yi − Y = (Yi − Yi ) + (Yi − Y )– Pour l’ANOVA, la d´composition SCT = SCE + SCIe est obtenue ` l’aide de : e a ¯ ¯ ¯ ¯ Xij − X = (Xij − Xi ) + (Xi − X)Les correspondances de notations entre la r´gression et l’ANOVA ` un facteur sont consign´es dans le e a etableau suivant :5.2.2 Diff´rences eLes diff´rences de fond portent sur la nature des variables explicatives, ce qui a des r´percutions sur la e eforme des r´sultats finaux. ePour la r´gression, la variable explicative X est quantitative. Le fait de disposer de n couples ed’observations ` valeurs num´riques (xi , yi ) permet d’envisager la mod´lisation du lien (s’il existe) entre a e ela variable expliqu´e Y et la variable ind´pendante X par une fonction lin´aire dont on cherche l’´quation. e e e eLes hypoth`ses du mod`le portent sur les termes d’erreur Ei . L’analyse de r´gression conduit ` : e e e a– confirmer ou infirmer l’hypoth`se d’un effet de la variable explicative sur les variations de la variable e expliqu´e e– donner, s’il y a lieu, l’´quation de la fonction qui lie les deux variables e– tester a posteriori la qualit´ du mod`le e e– utiliser le mod`le pour effectuer des pr´visions e e Figure 5.1 – Principales caract´ristiques de la r´gression e e 33
    • Pour l’ANOVA, la variable explicative, appel´e facteur, est qualitative. On dispose de n observations exij o` l’indice i identifie le niveau (la modalit´) du facteur explicatif. Le caract`re qualitatif du facteur u e eexplicatif exclut toute tentative de mod´lisation par une fonction math´matique de l’influence ´ventuelle e e eentre le facteur de variabilit´ et la variable espliqu´e X. Les hypoth`ses du mod`le portent sur les va e e e eXi . L’analyse de la variance conduit ` confirmer ou infirmer l’hypoth`se d’´galit´ des esp´rances mi des a e e e eva Xi . Autrement dit, ` retenir ou non l’hyptoh`se d’un impact statistiquement discernable du facteur a eexplicatif sur les variations de la variable expliqu´e. e Figure 5.2 – Principales caract´ristiques de l’ANOVA e5.3 Deux facteurs (Excel uniquement)5.3.1 Sans r´p´tition d’exp´rience e e eUne chaˆ d’hypermarch´s vient d’installer, ` titre d’essai, dans cinq magasins quelques caisses ıne e aautomatiques, c’est ` dire des caisses o` les clients enregistrent eux-mˆmes le montant de leur achat. a u eTrois m´thodes sont ` comparer : la caisse traditionnelle avec une caissi`re, la caisse automatique sans e a eassistance et la caisse automatique avec l’assistance d’une hˆtesse. Dans le tableau suivant, chaque oobservation est sp´cifique ` une m´thode et un magasin. La grandeur mesur´e en secondes est le temps e a e ede passage aux caisses. La question est de savoir s’il est l´gitime d’´tendre la pratique des caisses e eautomatiques. Le seuil des tests est fix´ ` 5% et les temps de passage sont suppos´s gaussiens. ea e 34
    • L’ANOVA ` deux facteurs sans r´p´tition d’exp´rience r´alis´e par Excel fournit : a e e e e e5.3.2 Avec r´p´tition d’exp´rience e e eLes serveurs des d´bits de boissons ont pour coutume d’effectuer des rotations entre la salle, la terrasse eet le bar. Ces rotations de services ont lieu, suivant les ´tablissements, ` la journ´e ou de mani`re e a e ehebdomadaire. Cette tradition a pour but de ne pas d´savantager les serveurs entre eux, car ceux- eci sont en g´n´ral r´mun´r´s ` un taux fixe appliqu´ ` leur chiffre d’affaires. Le patron d’un d´bit de e e e ee a e a eboissons s’interroge sur l’opportunit´ de ces rotations. Il pense par ailleurs qu’un second facteur explicatif edes diff´rences de salaires de ses employ´s est li´ ` leur exp´rience. Pour ´tudier la pertinence de son e e e a e eintuition, il rel`ve les donn´es pr´sent´es dans le tableau suivant. e e e eLe probl`me est de d´terminer s’il existe des diff´rences de chiffres d’affaires en tenant compte de deux e e efacteurs (le “lieu de travail” et le “niveau d’exp´rience”). Pour d´tecter d’´ventuelles interactions entre e e eces deux variables explicatives, deux mesures ont ´t´ relev´es pour chaque ´chantillon et chaque cat´gorie. ee e e eL’ANOVA ` deux facteurs avec r´p´tition d’exp´rience r´alis´e par Excel fournit : a e e e e e 35
    • 36
    • Annexes 37
    • Tables Statistiques usuelles Table 1 Loi Binomiale P ( X = k ) = C n p k (1 − p) n − k k (k le nombre d’occurrences parmi n)
    • Loi Binomiale (suite) P ( X = k ) = C n p k (1 − p) n − k k(k le nombre d’occurrences parmi n)
    • Loi Binomiale (suite) P ( X = k ) = C n p k (1 − p) n − k k(k le nombre d’occurrences parmi n)
    • Table 2 Loi de Poisson µk P( X = k ) = e − µ k!(µ le nombre d’occurrences moyen)
    • Table 3 Loi Normale Centrée RéduiteFonction de répartition F(z)=P(Z<z)
    • Table 4Loi de Student
    • Table 5 Loi du χ 2 P ( χν2 ≥ χν2,α ) = αPour ν > 30, La loi du χ2 peut –être approximée par la loi normale N(ν , ν )
    • Table 6 Loi de Fisher FP ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α
    • Loi de Fisher F (suite)P ( Fν 1 ,ν 2 < fν 1 ,ν 2 ,α ) = α