NOISE: Statistiques exploratoires avec R

  • 1,771 views
Uploaded on

Slides of my R class at Université Paris Dauphine (in French)

Slides of my R class at Université Paris Dauphine (in French)

More in: Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,771
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
48
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Christian P. Robert Universit´ Paris Dauphine e http://www.ceremade.dauphine.fr/~xian L3 MI2E, 2009–2010
  • 2. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Outline 1 Simulation de variables al´atoires e 2 M´thodes de Monte Carlo e 3 M´thode du bootstrap e 4 Statistique non–param´trique e
  • 3. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Chapitre 1 : Simulation de variables al´atoires e Introduction G´n´rateur pseudo-al´atoire e e e Distributions non-uniformes (1) Distributions non-uniformes (2)
  • 4. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e
  • 5. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap]
  • 6. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e
  • 7. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e Approcher une esp´rance/int´grale sous une loi non-standard e e [loi des grands nombres]
  • 8. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Introduction Besoin de “produire le hasard” par ordinateur Evaluer le comportement d’un syst`me complexe (programme, e r´seau, file d’attente, syst`me de particules, atmosph`re, e e e ´pid´mie, actions...) e e D´terminer les propri´t´s probabilistes d’une proc´dure e ee e statistique non-standard ou sous une loi inconnue [bootstrap] Validation d’un mod`le probabiliste e Approcher une esp´rance/int´grale sous une loi non-standard e e [loi des grands nombres] Maximiser une fonction/vraisemblance faiblement r´guli`re e e
  • 9. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (TCL pour la loi binomiale) Si Xn ∼ B(n, p) , Xn converge en loi vers la loi normale : √ n→∞ p(1 − p) n (Xn − p) N 0, n
  • 10. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction n= 4 n= 8 n= 16 10 15 20 25 20 30 15 20 10 10 5 5 0 0 0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 n= 32 n= 64 n= 128 14 10 15 20 25 15 0 2 4 6 8 10 10 5 5 0 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.35 0.40 0.45 0.50 0.55 0.60 0.65 n= 256 n= 512 n= 1024 30 10 20 30 40 50 5 10 15 20 25 20 5 10 0 0 0 0.40 0.45 0.50 0.55 0.60 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.46 0.48 0.50 0.52 0.54
  • 11. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire) e On consid`re la fonction e h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x) + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) , ` minimiser. a
  • 12. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire) e On consid`re la fonction e h(x, y) = (x sin(20y) + y sin(20x))2 cosh(sin(10x)x) + (x cos(10y) − y sin(10x))2 cosh(cos(20y)y) , ` minimiser. (On sait que le minimum global vaut 0 en a (x, y) = (0, 0).)
  • 13. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction 6 5 Z 34 21 0 1 0.5 1 0.5 0 Y 0 X -0.5 -0.5 -1 -1
  • 14. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire (2)) e Au lieu de chercher ` r´soudre les ´quations du premier ordre a e e ∂h(x, y) ∂h(x, y) = 0, =0 ∂x ∂y et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite a e e e al´atoire dans R e 2 αj θj+1 = θj + ∆h(θj , βj ζj ) ζj 2βj
  • 15. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Example (Minimisation al´atoire (2)) e Au lieu de chercher ` r´soudre les ´quations du premier ordre a e e ∂h(x, y) ∂h(x, y) = 0, =0 ∂x ∂y et ` v´rifier les conditions du second ordre, on peut g´n´rer la suite a e e e al´atoire dans R e 2 αj θj+1 = θj + ∆h(θj , βj ζj ) ζj 2βj o` u ⋄ les ζj sont uniformes sur le cercle unit´ x2 + y 2 = 1; e ⋄ ∆h(θ, ζ) = h(θ + ζ) − h(θ − ζ); ⋄ (αj ) et (βj ) tendent vers 0
  • 16. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction 0.8 0.6 0.4 0.2 -0.2 0.0 0.2 0.4 0.6 Cas o` αj = 1/10 log(1 + j) et βj = 1/j u
  • 17. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes
  • 18. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e
  • 19. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e Recherche du coˆt global u minimum
  • 20. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me du voyageur de commerce e Probl`me classique d’allocation: e Repr´sentant devant visiter e un ensemble de n villes Coˆts de voyages entre deux u villes fix´s [et diff´rents] e e Recherche du coˆt global u minimum
  • 21. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs
  • 22. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs Nombre de chemins possibles n! et solutions exactes disponibles en temps O(2n )
  • 23. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me NP-complet e Probl`me du voyageur de e commerce repr´sentatif de e probl`mes math´matiques e e durs ` temps de r´solution a e explosifs Nombre de chemins possibles n! et solutions exactes disponibles en temps O(2n ) Probl`me ` nombreuses e a applications (r´seaux, e conception de circuits imprim´s, s´quen¸age de e e c g´nome, etc.) e Concours Procter & Gamble 1962
  • 24. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me toujours ouvert e Solution exacte pour 15, 112 villes allemandes trouv´e en 2001 e en 22.6 ann´es CPU. e
  • 25. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Probl`me toujours ouvert e Solution exacte pour 15, 112 R´solution pour les 24, 978 villes e villes allemandes trouv´e en 2001 e su´doises en 2004 en 84.8 ann´es e e en 22.6 ann´es CPU. e CPU
  • 26. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u
  • 27. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u
  • 28. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u Acceptation du nouveau circuit avec probabilit´ e C0 − C exp ∧1 T
  • 29. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction R´solution par simulation e Algorithme du recuit simul´: e R´p´ter e e Modifications al´atoires de parties du circuit de coˆt C0 e u Evaluation du coˆt C du nouveau circuit u Acceptation du nouveau circuit avec probabilit´ e C0 − C exp ∧1 T T , temp´rature, est r´duite progressivement. e e [Metropolis, 1953]
  • 30. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 1.2
  • 31. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.8
  • 32. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.4
  • 33. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Illustration Example (400 villes) T = 0.0
  • 34. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e
  • 35. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e Example (Options europ´ennes) e Cas o` u CT = (ST − K)+ avec ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p .
  • 36. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options Calcul complexe d’esp´rances/valeurs moyennes d’options, E[CT ], e n´cessaire pour ´valuer le prix d’achat (1 + r)−T E[CT ] e e Example (Options europ´ennes) e Cas o` u CT = (ST − K)+ avec ST = S0 × Y1 × · · · × YT , Pr(Yi = u) = 1 − Pr(Yi = d) = p . R´solution par simulation des binomiales Yi e
  • 37. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options (suite) Example (Options asiatiques) Mod`le en temps continu o` e u + T + T 1 1 CT = S(t)dt − K ≈ S(n) − K , T 0 T n=1 avec iid S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) .
  • 38. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Introduction Pricing d’options (suite) Example (Options asiatiques) Mod`le en temps continu o` e u + T + T 1 1 CT = S(t)dt − K ≈ S(n) − K , T 0 T n=1 avec iid S(n + 1) = S(n) × exp {∆X(n + 1)} , ∆X(n) ∼ N (0, σ 2 ) . R´solution par simulation des normales ∆Xi e
  • 39. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1)
  • 40. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1) Definition (G´n´rateur pseudo-al´atoire) e e e Un g´n´rateur pseudo-al´atoire est une transformation e e e d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur e initiale u0 et tout n, la suite {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )} a le mˆme comportement statistique qu’une suite iid U (0, 1) e
  • 41. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e G´n´rateur pseudo-al´atoire e e e El´ment central des m´thodes de simulation : elles reposent toutes e e sur la transformation de variables uniformes U (0, 1) Definition (G´n´rateur pseudo-al´atoire) e e e Un g´n´rateur pseudo-al´atoire est une transformation e e e d´terministe Ψ de ]0, 1[ dans ]0, 1[ telle que, pour toute valeur e initiale u0 et tout n, la suite {u0 , Ψ(u0 ), Ψ(Ψ(u0 )), . . . , Ψn (u0 )} a le mˆme comportement statistique qu’une suite iid U (0, 1) e ¡Paradoxe! Sans appel au “hasard”, la suite d´terministe e (u0 , u1 = Ψ(u0 ), . . . , un = Ψ(un−1 )) doit ressembler ` une suite al´atoire a e
  • 42. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En R, appel ` la proc´dure a e runif( ) Description: ‘runif’ generates random deviates. Example: u = runif(20) ‘Random.seed’ is an integer vector, containing the random number generator (RNG) state for random number generation in R. It can be saved and restored, but should not be altered by the user.
  • 43. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e 0.0 0.2 0.4 0.6 0.8 1.0 500 520 540 560 580 600 uniform sample 1.5 1.0 0.5 0.0 0.0 0.2 0.4 0.6 0.8 1.0
  • 44. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En C, appel ` la proc´dure a e rand() / random() SYNOPSIS # include <stdlib.h> long int random(void); DESCRIPTION The random() function uses a non-linear additive feedback random number generator employing a default table of size 31 long integers to return successive pseudo-random numbers in the range from 0 to RAND MAX. The period of this random generator is very large, approximately 16*((2**31)-1). RETURN VALUE random() returns a value between 0 and RAND MAX.
  • 45. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e En Scilab, appel ` la proc´dure a e rand() rand() : with no arguments gives a scalar whose value changes each time it is referenced. By default, random numbers are uniformly distributed in the interval (0,1). rand(’normal’) switches to a normal distribution with mean 0 and variance 1. rand(’uniform’) switches back to the uniform distribution EXAMPLE x=rand(10,10,’uniform’)
  • 46. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e Example (G´n´rateur usuel) e e Le g´n´rateur congruenciel e e D(x) = (ax + b) mod (M + 1). est de p´riode M pour les bons choix de (a, b) et se transforme en e g´n´rateur sur ]0, 1[ par division par M + 2. e e v = u*69069069 (1) 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 0.8 0.6 t+1 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t 1.0 1.0 0.8 0.8 0.6 0.6 t+10 t+5 0.4 0.4 0.2 0.2 0.0 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 t t
  • 47. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e G´n´rateur pseudo-al´atoire e e e Conclusion : Utiliser la fonction appropri´e sur l’ordinateur ou le logiciel en e service plutˆt que de construire un g´n´rateur al´atoire de o e e e mauvaise qualit´ e
  • 48. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e
  • 49. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e
  • 50. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e Preuve. On a −1 P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x)
  • 51. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres distributions que la loi uniforme (1) Probl`me r´gl´ en principe puisque e e e Theorem (Inversion g´n´rique) e e Si U est une variable al´atoire uniforme sur [0, 1) et FX est la e −1 fonction de r´partition de la variable X, FX (U ) a mˆme loi que X e e Preuve. On a −1 P (FX (U ) ≤ x) = P (U ≤ FX (x)) = FX (x) Note. Si FX n’est pas strictement croissante, on prend −1 FX (u) = inf {x; FX (x) ≥ u}
  • 52. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e
  • 53. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e Loi exponentielle, E xp(λ), −1 FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ
  • 54. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Applications... Loi binomiale, B(n, p), n i FX (x) = p (1 − p)n−i i i≤x −1 et FX (u) s’obtient num´riquement e Loi exponentielle, E xp(λ), −1 FX (x) = 1 − exp(λx) et FX (u) = − log(u)/λ Loi de Cauchy, C (0, 1), 1 1 −1 FX (x) = arctan(x)+ et FX (u) = tan(π(u−1/2)) π 2
  • 55. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres transformations... [Indice] Trouver des transformations reliant la loi d’int´rˆt et des lois plus ee simples/mieux connues
  • 56. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Autres transformations... [Indice] Trouver des transformations reliant la loi d’int´rˆt et des lois plus ee simples/mieux connues Example (Transformation de Box-M¨ller) u i.i.d. Pour la loi normale N (0, 1), si X1 , X2 ∼ N (0, 1), X1 + X2 ∼ χ2 , 2 2 2 arctan(X1 /X2 ) ∼ U ([0, 2π]) [Jacobien] Comme χ2 est identique ` E xp(1/2), il vient par inversion 2 a X1 = −2 log(U1 ) sin(2πU2 ) X2 = −2 log(U1 ) cos(2πU2 )
  • 57. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example Les lois de Student et de Fisher se d´duisent naturellement de la e loi normale et de la loi du chi-deux.
  • 58. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example Les lois de Student et de Fisher se d´duisent naturellement de la e loi normale et de la loi du chi-deux. Example La loi de Cauchy se d´duit de la loi normale par : si e i.i.d. X1 , X2 ∼ N (0, 1), X1 /X2 ∼ C (0, 1)
  • 59. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Example La loi Beta B(α, β), de densit´ e Γ(α + β) α−1 fX (x) = x (1 − x)β−1 , Γ(α)Γ(β) s’obtient ` partir de la loi gamma par: si X1 ∼ G a(α, 1), a X2 ∼ G a(β, 1), alors X1 ∼ B(α, β) X1 + X2
  • 60. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Lois multidimensionnelles Soit ` g´n´rer dans Rp a e e (X1 , . . . , Xp ) ∼ f (x1 , . . . , xp ) dont les composantes ne sont pas n´cessairement ind´pendantes e e Cascade rule f (x1 , . . . , xp ) = f1 (x1 ) × f2|1 (x2 |x1 ) . . . × fp|−p (xp |x1 , . . . , xp−1 )
  • 61. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (1) Impl´mentation e Simuler pour t = 1, . . . , T 1 X1 ∼ f1 (x1 ) 2 X2 ∼ f2|1 (x2 |x1 ) . . . p. Xp ∼ fp|−p (xp |x1 , . . . , xp−1 )
  • 62. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible
  • 63. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e
  • 64. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e lemme d’inversion ne s’applique qu’en dimension 1
  • 65. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Autres distributions que la loi uniforme (2) −1 FX rarement disponible algorithme r´sident sur machine seulement pour lois usuelles e lemme d’inversion ne s’applique qu’en dimension 1 nouvelle distribution demandant r´solution rapide e
  • 66. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) M´thode d’acceptation–rejet e Distribution de densit´ f ` simuler e a
  • 67. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) M´thode d’acceptation–rejet e Distribution de densit´ f ` simuler e a Theorem (fondamental de la simulation) 0.25 La loi uniforme sur le sous-graphe 0.20 Sf = {(x, u); 0 ≤ u ≤ f (x)} 0.15 f(x) 0.10 a comme loi marginale en x la loi de densit´ f . e 0.05 0.00 0 2 4 6 8 10 x
  • 68. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Raison : Loi marginale donn´e par e ∞ I0≤u≤f (x) du = f (x) 0 et ind´pendance ` la constante de normalisation e a
  • 69. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Raison : Loi marginale donn´e par e ∞ I0≤u≤f (x) du = f (x) 0 et ind´pendance ` la constante de normalisation e a Example Pour une loi normale, il “suffit” de simuler (u, x) au hasard dans {(u, x); 0 ≤ u ≤ exp(−x2 /2)}
  • 70. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x)
  • 71. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x) 2 G´n´rer e e i.i.d. i.i.d. Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1])
  • 72. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme d’acceptation-rejet 1 Trouver une densit´ g simulable telle que e f (x) sup =M <∞ x g(x) 2 G´n´rer e e i.i.d. i.i.d. Y1 , Y2 , . . . ∼ g , U1 , U2 , . . . ∼ U ([0, 1]) 3 Prendre X = Yk o` u k = inf{n ; Un ≤ f (Yn )/M g(Yn )}
  • 73. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Acceptation–rejet) La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e e e e suivant la loi fX
  • 74. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Acceptation–rejet) La variable produite par la r´gle d’arrˆt ci-dessous est distribu´e e e e suivant la loi fX Preuve (1) : On a ∞ P (X ≤ x) = P (X = Yk , Yk ≤ x) k=1 ∞ k−1 1 = 1− P (Uk ≤ f (Yk )/M g(Yk ) , Yk ≤ x) M k=1 ∞ k−1 x f (y)/M g(y) 1 = 1− du g(y)dy M −∞ 0 k=1 ∞ k−1 x 1 1 = 1− f (y)dy M M −∞ k=1
  • 75. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Preuve (2) 5 4 Si (X, U ) est uniforme sur 3 A ⊃ B, la distribution de (X, U ) 2 retreinte ` B est uniforme sur B. a 1 0 −4 −2 0 2 4
  • 76. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation
  • 77. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e
  • 78. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e Autorise le recyclage des Yk pour une autre loi f (les Yk refus´s ne sont plus de loi g) e
  • 79. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Propri´t´s e e Fonctionne sans constante de normalisation Ne n´cessite pas une borne exacte M e Autorise le recyclage des Yk pour une autre loi f (les Yk refus´s ne sont plus de loi g) e Demande en moyenne M va Yk pour un X (mesure d’efficacit´) e
  • 80. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Example Soit f (x) = exp(−x2 /2) et g(x) = 1/(1 + x2 ) f (x) 2 √ = (1 + x2 ) e−x /2 ≤ 2/ e g(x) Probabilit´ d’acceptation e e/2π = 0.66
  • 81. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Theorem (Enveloppe) S’il existe une densit´ gm , une fonction gl et une constante M e telles que gl (x) ≤ f (x) ≤ M gm (x) , alors 1 G´n´rer X ∼ gm (x), U ∼ U[0,1] ; e e 2 Accepter X si U ≤ gl (X)/M gm (X); 3 sinon, accepter X si U ≤ f (X)/M gm (X) donne des variables al´atoires suivant la loi f . e
  • 82. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme du rapport d’uniformes Slice sampler R´sultat : e Simulation uniforme sur {(u, v); 0 ≤ u ≤ 2f (v/u)} produit X = V /U ∼ f
  • 83. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Algorithme du rapport d’uniformes Slice sampler R´sultat : e Simulation uniforme sur {(u, v); 0 ≤ u ≤ 2f (v/u)} produit X = V /U ∼ f Raison : Changement de variable (u, v) → (x, u) de Jacobien u et loi marginale de x donn´e par e √ 2 2f (x) 2f (x) x∼ u du = = f (x) 0 2
  • 84. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Simulation de variables al´atoires e Distributions non-uniformes (2) Example 0.6 Pour une loi normale, simuler 0.4 v (u, v) au hasard dans 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 u √ 2 /4u2 √ {(u, v); 0 ≤ u ≤ 2 e−v } = {(u, v); v 2 ≤ −4 u2 log(u/ 2)}
  • 85. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Chapitre 2 : M´thodes de Monte Carlo e Introduction Int´gration par la m´thode de Monte Carlo e e Fonctions d’importance M´thodes d’acc´leration e e
  • 86. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx
  • 87. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx 2 comportement limite/stationnaire de syst`mes complexes e
  • 88. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Utilisations de la simulation 1 int´gration e I = Ef [h(X)] = h(x)f (x)dx 2 comportement limite/stationnaire de syst`mes complexes e 3 optimisation arg min h(x) = arg max exp{−βh(x)} β>0 x x
  • 89. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point.
  • 90. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point. La probabilit´ d’attraper la maladie est e exp(α + β · nx,y ) Px,y = In >0 1 + exp(α + β · nx,y ) x,y si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette e ea maladie.
  • 91. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie) e e Sur un territoire quadrill´, on repr´sente par x, y les coordonn´es e e e d’un point. La probabilit´ d’attraper la maladie est e exp(α + β · nx,y ) Px,y = In >0 1 + exp(α + β · nx,y ) x,y si nx,y d´note le nombre de voisins de (x, y) ayant d´j` cette e ea maladie. La probabilit´ de gu´rir de la maladie est e e exp(δ + γ · nx,y ) Qx,y = 1 + exp(δ + γ · nx,y )
  • 92. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Introduction Example (Propagation d’une ´pid´mie (2)) e e Question En fonction de (α, β, γ, δ), quelle est la vitesse de propagation de cette ´pid´mie ? la dur´e moyenne ? le nombre de personnes e e e infect´es ? e
  • 93. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Int´gration par Monte Carlo e Loi des grands nombres Si X1 , . . . , Xn simul´s suivant f , e n ˆ 1 In = h(Xi ) −→ I n i=1
  • 94. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Th´or`me Central Limit e e Evaluation de l’erreur par n 1 ˆ ˆ2 σn = (h(Xi ) − I)2 n2 i=1 et ˆ ˆ2 In ≈ N (I, σn )
  • 95. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Normale) Pour une loi normale, E[X 4 ] = 3. Par la m´thode de Monte Carlo, e n 5 50 500 5000 50,000 500,000 ˆ In 1.65 5.69 3.24 3.13 3.038 3.029 3.0 2.5 2.0 1.5 In 1.0 0.5 0.0 5 10 50 100 500 1000 5000 10000 50000 n
  • 96. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale) On consid`re le mod`le joint e e X|θ ∼ N (θ, 1), θ ∼ C(0, 1) Apr`s observation de X, on estime θ par e ∞ θ 2 2 e−(x−θ) /2 dθ −∞ 1+θ δ π (x) = ∞ 1 2 e−(x−θ) /2 dθ −∞ 1 + θ2
  • 97. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale (2)) Cette forme δ π sugg`re de simuler des variables iid e θ1 , · · · , θm ∼ N (x, 1) et de calculer m θi i=1 2 ˆπ 1 + θi δm (x) = . m 1 i=1 2 1 + θi
  • 98. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (Cauchy / Normale (2)) Cette forme δ π sugg`re de simuler des variables iid e θ1 , · · · , θm ∼ N (x, 1) et de calculer m θi i=1 2 ˆπ 1 + θi δm (x) = . m 1 i=1 2 1 + θi Par la Loi des Grands Nombres, ˆπ δm (x) −→ δ π (x) quand m −→ ∞.
  • 99. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale) Approximation de la fonction de r´partition de la loi normale e t 1 2 Φ(t) = √ e−y /2 dy −∞ 2π par n ˆ 1 Φ(t) = IXi ≤t , n i=1 ayant g´n´r´ un ´chantillon de taille n, (X1 , . . . , Xn ), via e ee e l’algorithme de Box-Muller.
  • 100. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)).
  • 101. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)). • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n: e une pr´cision de quatre d´cimales demande en moyenne e e √ √ n = 2 104 simulations, donc, 200 millions d’it´rations. e
  • 102. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (2)) • Variance Φ(t)(1 − Φ(t))/n, car les variables IXi ≤t sont iid Bernoulli(Φ(t)). • Pour t pr`s de t = 0 la variance vaut approximativement 1/4n: e une pr´cision de quatre d´cimales demande en moyenne e e √ √ n = 2 104 simulations, donc, 200 millions d’it´rations. e • Plus grande pr´cision [absolue] dans les queues e
  • 103. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Int´gration par la m´thode de Monte Carlo e e Example (FdR normale (3)) n 0.0 0.67 0.84 1.28 1.65 2.32 2.58 3.09 3.72 102 0.485 0.74 0.77 0.9 0.945 0.985 0.995 1 1 103 0.4925 0.7455 0.801 0.902 0.9425 0.9885 0.9955 0.9985 1 104 0.4962 0.7425 0.7941 0.9 0.9498 0.9896 0.995 0.999 0.9999 105 0.4995 0.7489 0.7993 0.9003 0.9498 0.9898 0.995 0.9989 0.9999 106 0.5001 0.7497 0.8 0.9002 0.9502 0.99 0.995 0.999 0.9999 107 0.5002 0.7499 0.8 0.9001 0.9501 0.99 0.995 0.999 0.9999 108 0.5 0.75 0.8 0.9 0.95 0.99 0.995 0.999 0.9999 Evaluation de quantiles normaux par Monte Carlo fond´e sur e n g´n´rations normales. e e
  • 104. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Fonctions d’importance Repr´sentation alternative : e f (x) I= h(x)f (x)dx = h(x) g(x)dx g(x)
  • 105. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Fonctions d’importance Repr´sentation alternative : e f (x) I= h(x)f (x)dx = h(x) g(x)dx g(x) Donc, si Y1 , . . . , Yn simul´s suivant g, e n ˜ 1 f (Yi ) In = h(Yi ) −→ I n g(Yi ) i=1
  • 106. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f )
  • 107. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e
  • 108. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e Recyclage de simulations Yi ∼ g pour d’autres densit´s f e
  • 109. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Int´rˆt ee Fonctionne pour tout choix de g tel que supp(g) ⊃ supp(f ) Am´lioration possible de la variance e Recyclage de simulations Yi ∼ g pour d’autres densit´s f e Utilisation de lois simples g
  • 110. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Normale) Pour la loi normale et l’approximation de E[X 4 ], ∞ ∞ 2 /2 [y=x2 ] 1 x4 e−x dx = 2 y 3/2 e−y/2 dy −∞ 0 2 sugg`re d’utiliser g(y) = exp(−y/2)/2 e n 5 50 500 5000 50000 ˜n 3.29 2.89 3.032 I 2.97 3.041 0.5 0.4 0.3 0.2 In 0.1 0.0 −0.1 5 10 50 100 500 1000 5000 10000 50000 n
  • 111. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Choix de la fonction d’importance La “bonne” fonction g d´pend de la densit´ f et de la fonction h e e
  • 112. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Choix de la fonction d’importance La “bonne” fonction g d´pend de la densit´ f et de la fonction h e e Theorem (Importance optimale) ˜ Le choix de g minimisant la variance de In est |h(x)|f (x) g ⋆ (x) = I
  • 113. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X)
  • 114. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!)
  • 115. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!) g ⋆ d´pend de I que l’on cherche ` estimer (??) e a
  • 116. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Remarques Variance finie seulement si f (X) f (X) Ef h2 (X) = h2 (x) dx < ∞ . g(X) X g(X) Variance nulle pour g ⋆ si h positive (!!) g ⋆ d´pend de I que l’on cherche ` estimer (??) e a Remplacement de I ˜n par moyenne harmonique n ˇ i=1 h(yi )/|h(yi )| In = n i=1 1/|h(yi )| (num´rateur et d´nominateur sont convergents) e e souvent mauvais (variance infinie)
  • 117. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Normale) Pour la loi normale et l’approximation de E[X 4 ], g ⋆ (x) ∝ x4 exp(−x2 /2), loi de la racine d’une G a(5/2, 1/2) [Exercice] n 5 50 500 5,000 50,000 500,000 ˇ In 4.877 2.566 2.776 2.317 2.897 3.160 2 1 In 0 −1 1e+01 1e+02 1e+03 1e+04 1e+05 n
  • 118. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student) X ∼ T (ν, θ, σ 2 ), de densit´ e −(ν+1)/2 Γ((ν + 1)/2) (x − θ)2 f (x) = √ 1+ . σ νπ Γ(ν/2) νσ 2 Soient θ = 0, σ = 1 et ∞ I= x5 f (x)dx. 2.1 ` calculer a
  • 119. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions d’importance ◦ f , car f = √ (0,1) N 2 χν /ν ◦ Cauchy C(0, 1) ◦ Normale N (0, 1) ◦ U ([0, 1/2.1])
  • 120. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions R´sultats: e d’importance ◦ f , car f = √ (0,1) N ◦ Uniforme optimale 2 χν /ν ◦ Cauchy C(0, 1) ◦ Cauchy OK ◦ Normale N (0, 1) ◦ f et Normale mauvaises ◦ U ([0, 1/2.1])
  • 121. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e Fonctions d’importance Example (Loi de Student (2)) • Choix de fonctions R´sultats: e d’importance ◦ f , car f = √ (0,1) N ◦ Uniforme optimale 2 χν /ν ◦ Cauchy C(0, 1) ◦ Cauchy OK ◦ Normale N (0, 1) ◦ f et Normale mauvaises ◦ U ([0, 1/2.1]) 7.0 6.5 6.0 5.5 5.0 0 10000 20000 30000 40000 50000
  • 122. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es ee La correlation n´gative... e Deux ´chantillons (X1 , . . . , Xm ) et (Y1 , . . . , Ym ) suivant f pour e estimer I= h(x)f (x)dx . R Soient m m ˆ 1 ˆ 1 I1 = h(Xi ) et I2 = h(Yi ) m m i=1 i=1 de moyenne I et variance σ 2
  • 123. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es (2) ee ...r´duit la variance e La variance de la moyenne vaut ˆ ˆ I1 + I2 σ2 1 var = ˆ ˆ + cov(I1 , I2 ). 2 2 2
  • 124. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Simulations corr´l´es (2) ee ...r´duit la variance e La variance de la moyenne vaut ˆ ˆ I1 + I2 σ2 1 var = ˆ ˆ + cov(I1 , I2 ). 2 2 2 Par cons´quent, si les deux ´chantillons sont n´gativement e e e corr´l´s, ee ˆ ˆ cov(I1 , I2 ) ≤ 0 , ils font mieux que deux ´chantillons ind´pendants de mˆme taille e e e
  • 125. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables antith´tiques e Construction de variables n´gativement corr´l´es e ee 1 Si f sym´trique autour de µ, prendre Yi = 2µ − Xi e 2 Si Xi = F −1 (Ui ), prendre Yi = F −1 (1 − Ui ) 3 Si (Ai )i est une partition de X , ´chantillonnage partitionn´ en e e prenant des Xj dans chaque Ai (n´cessite de connaˆ e ıtre Pr(Ai ))
  • 126. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle o Soit I= h(x)f (x)dx ` ´valuer et ae I0 = h0 (x)f (x)dx connue ˆ ˆ On estime quand mˆme I0 par I0 (et I par I) e
  • 127. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle (2) o Estimateur combin´ e ˆ ˆ ˆ I∗ = I + β(I0 − I0 ) ˆ I∗ est sans biais pour I et ˆ ˆ ˆ ˆ ˆ var(I∗ ) = var(I) + β 2 var(I) + 2βcov(I, I0 )
  • 128. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Variables de contrˆle (3) o Choix optimal de β ˆ ˆ cov(I, I0 ) β⋆ = − , ˆ var(I0 ) avec ˆ ˆ var(I⋆ ) = (1 − ρ2 ) var(I) , ˆ ˆ o` ρ corr´lation entre I et I0 u e
  • 129. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Approximation de quantiles) Soit ` ´valuer ae ∞ ̺ = Pr(X > a) = f (x)dx a par n 1 iid ̺= ˆ I(Xi > a), Xi ∼ f n i=1 1 avec Pr(X > µ) = 2
  • 130. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Approximation de quantiles (2)) La variable de contrˆle o n n 1 1 I(Xi > a) + β I(Xi > µ) − Pr(X > µ) n n i=1 i=1 am´liore ̺ si e ˆ cov(δ1 , δ3 ) Pr(X > a) β<0 et |β| < 2 =2 . var(δ3 ) Pr(X > µ)
  • 131. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Int´gration par conditionnement e Tirer parti de l’in´galit´ e e var(E[δ(X)|Y]) ≤ var(δ(X)) appel´e aussi Th´or`me de Rao-Blackwell e e e Cons´quence : e ˆ Si I est un estimateur sans biais de I = Ef [h(X)], avec X simul´ e a e ˜ ` partir de la densit´ jointe f (x, y), o` u ˜ f (x, y)dy = f (x),
  • 132. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Int´gration par conditionnement e Tirer parti de l’in´galit´ e e var(E[δ(X)|Y]) ≤ var(δ(X)) appel´e aussi Th´or`me de Rao-Blackwell e e e Cons´quence : e ˆ Si I est un estimateur sans biais de I = Ef [h(X)], avec X simul´ e a e ˜ ` partir de la densit´ jointe f (x, y), o` u ˜ f (x, y)dy = f (x), l’estimateur ˆ ˆ I∗ = Ef [I|Y1 , . . . , Yn ] ˜ ˆ domine I(X1 , . . . , Xn ) en variance (et est aussi sans biais)
  • 133. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Esp´rance de loi de Student) e Soit ` calculer a E[h(x)] = E[exp(−x2 )] avec X ∼ T (ν, 0, σ 2 )
  • 134. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Esp´rance de loi de Student) e Soit ` calculer a E[h(x)] = E[exp(−x2 )] avec X ∼ T (ν, 0, σ 2 ) La loi de Student peut ˆtre simul´e par e e X|y ∼ N (µ, σ 2 y) et Y −1 ∼ χ2 . ν
  • 135. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Esp´rance de loi de Student (2)) e La moyenne empirique m 1 2 exp(−Xj ) , m j=1 peut ˆtre am´lior´e ` partir de l’´chantillon joint e e e a e ((X1 , Y1 ), . . . , (Xm , Ym )) puisque m m 1 1 1 E[exp(−X 2 )|Yj ] = m m 2σ 2 Yj +1 j=1 j=1 est l’esp´rance conditionnelle e
  • 136. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thodes de Monte Carlo e M´thodes d’acc´leration e e Example (Esp´rance de loi de Student (3)) e Dans ce cas particulier, la pr´cision est dix fois plus grande e 0.60 0.58 0.56 0.54 0.52 0.50 0 2000 4000 6000 8000 10000 Estimateurs de E[exp(−X 2 )]: moyenne empirique (traits pleins) contre esp´rance conditionnelle (pointill´s) pour e e (ν, µ, σ) = (4.6, 0, 1).
  • 137. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Chapitre 3 : M´thode du bootstrap e Introduction Le th´or`me de GlivenkoCantelli e e Bootstrap Bootstrap param´trique e
  • 138. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Al´a intrins`que e e Estimation ` partir d’un ´chantillon al´atoire = incertitude a e e
  • 139. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Al´a intrins`que e e Estimation ` partir d’un ´chantillon al´atoire = incertitude a e e Puisque fond´ sur un ´chantillon al´atoire, un estimateur e e e δ(X1 , . . . , Xn ) est aussi (une variable) al´atoire e
  • 140. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Variation moyenne Question 1 : De combien varie δ(X1 , . . . , Xn ) quand l’´chantillon varie ? e
  • 141. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Variation moyenne Question 1 : De combien varie δ(X1 , . . . , Xn ) quand l’´chantillon varie ? e Question 2 : Quelle est la variance de δ(X1 , . . . , Xn ) ?
  • 142. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Variation moyenne Question 1 : De combien varie δ(X1 , . . . , Xn ) quand l’´chantillon varie ? e Question 2 : Quelle est la variance de δ(X1 , . . . , Xn ) ? Question 3 : Quelle est la distribution de δ(X1 , . . . , Xn ) ?
  • 143. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction ´ Example (Echantillon normal) Soit X1 , . . . , X100 un ´chantillon normal N (θ, 1). Sa moyenne θ e est estim´e par e 100 ˆ 1 θ= Xi 100 i=1
  • 144. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction ´ Example (Echantillon normal) Soit X1 , . . . , X100 un ´chantillon normal N (θ, 1). Sa moyenne θ e est estim´e par e 100 ˆ 1 θ= Xi 100 i=1 Moyennes de 100 points pour 200 echantillons 6 5 4 3 2 1 0 −0.2 −0.1 0.0 0.1 0.2 0.3 x
  • 145. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction ´ Example (Echantillon normal) Soit X1 , . . . , X100 un ´chantillon normal N (θ, 1). Sa moyenne θ e est estim´e par e 100 ˆ 1 θ= Xi 100 i=1 Moyennes de 100 points pour 200 echantillons 6 5 4 3 2 1 0 −0.2 −0.1 0.0 0.1 0.2 0.3 x ˆ Variation compatible avec la loi (connue) θ ∼ N (θ, 1/100)
  • 146. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Probl`mes correspondants e On observe un seul ´chantillon en g´n´ral e e e
  • 147. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Probl`mes correspondants e On observe un seul ´chantillon en g´n´ral e e e La loi de l’´chantillon est souvent inconnue e
  • 148. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Probl`mes correspondants e On observe un seul ´chantillon en g´n´ral e e e La loi de l’´chantillon est souvent inconnue e L’´valuation de la variation moyenne de δ(X1 , . . . , Xn ) est e essentielle pour la construction d’intervalles de confiance et de tests de/r´ponses ` des questions comme e a H0 : θ ≤ 0
  • 149. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Probl`mes correspondants e On observe un seul ´chantillon en g´n´ral e e e La loi de l’´chantillon est souvent inconnue e L’´valuation de la variation moyenne de δ(X1 , . . . , Xn ) est e essentielle pour la construction d’intervalles de confiance et de tests de/r´ponses ` des questions comme e a H0 : θ ≤ 0 En cas de normalit´ de l’´chantillon, le vrai θ se trouve avec e e forte probabilit´ dans l’intervalle e ˆ ˆ [θ − 2σ, θ + 2σ] .
  • 150. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Introduction Probl`mes correspondants e On observe un seul ´chantillon en g´n´ral e e e La loi de l’´chantillon est souvent inconnue e L’´valuation de la variation moyenne de δ(X1 , . . . , Xn ) est e essentielle pour la construction d’intervalles de confiance et de tests de/r´ponses ` des questions comme e a H0 : θ ≤ 0 En cas de normalit´ de l’´chantillon, le vrai θ se trouve avec e e forte probabilit´ dans l’intervalle e ˆ ˆ [θ − 2σ, θ + 2σ] . Quid de σ ?!
  • 151. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Estimation de la fonction de r´partition e Extension/application de la LGN ` l’approximation de la fonction a de r´partition : e
  • 152. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Estimation de la fonction de r´partition e Extension/application de la LGN ` l’approximation de la fonction a de r´partition : e Pour un ´chantillon X1 , . . . , Xn , si e n ˆ 1 Fn (x) = I]−∞,Xi ] (x) n i=1 card {Xi ; Xi ≤ x} = , n
  • 153. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Estimation de la fonction de r´partition e Extension/application de la LGN ` l’approximation de la fonction a de r´partition : e Pour un ´chantillon X1 , . . . , Xn , si e n ˆ 1 Fn (x) = I]−∞,Xi ] (x) n i=1 card {Xi ; Xi ≤ x} = , n ˆ Fn (x) est un estimateur convergent de la fonction de r´partition F (x) e [Glivenko–Cantelli] ˆ Fn (x) −→ Pr(X ≤ x)
  • 154. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e ´ Example (Echantillon normal) 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 −2 −1 0 1 2 0.0 −2 −1 0 1 2 Estimation de la fonction de r´partition F ` partir d’un e a ´chantillon normal de 100 points et variation de cette e estimation sur 200 ´chantillons normaux e
  • 155. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Propri´t´s ee Estimateur dit non-param´trique : on n’a pas besoin de la loi e ni de la forme de la loi de l’´chantillon pour construire cet e estimateur c Il est toujours disponible
  • 156. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Propri´t´s ee Estimateur dit non-param´trique : on n’a pas besoin de la loi e ni de la forme de la loi de l’´chantillon pour construire cet e estimateur c Il est toujours disponible Robustesse contre efficacit´ : si la forme [param´trique] de e e la loi est connue, meilleure approximation fond´e sur cette e forme, mais si on se trompe de [forme de] loi, le r´sultat peut e ˆtre bien pire ! e
  • 157. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e ´ Example (Echantillon normal) Fonction de r´partition de N (θ, 1), Φ(x − θ) e 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 −2 −1 0 1 2 −2 −1 0 1 2 ˆ ˆ a Estimation de Φ(· − θ) par Fn et Φ(· − θ) ` partir de 100 points et variation maximale de ces estimations sur 200 r´plications e
  • 158. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e ´ Example (Echantillon non-normal) Echantillon provenant de 0.3N (0, 1) + 0.7N (2.5, 1) faussement allou´ ` une loi normale Φ(· − θ) ea
  • 159. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0.0 −2 −1 0 1 2 3 4 −2 −1 0 1 2 3 4 ˆ ˆ a Estimation de F par Fn et Φ(· − θ) ` partir d’un ´chantillon e de m´lange de 100 points et variation de ces estimations sur e 200 ´chantillons de m´lange e e
  • 160. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Extension aux fonctionnelles de F Pour toute expression de la forme θ(F ) = h(x) dF (x) , [Fonctionnelle de la cdf]
  • 161. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e Extension aux fonctionnelles de F Pour toute expression de la forme θ(F ) = h(x) dF (x) , [Fonctionnelle de la cdf] utilisation de l’approximation ˆ θ(F ) = θ(Fn ) = ˆ h(x) dFn (x) n 1 = h(Xi ) n i=1 [Estimateur des moments]
  • 162. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e ´ Example (Echantillon normal) e ˆ Comme θ est (aussi) la m´diane de N (θ, 1), θ peut ˆtre pris e comme m´diane de F e ˆn , donc comme m´diane de X1 , . . . , Xn , soit e X(n/2)
  • 163. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Le th´or`me de GlivenkoCantelli e e ´ Example (Echantillon normal) e ˆ Comme θ est (aussi) la m´diane de N (θ, 1), θ peut ˆtre pris e comme m´diane de F e ˆn , donc comme m´diane de X1 , . . . , Xn , soit e X(n/2) Histogramme des medianes 3 2 1 0 −0.4 −0.2 0.0 0.2 0.4 Histogramme des moyennes 3 2 1 0 −0.4 −0.2 0.0 0.2 0.4 Comparaison des variations des moyennes et des m´dianes e sur 200 ´chantillons normaux e
  • 164. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ˆ Comment approcher la distribution de θ(Fn ) ? Principe Comme ˆ i.i.d. θ(Fn ) = θ(X1 , . . . , Xn ) avec X1 , . . . , Xn ∼ F
  • 165. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ˆ Comment approcher la distribution de θ(Fn ) ? Principe Comme ˆ i.i.d. θ(Fn ) = θ(X1 , . . . , Xn ) avec X1 , . . . , Xn ∼ F ˆ on remplace F par Fn : ˆ ∗ ∗ ∗ ∗ i.i.d. ˆ θ(Fn ) ≈ θ(X1 , . . . , Xn ) avec X1 , . . . , Xn ∼ Fn
  • 166. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Impl´mentation e ˆ e ˆ Fn ´tant connue, on peut simuler suivant Fn , donc approcher la loi de θ(X1 ∗ , . . . , X ∗ ) [au lieu de celle de θ(X , . . . , X )] n 1 n La loi correspondant ` a ˆ card {Xi ; Xi ≤ x} Fn (x) = n donne une probabilit´ de 1/n ` chaque point de {x1 , . . . , xn } : e a ˆ 1 PrFn (X ∗ = xi ) = n Il suffit donc d’op´rer des tirages avec remise dans (X1 , . . . , Xn ) e [en R, sample(x,n,replace=T)]
  • 167. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Simulation par Monte Carlo 1 Pour b = 1, . . . , B, 1 b b ˆ g´n´rer un ´chantillon X1 , . . . , Xn suivant Fn e e e
  • 168. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Simulation par Monte Carlo 1 Pour b = 1, . . . , B, 1 b b ˆ g´n´rer un ´chantillon X1 , . . . , Xn suivant Fn e e e 2 construire l’image correspondante ˆ θb = θ(X1 , . . . , Xn ) b b
  • 169. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Simulation par Monte Carlo 1 Pour b = 1, . . . , B, 1 b b ˆ g´n´rer un ´chantillon X1 , . . . , Xn suivant Fn e e e 2 construire l’image correspondante ˆ θb = θ(X1 , . . . , Xn ) b b 2 Utiliser l’´chantillon e ˆ ˆ θ1 , . . . , θB pour approcher la distribution de θ(X1 , . . . , Xn )
  • 170. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Notes bootstrap = languette de botte on utilise seulement l’´chantillon pour construire une e ´valuation de sa loi e [Aventures du Baron de Munchausen ]
  • 171. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Notes bootstrap = languette de botte on utilise seulement l’´chantillon pour construire une e ´valuation de sa loi e [Aventures du Baron de Munchausen ] un ´chantillon bootstrap est obtenu par n tirages avec remise e dans (X1 , . . . , Xn )
  • 172. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Notes bootstrap = languette de botte on utilise seulement l’´chantillon pour construire une e ´valuation de sa loi e [Aventures du Baron de Munchausen ] un ´chantillon bootstrap est obtenu par n tirages avec remise e dans (X1 , . . . , Xn ) 2n−1 il peut donc prendre nn valeurs (ou n valeurs si on ne consid`re pas l’ordre) e
  • 173. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ´ Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1)) 3.0 2.5 2.0 1.5 1.0 0.5 0.0 1.4 1.6 1.8 2.0 2.2 Variation des moyennes empiriques sur 200 ´chantillons e bootstrap et moyenne de l’´chantillon observ´ e e
  • 174. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Example (Calcul de la variation moyenne) Pour un estimateur θ(X1 , . . . , Xn ), l’´cart-type est donn´ par e e η(F ) = EF [(θ(X1 , . . . , Xn ) − EF [θ(X1 , . . . , Xn )])2 ]
  • 175. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Example (Calcul de la variation moyenne) Pour un estimateur θ(X1 , . . . , Xn ), l’´cart-type est donn´ par e e η(F ) = EF [(θ(X1 , . . . , Xn ) − EF [θ(X1 , . . . , Xn )])2 ] et son approximation bootstrap est ˆ ˆ ˆ η(Fn ) = EFn [(θ(X1 , . . . , Xn ) − EFn [θ(X1 , . . . , Xn )])2 ]
  • 176. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Example (Calcul de la variation moyenne (2)) Approximation elle-mˆme approch´e par e e B 1/2 1 ¯ ˆ ˆ η (Fn ) = b b (θ(X1 , . . . , Xn ) − θ)2 B b=1 o` u B ¯ 1 b b θ= θ(X1 , . . . , Xn ) B b=1
  • 177. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ´ Example (Echantillon 0.3N (0, 1) + 0.7N (2.5, 1)) 3.0 2.5 2.0 1.5 1.0 0.5 0.0 1.4 1.6 1.8 2.0 2.2 η ˆ Intervalle de variation bootstrap ` ±2ˆ(Fn ) et moyenne de a l’´chantillon observ´ e e
  • 178. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ´ Example (Echantillon normal) Echantillon i.i.d. (X1 , . . . , X100 ) ∼ N (θ, 1)
  • 179. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap ´ Example (Echantillon normal) Echantillon i.i.d. (X1 , . . . , X100 ) ∼ N (θ, 1) Comparaison des intervalles de confiance [¯ − 2 ∗ σx /10, x + 2 ∗ σx /10] = [−0.113, 0.327] x ˆ ¯ ˆ [approximation normale] [¯∗ − 2 ∗ σ ∗ , x∗ + 2 ∗ σ ∗ ] = [−0.116, 0.336] x ˆ ¯ ˆ [approximation bootstrap normale] [q ∗ (0.025), q ∗ (0.975)] = [−0.112, 0.336] [approximation bootstrap g´n´rique] e e
  • 180. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap Intervalle normal 4 Intervalle bootstrap normal 3 Intervalle bootstrap generique 2 Approximation normale 1 0 −0.2 −0.1 0.0 0.1 0.2 0.3 0.4 Intervalles de variation ` 95% pour un ´chantillon de 100 a e points et 200 r´pliques bootstrap e
  • 181. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Boostrap param´tr´ e e Si la forme param´trique de F est connue, e F (·) = Φλ (·) λ ∈ Λ,
  • 182. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Boostrap param´tr´ e e Si la forme param´trique de F est connue, e F (·) = Φλ (·) λ ∈ Λ, ˆ une ´valuation de F plus efficace que Fn est fournie par e Φλn ˆ uˆ o` λn est un estimateur convergent de λ [Cf Exemple 40]
  • 183. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Boostrap param´trique e Approximation de la loi de θ(X1 , . . . , Xn ) par la loi de ∗ ∗ ∗ i.i.d. ∗ θ(X1 , . . . , Xn ) X1 , . . . , Xn ∼ Φλn ˆ
  • 184. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Boostrap param´trique e Approximation de la loi de θ(X1 , . . . , Xn ) par la loi de ∗ ∗ ∗ i.i.d. ∗ θ(X1 , . . . , Xn ) X1 , . . . , Xn ∼ Φλn ˆ Peut ´viter le recours ` la simulation dans certains cas e a
  • 185. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel) Soit i.i.d. X1 , . . . , Xn ∼ Exp(λ) et λ = 1/Eλ [X] ` estimer. a
  • 186. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel) Soit i.i.d. X1 , . . . , Xn ∼ Exp(λ) et λ = 1/Eλ [X] ` estimer. a Un estimateur possible est ˆ n λ(x1 , . . . , xn ) = n i=1 xi mais cet estimateur est biais´ : e ˆ Eλ [λ(X1 , . . . , Xn )] = λ
  • 187. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (2)) Questions : Comment ´valuer le biais e ˆ λ − Eλ [λ(X1 , . . . , Xn )] de cet estimateur ?
  • 188. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (2)) Questions : Comment ´valuer le biais e ˆ λ − Eλ [λ(X1 , . . . , Xn )] de cet estimateur ? Quelle est la loi de cet estimateur ?
  • 189. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Evaluation bootstrap du biais ´ Example (Echantillon exponentiel (3)) ˆ ˆ λ(x1 , . . . , xn ) − Eλ(x1 ,...,xn ) [λ(X1 , . . . , Xn )] ˆ [Forme param´trique] e ˆ ˆ λ(x1 , . . . , xn ) − EFn [λ(X1 , . . . , Xn )] ˆ [Forme non-param´trique] e
  • 190. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (4)) Dans le premier cas (param´trique), e ˆ 1/λ(X1 , . . . , Xn ) ∼ Ga(n, nλ) et ˆ n Eλ [λ(X1 , . . . , Xn )] = λ n−1
  • 191. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (4)) Dans le premier cas (param´trique), e ˆ 1/λ(X1 , . . . , Xn ) ∼ Ga(n, nλ) et ˆ n λ Eλ [λ(X1 , . . . , Xn )] = n−1 donc le biais est analytiquement ´valu´ comme e e −λ n − 1 estim´ par e ˆ λ(X1 , . . . , Xn ) − = −0.00787 n−1
  • 192. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (5)) Dans le second cas (non-param´trique), ´valuation par Monte e e Carlo, ˆ ˆ λ(x1 , . . . , xn ) − EFn [λ(X1 , . . . , Xn )] = 0.00142 ˆ qui est du “mauvais” signe
  • 193. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (6)) Construction d’un intervalle de confiance sur λ Par bootstrap param´trique, e ˆ ˆ ˆ Prλ λ1 ≤ λ ≤ λ2 = Pr ω1 ≤ λ/λ ≤ ω2 = 0.95 peut ˆtre d´duit de e e ˆ λ/λ ∼ Ga(n, n) [En R, qgamma(0.975,n,1/n)] ˆ ˆ [λ1 , λ2 ] = [0.452, 0.580]
  • 194. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (7)) Par bootstrap non-param´trique, on remplace e PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95 par ˆ PrFn q ∗ (.025) ≤ λ(Fn ) ≤ q ∗ (.975) = 0.95 ˆ
  • 195. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon exponentiel (7)) Par bootstrap non-param´trique, on remplace e PrF (q(.025) ≤ λ(F ) ≤ q(.975)) = 0.95 par ˆ PrFn q ∗ (.025) ≤ λ(Fn ) ≤ q ∗ (.975) = 0.95 ˆ ˆ Approximation des quantiles q ∗ (.025) et q ∗ (.975) de λ(Fn ) par ´chantillonnage bootstrap (Monte Carlo) e [q ∗ (.025), q ∗ (.975)] = [0.454, 0.576]
  • 196. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e 14 12 10 Intervalle bootstrap non−parametrique 8 Intervalle bootstrap 6 parametrique 4 2 0 0.45 0.50 0.55 0.60
  • 197. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon Student) Soit i.i.d. def N (0, 1) X1 , . . . , Xn ∼ T(5, µ, τ 2 ) = µ + τ χ2 /5 5 On peut alors estimer µ et τ par n n 1 5−2 1 µn = ˆ Xi τn = ˆ (Xi − µ)2 ˆ n 5 n i=1 i=1 5−2 = σn ˆ 5
  • 198. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon Student (2)) Probl`me e µn n’est pas distribu´e comme une loi de Student T(5, µ, τ 2 /n) ˆ e On doit donc reconstituer la loi de µn par ´chantillonnage ˆ e bootstrap.
  • 199. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e ´ Example (Echantillon Student (3)) Comparaison des intervalles de confiance [ˆn − 2 ∗ σn /10, µn + 2 ∗ σn /10] = [−0.068, 0.319] µ ˆ ˆ ˆ [approximation normale] [q ∗ (0.05), q ∗ (0.95)] = [−0.056, 0.305] [approximation bootstrap param´trique] e [q ∗ (0.05), q ∗ (0.95)] = [−0.094, 0.344] [approximation bootstrap non-param´trique] e
  • 200. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) M´thode du bootstrap e Bootstrap param´trique e Intervalle 6 bootstrap nonparametrique 5 Intervalle normal 4 a 2 SD 3 2 1 0 −0.2 −0.1 0.0 0.1 0.2 0.3 0.4 5 Intervalle normal a 2 SD 4 Intervalle bootstrap 3 parametrique 2 1 0 Intervalles de variation ` 95% pour un ´chantillon de 150 a e points et 400 r´pliques bootstrap (haut) non-param´triques e e et (bas) param´triques e
  • 201. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Chapitre 4 : Statistique non–param´trique : e Rudiments Introduction Estimation de la densit´ e Tests non-param´triques e
  • 202. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Introduction Probl`me : e Comment conduire une inf´rence statistique quand on ne connait e pas la loi des observations X1 , . . . , Xn ? i.i.d. X1 , . . . , Xn ∼ F avec F inconnu
  • 203. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Introduction Probl`me : e Comment conduire une inf´rence statistique quand on ne connait e pas la loi des observations X1 , . . . , Xn ? i.i.d. X1 , . . . , Xn ∼ F avec F inconnu Probl`me non-param´trique par opposition au contexte e e param´trique o` F (·) = Gθ (·) et seul θ est inconnu. e u
  • 204. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Introduction Inf´rence statistique non–param´trique e e Estimation d’une quantit´ d´pendant de F e e θ(F ) = h(x) dF (x)
  • 205. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Introduction Inf´rence statistique non–param´trique e e Estimation d’une quantit´ d´pendant de F e e θ(F ) = h(x) dF (x) D´cision ` propos d’une hypoth`se sur F e a e F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ?
  • 206. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Introduction Inf´rence statistique non–param´trique e e Estimation d’une quantit´ d´pendant de F e e θ(F ) = h(x) dF (x) D´cision ` propos d’une hypoth`se sur F e a e F ∈ F0 ? F == F0 ? θ(F ) ∈ Θ0 ? Estimation de fonctions d´pendant de F e dF F f (x) = (x) EF [h(X1 )|X2 = x] dx
  • 207. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation de la densit´ e Pour estimer dF f (x) = (x) dx [densit´ de X] e
  • 208. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation de la densit´ e Pour estimer dF f (x) = (x) dx [densit´ de X] e on peut songer ` prendre a ˆ dFn ˆ fn (x) = (x) dx
  • 209. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation de la densit´ e Pour estimer dF f (x) = (x) dx [densit´ de X] e on peut songer ` prendre a ˆ dFn ˆ fn (x) = (x) dx mais ˆ Fn n’est pas d´rivable ! e
  • 210. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation par histogramme Une premi`re solution est de reproduire la repr´sentation en e e ˆ escalier de Fn pour f k ˆ fn (x) = ωi I[ai ,ai+1 [ (x) a1 < . . . < ak+1 i=1
  • 211. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation par histogramme Une premi`re solution est de reproduire la repr´sentation en e e ˆ escalier de Fn pour f k ˆ fn (x) = ωi I[ai ,ai+1 [ (x) a1 < . . . < ak+1 i=1 en choisissant les ωi tels que k ωi (ai+1 − ai ) = 1 et ωi (ai+1 − ai ) = PF (X ∈ [ai , ai+1 [) i=1
  • 212. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation par histogramme (cont’d) Par exemple, n 1 ωi (ai+1 − ai ) = I[ai ,ai+1 [ (Xi ) n i=1 ˆ ˆ = Fn (ai+1 ) − Fn (ai ) [bootstrap]
  • 213. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation par histogramme (cont’d) Par exemple, n 1 ωi (ai+1 − ai ) = I[ai ,ai+1 [ (Xi ) n i=1 ˆ ˆ = Fn (ai+1 ) − Fn (ai ) [bootstrap] est un estimateur convergent de PF (X ∈ [ai , ai+1 [)
  • 214. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimation par histogramme (cont’d) Par exemple, n 1 ωi (ai+1 − ai ) = I[ai ,ai+1 [ (Xi ) n i=1 ˆ ˆ = Fn (ai+1 ) − Fn (ai ) [bootstrap] est un estimateur convergent de PF (X ∈ [ai , ai+1 [) [Attention aux effets de bord !]
  • 215. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e hist(x)$density En R, hist(x)$density donne les valeurs des ωi et hist(x)$breaks les valeurs des ai 0.5 0.4 Il est pr´f´rable d’utiliser les valeurs ee 0.3 produites par hist(x)$density pour 0.2 contruire une fonction lin´aire par e 0.1 morceaux par plot(hist(x)$density) plutˆt qu’une fonction par escalier. o 0.0 −2 −1 0 1 2 3 Estimateur par histogramme pour k = 45 et 450 observations normales
  • 216. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Interpr´tation probabiliste e Partant de fonctions en escalier, on aboutit ` une repr´sentation de a e la loi approch´e comme somme pond´r´e d’uniformes e ee k πi U([ai , ai+1 ]) i=1
  • 217. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Interpr´tation probabiliste e Partant de fonctions en escalier, on aboutit ` une repr´sentation de a e la loi approch´e comme somme pond´r´e d’uniformes e ee k πi U([ai , ai+1 ]) i=1 Equivalent ` une approximation lin´aire par morceaux de la a e fonction de r´partition e n ˜ x − ai Fn (x) = πi I (x) ai+1 − ai [ai ,ai+1 [ i=1
  • 218. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e D´fauts e D´pend du choix de la partition (ai )i , souvent construite en e fonction des donn´es (comme dans R) e
  • 219. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e D´fauts e D´pend du choix de la partition (ai )i , souvent construite en e fonction des donn´es (comme dans R) e Probl`me des extr´mit´s a1 et ak+1 : ils ne peuvent pas ˆtre e e e e infinis (pourquoi?) mais doivent suffisamment approcher le support de f
  • 220. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e D´fauts e D´pend du choix de la partition (ai )i , souvent construite en e fonction des donn´es (comme dans R) e Probl`me des extr´mit´s a1 et ak+1 : ils ne peuvent pas ˆtre e e e e infinis (pourquoi?) mais doivent suffisamment approcher le support de f k et (ai )i doivent d´pendre de n pour permettre la e convergence de fn ˆ vers f
  • 221. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e D´fauts e D´pend du choix de la partition (ai )i , souvent construite en e fonction des donn´es (comme dans R) e Probl`me des extr´mit´s a1 et ak+1 : ils ne peuvent pas ˆtre e e e e infinis (pourquoi?) mais doivent suffisamment approcher le support de f k et (ai )i doivent d´pendre de n pour permettre la e convergence de fn ˆ vers f mais... ai+1 − ai ne doit pas d´croˆ trop vite vers 0 pour e ıtre que l’estimation πi soit convergente : il faut suffisamment d’observations par intervalle [ai , ai+1 ]
  • 222. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtres de Scott e Choix “optimal” de la largeur des classes : hn = 3.5 σ n−1/3 ˆ et hn = 2.15 σ n−1/5 ˆ donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pour ˆ fn en escalier et lin´aire par morceaux, respectivement. (Et e ˆ assurent la convergence de fn vers f quand n tend vers ∞.)
  • 223. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtres de Scott e Choix “optimal” de la largeur des classes : hn = 3.5 σ n−1/3 ˆ et hn = 2.15 σ n−1/5 ˆ donnent les bonnes largeurs ai+1 − ai (nclass = range(x) / h) pour ˆ fn en escalier et lin´aire par morceaux, respectivement. (Et e ˆ assurent la convergence de fn vers f quand n tend vers ∞.) [nclass=9 et nclass=12 dans l’exemple suivant]
  • 224. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e k= 5 k = 15 k = 25 0.4 0.30 0.0 0.1 0.2 0.3 0.4 0.3 0.20 0.2 0.10 0.1 0.00 0.0 −2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3 k = 35 k = 45 k = 55 0.0 0.1 0.2 0.3 0.4 0.4 0.4 0.2 0.2 0.0 0.0 −2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3 k = 65 k = 75 k = 85 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.0 0.0 0.0 −2 −1 0 1 2 3 −2 −1 0 1 2 3 −2 −1 0 1 2 3 Variation des estimateurs par histogramme en fonction de k pour un ´chantillon normal de 450 observations e
  • 225. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Estimateur du noyau Partant de la d´finition e dF f (x) = (x) , dx on peut utiliser l’approximation ˆ ˆ Fn (x + δ) − Fn (x − δ) ˆ f (x) = 2δ n 1 = {IXi <x+δ − IXi <x−δ } 2δn i=1 n 1 = I[−δ,δ] (x − Xi ) 2δn i=1 pour δ assez petit. ˆ [Bon point : f est une densit´] e
  • 226. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Interpr´tation analytique et probabiliste e On a ˆ Nb. observations proches de x fn (x) = 2δn Cas particulier de l’estimateur par histogramme o` les ai sont de la u forme Xj ± δ
  • 227. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Interpr´tation analytique et probabiliste e On a ˆ Nb. observations proches de x fn (x) = 2δn Cas particulier de l’estimateur par histogramme o` les ai sont de la u forme Xj ± δ e ˆ Repr´sentation de fn comme somme pond´r´e d’uniformes ee n 1 U([Xi − δ, Xi + δ]) n i=1 [Cf. lien avec bootstrap]
  • 228. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e 0.4 0.8 0.3 0.6 0.2 0.4 0.1 0.2 0.0 0.0 −2 −1 0 1 2 3 4 −2 0 2 4 bandwith 0.1 bandwith 0.5 0.12 0.30 0.08 0.20 0.04 0.10 0.00 0.00 −2 0 2 4 −10 −5 0 5 10 bandwith 1 bandwith 10 Variation des estimateurs du noyau uniforme en fonction de δ pour un ´chantillon non-normal de 200 observations e
  • 229. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Extension Au lieu de consid´rer une approximation uniforme autour de e chaque Xi , on peut utiliser une distribution plus lisse : n ˆ 1 x − Xi f (x) = K δn δ i=1 o` K est une densit´ de probabilit´ (noyau) et δ un facteur u e e d’´chelle “assez” petit. e
  • 230. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Extension Au lieu de consid´rer une approximation uniforme autour de e chaque Xi , on peut utiliser une distribution plus lisse : n ˆ 1 x − Xi f (x) = K δn δ i=1 o` K est une densit´ de probabilit´ (noyau) et δ un facteur u e e d’´chelle “assez” petit. e En R, density(x)
  • 231. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Choix de noyaux Toutes les densit´s sont en th´orie acceptables. On utilise en e e pratique (et dans R) le noyau normal [kernel=”gaussian” ou ”g”] le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”] K(y) = C {1 − y 2 }2 I[−1,1] (y) le noyau triangulaire [kernel=”triangular” ou ”t”] K(y) = (1 + y)I[−1,0] (y) + (1 − y)I[0,1] (y)
  • 232. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Choix de noyaux Toutes les densit´s sont en th´orie acceptables. On utilise en e e pratique (et dans R) le noyau normal [kernel=”gaussian” ou ”g”] le noyau d’Epanechnikov [kernel=”epanechnikov” ou ”e”] K(y) = C {1 − y 2 }2 I[−1,1] (y) le noyau triangulaire [kernel=”triangular” ou ”t”] K(y) = (1 + y)I[−1,0] (y) + (1 − y)I[0,1] (y) Conclusion : Peu d’influence sur l’estimation de f (` l’exception a du noyau uniforme [kernel=”rectangular” ou ”r”]).
  • 233. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Noyau uniforme Noyau triangulaire 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.05 0.10 0.15 0.20 0.25 −4 −2 0 2 4 6 −4 −2 0 2 4 6 Noyau normal Noyau d’Epanechnikov 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.05 0.10 0.15 0.20 0.25 −4 −2 0 2 4 6 −4 −2 0 2 4 6 Variation des estimateurs du noyau en fonction du noyau pour un ´chantillon non-normal de 200 observations e
  • 234. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Convergence vers f Choix de la fenˆtre δ crucial, par contre ! e Si δ grand, beaucoup de Xi contribuent ` l’estimation de f (x) a [Over-smoothing]
  • 235. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Convergence vers f Choix de la fenˆtre δ crucial, par contre ! e Si δ grand, beaucoup de Xi contribuent ` l’estimation de f (x) a [Over-smoothing] Si δ petit, peu de Xi contribuent ` l’estimation de f (x) a [Under-smoothing]
  • 236. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e 0.30 0.30 0.20 0.20 0.10 0.10 0.00 0.00 −2 0 2 4 −2 0 2 4 bandwith 0.5 bandwith 1 0.20 0.00 0.05 0.10 0.15 0.20 0.25 0.15 0.10 0.05 0.00 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 8 bandwith 2.5 bandwith 5 ˆ Variation de fn en fonction de δ pour un ´chantillon e non-normal de 200 observations
  • 237. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre optimale e En ´tudiant l’erreur moyenne int´gr´e e e e ˆ d(f, fn ) = E ˆ {f (x) − fn (x)}2 dx , on peut trouver un choix optimal pour la fenˆtre δ, not´e hn pour e e souligner sa d´pendence ` n. e a
  • 238. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre optimale (bis) e De la d´composition e 2 ˆ f (x) − E f (x) dx + ˆ var{f (x)} dx , [Biais2 +variance] et des approximations ˜ f ′′ (x) 2 f (x) − E f (x) ≃ hn 2 exp{−(Xi − x)2 /2h2 } n E √ ≃ f (x) , 2πhn [Exercice]
  • 239. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre optimale (ter) e on en d´duit que le biais est de l’ordre de e 2 f ′′ (x) dx h4 n 2 et que le terme de variance est approximativement 1 1 √ f (x) dx = √ nhn 2π nhn 2π [Exercice]
  • 240. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre optimale (fin) e Par cons´quent, l’erreur tend vers 0 quand n tend vers ∞ si e 1 hn tend vers 0 et 2 nhn tend vers l’infini.
  • 241. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre optimale (fin) e Par cons´quent, l’erreur tend vers 0 quand n tend vers ∞ si e 1 hn tend vers 0 et 2 nhn tend vers l’infini. La fenˆtre optimale est donn´e par e e √ −1/5 ˆ 2 h⋆ = n 2π f ′′ (x) dx n
  • 242. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre empirique e Comme la fenˆtre optimale d´pend de f inconnu, on utilise une e e approximation de la forme ˆ 0.9 min(ˆ , q75 − q25 ) σ ˆ ˆ hn = 1/5 , (1.34n) o` σ est l’´cart-type estim´ et q25 et q75 sont les quantiles ` 25% uˆ e e ˆ ˆ a et ` 75% estim´s. a e
  • 243. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre empirique e Comme la fenˆtre optimale d´pend de f inconnu, on utilise une e e approximation de la forme ˆ 0.9 min(ˆ , q75 − q25 ) σ ˆ ˆ hn = 1/5 , (1.34n) o` σ est l’´cart-type estim´ et q25 et q75 sont les quantiles ` 25% uˆ e e ˆ ˆ a et ` 75% estim´s. a e Note : Les constantes 0.9 et 1.34 correspondent au noyau normal.
  • 244. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Estimation de la densit´ e Fenˆtre empirique e Comme la fenˆtre optimale d´pend de f inconnu, on utilise une e e approximation de la forme ˆ 0.9 min(ˆ , q75 − q25 ) σ ˆ ˆ hn = 1/5 , (1.34n) o` σ est l’´cart-type estim´ et q25 et q75 sont les quantiles ` 25% uˆ e e ˆ ˆ a et ` 75% estim´s. a e Note : Les constantes 0.9 et 1.34 correspondent au noyau normal. Warning! Cette formule n’est pas celle utilis´e par d´faut dans R e e
  • 245. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques e Face ` une question sur F , comme a Est ce que F est ´gale ` F0 , connue ? e a
  • 246. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques e Face ` une question sur F , comme a Est ce que F est ´gale ` F0 , connue ? e a la r´ponse statistique se fonde sur les donn´es e e X1 , . . . , Xn ∼ F pour d´cider si oui ou non la question [l’hypoth`se] est e e compatible avec ces donn´es. e
  • 247. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques (bis) e Une proc´dure de test (ou test statistique) ϕ(x1 , . . . , xn ) est ` e a valeurs dans {0, 1} (pour oui/non)
  • 248. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques (bis) e Une proc´dure de test (ou test statistique) ϕ(x1 , . . . , xn ) est ` e a valeurs dans {0, 1} (pour oui/non) En prenant une d´cision sur la question sur F , on peut faire deux e erreurs : 1 refuser l’hypoth`se ` tort (Type I) e a
  • 249. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques (bis) e Une proc´dure de test (ou test statistique) ϕ(x1 , . . . , xn ) est ` e a valeurs dans {0, 1} (pour oui/non) En prenant une d´cision sur la question sur F , on peut faire deux e erreurs : 1 refuser l’hypoth`se ` tort (Type I) e a 2 accepter l’hypoth`se ` tort (Type II) e a
  • 250. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques (bis) e Une proc´dure de test (ou test statistique) ϕ(x1 , . . . , xn ) est ` e a valeurs dans {0, 1} (pour oui/non) En prenant une d´cision sur la question sur F , on peut faire deux e erreurs : 1 refuser l’hypoth`se ` tort (Type I) e a 2 accepter l’hypoth`se ` tort (Type II) e a Il faudrait donc balancer ces deux types d’erreur.
  • 251. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e La probl´matique des tests statistiques (ter) e En pratique, on se concentre sur le type I et on d´cide de rejeter e l’hypoth`se seulement si les donn´es semblent significativement e e incompatibles avec cette hypoth`se. e 0.4 0.3 0.2 Acceptation 0.1 Rejet 0.0 0 1 2 3 4 Accepter une hypoth`se apr`s un test signifie seulement que e e les donn´es n’ont pas rejet´ cette hypoth`se !!! e e e
  • 252. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Comparaison de distributions Example (Deux distributions ´gales ?) e Soient deux ´chantillons X1 , . . . , Xn et Y1 , . . . , Ym , de e distributions respectives F et G, inconnues. Comment r´pondre ` la question e a F == G ?
  • 253. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Example (Comparaison de distributions (suite)) Id´e : e Comparer les estimateurs de F et G, n m ˆ 1 ˆ 1 Fn (x) = IXi ≤x et Gm (x) = IYi ≤x n m i=1 i=1
  • 254. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Kolmogorov–Smirnov Meme distribution Deux distributions difference maximale 0.05 difference maximale 0.14 1.0 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 −4 −2 0 2 4 6 0.0 −4 −2 0 2 4 6 Evaluation via la diff´rence e ˆ ˆ ˆ ˆ K(m, n) = max Fn (x) − Gm (x) = max Fn (x) − Gm (x) x Xi ,Yj
  • 255. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Meme distribution Deux distributions difference maximale 0.05 difference maximale 0.14 0.14 0.04 0.12 0.10 0.02 0.08 0.06 0.00 0.04 0.02 −0.02 0.00 −4 −2 0 2 4 6 −4 −2 0 2 4 6 ˆ ˆ Evolution de la diff´rence Fn (x) − Gm (x) pour deux situations e
  • 256. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Kolmogorov–Smirnov (suite) Utilisation : Si K(m, n) “grand”, les distributions F et G sont significativement diff´rentes. e
  • 257. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Kolmogorov–Smirnov (suite) Utilisation : Si K(m, n) “grand”, les distributions F et G sont significativement diff´rentes. e Si K(m, n) “petit”, on ne peut pas les distinguer au vu des ´chantillons X1 , . . . , Xn et Y1 , . . . , Ym , donc on “accepte” que e F = G. [Test de Kolmogorov–Smirnov]
  • 258. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Kolmogorov–Smirnov (suite) Utilisation : Si K(m, n) “grand”, les distributions F et G sont significativement diff´rentes. e Si K(m, n) “petit”, on ne peut pas les distinguer au vu des ´chantillons X1 , . . . , Xn et Y1 , . . . , Ym , donc on “accepte” que e F = G. [Test de Kolmogorov–Smirnov] En R, ks.test(x,y)
  • 259. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Calibration du test A m et n donn´s, si F = G, K(m, n) a la mˆme distribution pour e e tout F .
  • 260. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Calibration du test A m et n donn´s, si F = G, K(m, n) a la mˆme distribution pour e e tout F . On peut se ramener ` la comparaison de deux ´chantillons a e uniformes et utiliser la simulation pour approcher la distribution de K(m, n) et ses quantiles. m=200,n=200 Valeur 15 observee 10 Quantile a 95% 5 0 0.05 0.10 0.15
  • 261. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Calibration du test (suite) Si K(m, n) observ´ d´passe le quantile de K(m, n) sous H0 ` 90 e e a ou 95 %, la valeur est tr`s improbable e si F = G et on rejette l’hypoth`se d’´galit´ des deux distributions. e e e
  • 262. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Calibration du test (suite) Exemple de sortie R : Two-sample Kolmogorov-Smirnov test data: z[, 1] and z[, 2] D = 0.05, p-value = 0.964 alternative hypothesis: two.sided
  • 263. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Calibration du test (suite) Exemple de sortie R : Two-sample Kolmogorov-Smirnov test data: z[, 1] and z[, 2] D = 0.05, p-value = 0.964 alternative hypothesis: two.sided p-value = 0.964 signifie que la probabilit´ que K(m, n) d´passe la e e valeur observ´e D = 0.05 est de 0.964, donc la valeur observ´e est e e petite pour la distribution de K(m, n) : on accepte l’hypoth`se e d’´galit´. e e
  • 264. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test d’ind´pendence e Example (Ind´pendence) e On cherche ` tester l’ind´pendence entre deux v.a. X et Y en a e observant les couples (X1 , Y1 ), . . . , (Xn , Yn )
  • 265. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test d’ind´pendence e Example (Ind´pendence) e On cherche ` tester l’ind´pendence entre deux v.a. X et Y en a e observant les couples (X1 , Y1 ), . . . , (Xn , Yn ) Question X⊥Y ?
  • 266. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test de rang Id´e : e Si on range les Xi par ordre croissant X(1) ≤ . . . X(n) les rangs Ri (ordres apr`s rangement) des Yi correspondants, e Y[1] , . . . , Y[n] , doivent ˆtre compl`tement al´atoires. e e e En R, rank(y[order(x)])
  • 267. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test de rang (suite) Rang : On appelle R = (R1 , . . . , Rn ) la statistique de rang de l’´chantillon (Y[1] , . . . Y[n] ) e
  • 268. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test de rang (suite) Rang : On appelle R = (R1 , . . . , Rn ) la statistique de rang de l’´chantillon (Y[1] , . . . Y[n] ) e La statistique de Spearman est n Sn = i Ri i=1 [Corr´lation entre i et Ri ] e
  • 269. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test de rang (suite) Rang : On appelle R = (R1 , . . . , Rn ) la statistique de rang de l’´chantillon (Y[1] , . . . Y[n] ) e La statistique de Spearman est n Sn = i Ri i=1 [Corr´lation entre i et Ri ] e On montre que, si X ⊥ Y , n(n + 1)2 n2 (n + 1)2 (n − 1) E[Sn ] = var(Sn ) = 4 144
  • 270. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Spearman Distribution de Sn disponible par simulation [uniforme] ou approximation normale Distribution de S sur 500 echantillons de 200 points 0.4 0.3 0.2 0.1 0.0 −2 −1 0 1 2 3 Version recentr´e de la statistique de Spearman et e approximation normale
  • 271. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Statistique de Spearman (suite) On peut donc d´terminer les quantiles ` 5% et 95% de Sn par e a simulation et d´cider si la valeur observ´e de Sn est ` l’int´rieur de e e a e ces quantiles ( = on accepte l’ind´pendence) ou ` l’ext´rieur ( = e a e on rejette l’ind´pendence) e
  • 272. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Tests multinomiaux Example (Test du chi deux) Une approche par histogramme permet d’apporter une r´ponsee robuste aux probl`mes de test, comme par exemple ` la question e a L’´chantillon X1 , . . . , Xn est il normal N (0, 1) ? e Id´e: e On remplace le probl`me par sa forme discr´tis´e ` des intervalles e e e a [ai , ai+1 ] Est ce que ai+1 exp(−x2 /2) def P (Xi ∈ [ai , ai+1 ]) = √ dx = pi ? ai 2π
  • 273. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Principe Mod´lisation multinomiale e On se ram`ne toujours ` un probl`me d’ad´quation ` une loi e a e e a multinomiale Mk p0 , . . . , pk 1 0 ou ` une famille de lois multinomiales a Mk (p1 (θ), . . . , pk (θ)) θ∈Θ
  • 274. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Exemples Dans le cas de l’ad´quation ` la loi normale standard, e a N (0, 1), k est determin´ par le nombre d’intervalles [ai , ai+1 ] e 0 et les pi par ai+1 exp(−x2 /2) p0 = i √ dx ai 2π
  • 275. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Exemples Dans le cas de l’ad´quation ` la loi normale standard, e a N (0, 1), k est determin´ par le nombre d’intervalles [ai , ai+1 ] e 0 et les pi par ai+1 exp(−x2 /2) p0 = i √ dx ai 2π Dans le cas de l’ad´quation ` une loi normale, N (θ, 1), les e a pi (θ) sont donn´s par e ai+1 exp(−(x − θ)2 /2) pi (θ) = √ dx ai 2π
  • 276. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Exemples (suite) Dans le cas d’un test d’ind´pendence entre deux variables, X e et Y , X⊥Y ? k est le nombre de cubes [ai , ai+1 ] × [bi , bi+1 ], θ est d´fini e comme θ1i = P (X ∈ [ai , ai+1 ]) θ2i = P (Y ∈ [bi , bi+1 ]) et def pi,j (θ) = P (X ∈ [ai , ai+1 ], Y ∈ [bi , bi+1 ]) = θ1i × θ2j
  • 277. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test du chi-deux L’estimateur naturel des pi est ˆ ˆ ˆ pi = P (X ∈ [ai , ai+1 ]) = Fn (ai+1 ) − Fn (ai ) ˆ [Cf. bootstrap]
  • 278. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test du chi-deux L’estimateur naturel des pi est ˆ ˆ ˆ pi = P (X ∈ [ai , ai+1 ]) = Fn (ai+1 ) − Fn (ai ) ˆ [Cf. bootstrap] La statistique du chi-deux est k (ˆi − p0 )2 p i Sn = n i=1 p0 i k (ˆ i − np0 )2 n i = i=1 np0 i si on teste l’ad´quation ` une loi multinomiale e a Mk p0 , . . . , p0 1 k
  • 279. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Test du chi-deux (suite) et k ˆ (ˆi − pi (θ))2 p Sn = n ˆ pi (θ) i=1 k ˆ (ˆ i − npi (θ))2 n = ˆ npi (θ) i=1 si on teste l’ad´quation ` une famille de lois multinomiales e a Mk (p1 (θ), . . . , pk (θ)) θ∈Θ
  • 280. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Loi approch´e e Pour l’ad´quation ` une loi multinomiale, la loi de Sn est e a approximativement (pour n grand) Sn ∼ χ2 k−1 et pour l’ad´quation ` une famille de lois multinomiales, avec e a dim(θ) = p, Sn ∼ χ2 k−p−1
  • 281. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Distributions of Sn 0.25 0.20 0.15 0.10 0.05 0.00 0 5 10 15 20 Distribution de Sn pour 200 ´chantillons normaux de 100 e points et un test d’ad´quation ` N (0, 1) avec k = 4 e a
  • 282. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Utilisation et limitations On rejette l’hypoth`se test´e si Sn est trop grande pour une loi e e χ2 ou χ2 k−1 k−p−1 [En R, pchisq(S)]
  • 283. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Utilisation et limitations On rejette l’hypoth`se test´e si Sn est trop grande pour une loi e e χ2 ou χ2 k−1 k−p−1 [En R, pchisq(S)] La convergence (en n) vers une loi χ2 (ou χ2 k−1 k−p−1 ) n’est ´tablie e que pour k et (ai ) fixes. En pratique, on choisit k et (ai ) en fonction des observations, ce qui diminue la validit´ de e l’approximation.
  • 284. Nouveaux outils informatiques pour la Statistique exploratoire (=NOISE) Statistique non–param´trique e Tests non-param´triques e Normal Q−Q Plot 3 200 2 150 1 Quantile observe Sn 0 100 −1 50 −2 −4 −2 0 2 4 0 0 5000 10000 15000 20000 Quantile normal n QQ-plot d’un ´chantillon non-normal et ´volution de Sn en e e fonction de n pour cet ´chantillon e