Your SlideShare is downloading. ×
7 inferenza statisticae-statisticadescrittiva
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

7 inferenza statisticae-statisticadescrittiva

1,864
views

Published on

Introduzione ai concetti statistici elementari, media, varianza, campione, popolazione, momenti, correlazione

Introduzione ai concetti statistici elementari, media, varianza, campione, popolazione, momenti, correlazione

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,864
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
299
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Inferenza statistica e statistica descrittiva Lucio Fontana - Expectations (MoMA), 1959 Riccardo RigonTuesday, March 6, 12
  • 2. “`E ’na cosa che serve pe’ fa’ un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.” TrilussaTuesday, March 6, 12
  • 3. “There are three kinds of lies: •lies, •damn lies, and •statistics” (Benjamin Disraeli/Mark Twain)Tuesday, March 6, 12
  • 4. Misura e Rappresentazione delle Grandezze Idrologiche Obbiettivi: •In queste pagine si ricordano gli elementi fondanti dell’analisi statistica. •Si definiscono, popolazione, campione e varie statistiche elementari, media, varianza, covarianza. •Si discute dell’esistenza delle statistiche e del loro valore. •Si introduce il concetto di campione casuale (random sampling). 4 Riccardo RigonTuesday, March 6, 12
  • 5. Statistiche Popolazione e Campione L’inferenza statistica assume che un insieme di dati rappresenti un sottoinsieme di casi tra tutti i possibili, normalmente detto campione. Tutti i casi possibili rappresentano la popolazione da cui l’insieme di dati è stato estratto. Il campione è noto. La popolazione, in genere no. Sulla popolazione, è sempre implicito, si fanno delle ipotesi. 5 Riccardo RigonTuesday, March 6, 12
  • 6. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Temperature (oC) 13 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo RigonTuesday, March 6, 12
  • 7. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Serie Temperature (oC) 13 temporale 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo RigonTuesday, March 6, 12
  • 8. Statistiche Analisi Esplorativa dei dati rappresentazione temporale - istogramma Un insieme di n dati costituisce dunque un campione di dati. a) Bergen:Sep temperature 15 14 Serie Temperature (oC) 13 temporale 12 11 10 9 8 1860 1880 1900 1920 1940 1960 1980 2000 time b) Bergen:Sep temperature distribution (1861−1997) 30 25 20 Frequency Istogramma 15 10 5 0 5 6 7 8 9 10 11 12 13 14 15 Temperature (oC) Tali dati possono essere rappresentati in vari modi. Ogni forma di rappresentazione ne mette in rilievo alcune caratteristiche. 6 Riccardo RigonTuesday, March 6, 12
  • 9. Statistiche Medie campionarie Assegnato il campione, possono essere calcolati varie statistiche. Per esempio: n 1 x := ¯ x,t Media temporale n t=1 n 1 < x >:= xi Media spaziale n i=1 La media è un indicatore di posizione 7 Riccardo RigonTuesday, March 6, 12
  • 10. Inferenza statistica e statistica descrittiva Inferenza statistica Corrado Caudek 8Riccardo RigonTuesday, March 6, 12
  • 11. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione Corrado Caudek 8Riccardo RigonTuesday, March 6, 12
  • 12. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione •Centrale all’inferenza statistica classica è la nozione di distribuzione campionaria, ovvero come variano le statistiche dei campioni, se i campioni casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla popolazione Corrado Caudek 8Riccardo RigonTuesday, March 6, 12
  • 13. Inferenza statistica e statistica descrittiva Inferenza statistica •L’inferenza statistica è il processo che consente di formulare delle conclusioni relative ad una popolazione sulla base di un campione di osservazioni estratte a caso dalla popolazione •Centrale all’inferenza statistica classica è la nozione di distribuzione campionaria, ovvero come variano le statistiche dei campioni, se i campioni casuali aventi la stessa grandezza n vengono ripetutamente estratti dalla popolazione •Anche se, in ciascuna applicazione pratica dell’inferenza statistica, il ricercatore dispone solamente di un unico campione casuale di grandezza n, Corrado Caudek la possibilità che il campionamento venga ripetuto fornisce la fondazione concettuale per decidere quanto il campione osservato sia informativo della popolazione nel suo complesso 8Riccardo RigonTuesday, March 6, 12
  • 14. Statistiche Analisi Esplorativa dei dati La media non è l’unico indicatore di posizione Mode 9 Riccardo RigonTuesday, March 6, 12
  • 15. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. 10 Riccardo RigonTuesday, March 6, 12
  • 16. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali. 10 Riccardo RigonTuesday, March 6, 12
  • 17. Statistiche Mediana e Moda La moda rappresenta il valore più frequente. Se l’istogramma dei dati presenta spiccatamente vari massimi, ma la questione rischia di essere controversa, si dice che i dati sono multimodali. La mediana rappresenta il valore dei dati tale per cui il 50% dei dati ha valore inferiore ad esso e (ovviamente!) l’altro 50% ha un valore ad esso superiore. 10 Riccardo RigonTuesday, March 6, 12
  • 18. Statistiche La distribuzione empirica dei dati Assegnato l’insieme di dati hi = {h1 , · · ·, hn } e prodotto da esso l’insieme ordinato in modo crescente ˆ ˆ ˆ ˆ ˆ ˆ hj = (h1 , · · ·, hn ) h1 ⇥ h2 ⇥ · ⇥ hn La distribuzione cumulata dei dati è definita da i ˆ 1 ECDFi (h) := j n j=1 11 Riccardo RigonTuesday, March 6, 12
  • 19. Statistiche ECDF La distribuzione cumulativa empirica può essere rappresentata come illustrato. Il valore in ordinate individuato dalla curva si dice anche frequenza di non superamento o quantile Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 12 h[mm] Riccardo RigonTuesday, March 6, 12
  • 20. Statistiche ECDF Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate. Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 13 h[mm] Riccardo RigonTuesday, March 6, 12
  • 21. Statistiche ECDF Lo 0.5 quantile separa a metà la distribuzione dei dati relativamente alle ordinate. Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 14 h[mm] Riccardo RigonTuesday, March 6, 12
  • 22. Statistiche ECDF Ecco dunque individuata la mediana Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● ● ● ● ● ● ● ● ● 0.6 ● ● P[H<h] ● 0.5 quantile ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 mediana 20 40 60 80 15 h[mm] Riccardo RigonTuesday, March 6, 12
  • 23. Statistiche Diagrammi a scatola La procedura puo’ essere generalizzata e rappresentata da un diagramma a scatola Frequenza di non superamento 1.0 ● ● ● ● ● ● ● ● ● ● 0.8 ● 0.75 quantile ● ● ● ● ● ● ● ● 0.6 ● ● 0.5 quantile P[H<h] ● ● ● ● ● ● ● 0.4 ● ● 0.25 quantile ● ● ● ● ● ● 0.2 ● ● ● ● ● ● ● ● ● 0.0 20 40 60 80 h[mm] “baffo” 16 Il diagramma a scatola è un’altra forma di rappresentazione della distribuzione dei dati Riccardo RigonTuesday, March 6, 12
  • 24. Statistiche Parametri e statistiche Un parametro è un numero che descrive un qualche aspetto della popolazione. • Per esempio, la precipitazione media annuale (vera) in una stazione di misura è un parametro. Supponiamo che tale media sia µh = 980 mm • In qualsiasi situazione concreta, i parametri sono sconosciuti Corrado Caudek 17 Riccardo RigonTuesday, March 6, 12
  • 25. Statistiche Parametri e statistiche Una statistica è un numero che può essere calcolato utilizzando i dati forniti da un campione, senza alcuna conoscenza dei parametri della popolazione. • Supponiamo, per esempio che il campione casuale di precipitazioni copra 30 anni di misura e la precipitazione media risultante sia ¯ h = 1002 mm Corrado Caudek • Tale media, è una statistica. 18 Riccardo RigonTuesday, March 6, 12
  • 26. Statistiche Altre statistiche: il Range Rx := max(x) min(x) Il range è il più semplice indicatore della distribuzione dei dati. E’ un indicatore della scala dei dati. Tuttavia dipende da soli due dati e non tiene conto degli altri n-2 che compongono il campione. 19 Riccardo RigonTuesday, March 6, 12
  • 27. Statistiche Altre statistiche: Varianza e Deviazione Standard n 1 V ar(x) := (xi x) ¯ n i=1 ⌅ ⇤ n ⇤1 x := ⇥ (xi x) ¯ n i=1 La varianza è un indicatore di “scala” che usa tutti i dati del campione 20 Riccardo RigonTuesday, March 6, 12
  • 28. Statistiche Altre statistiche: Varianza e Deviazione Standard: versione “corretta” (unbiased) n 1 V ar(x) := (xi x) ¯ n 1 i=2 ⌅ ⇤ n ⇤ 1 x := ⇥ (xi x) ¯ n 1 i=1 La versione unbiased della varianza, tiene conto del fatto che solo n-1 dei valori sono indipendenti, essendo fissata la loro media. 21 Riccardo RigonTuesday, March 6, 12
  • 29. Statistiche Coefficiente di variazione • Il coefficiente di variazione di un campione di dati è il rapporto tra la deviazione standard e la media: x CVx := ¯ x • Tanto più alta è il cofficiente di variazione, tanto meno la media è informativa e indicatrice dell’andamento futuro di una certa popolazione. 22 Riccardo RigonTuesday, March 6, 12
  • 30. Statistiche Altre statistiche: Coefficiente di forma o skewness: n ⇤1 ⇥3 xi x ¯ skx := i=1 n x Misura l’assimetria della distribuzione di dati Coefficiente di appiattimento o kurtosis: n ⇤ ⇥4 1 xi ¯ x kx := 3 + i=1 n x 23 Riccardo RigonTuesday, March 6, 12
  • 31. Statistiche Stima e test di ipotesi Solitamente, non si è interessati alle statistiche in se, ma a quello che le statistiche dicono della popolazione. • Potremmo, as esempio, usare la media delle precipitazioni annuali misurate in tutte le stazioni idrometeorologiche per stimare la precipitazione media annuale su tutta la penisola italiana. • Oppure potremmo usare la media del campione per stabilire se la precipitazione media annuale sia mutata lungo la durata del campione. 24 Riccardo RigonTuesday, March 6, 12
  • 32. Statistiche Stima e test di ipotesi Questi due tipi di domande sono propri dei due principali approcci all’inferenza statistica classica • La stima dei parametri • Il test di ipotesi statistiche 25 Riccardo RigonTuesday, March 6, 12
  • 33. Statistiche Variabilità campionaria Un aspetto fondamentale delle statistiche campionarie riguarda il fatto che variano da campione a campione. Nel caso delle precipitazioni annuali, sarebbe molto improbabile che la media del campione coincidesse con il valore di 1002 mm della media della popolazione. 26 Riccardo RigonTuesday, March 6, 12
  • 34. Statistiche Variabilità campionaria • La variabilità di una statistica campionaria da campione a campione è detta variabilità campionaria. – Quando la variabilità campionaria è molto grande, il campione è poco informativo, a proposito del parametro della popolazione. – Quando la variabilità campionaria è piccola, invece la statistica e informativa, anche se è praticamente impossibile che la statistica di un qualsiasi campione sia esattamente uguale al parametro della popolazione. 27 Riccardo RigonTuesday, March 6, 12
  • 35. Inferenza statistica e statistica descrittiva 2 Simulazione 1 2 Simulazione 1 La variabilit` campionaria verr` illustrata nel modo seguente: a a 1. verr` considerata una variabile discreta che pu` assumere soltanto a o un piccolo numero di valori possibili (N = 4); 2. verr` fornito l’elenco di tutti i possibili campioni di grandezza n = 2; a 3. verr` calcolata la media di ciascuno dei possibili campioni di a grandezza n = 2; 4. verr` esaminata la distribuzione delle medie di tutti i possibili a campioni di grandezza n = 2. La media µ e la varianza della popolazione verranno calcolate. ¯ • µ e sono dei parametri, mentre la media xi e la varianza s2 di i ciascun campione sono delle statistiche. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 8 28Riccardo RigonTuesday, March 6, 12
  • 36. Inferenza statistica e statistica descrittiva 2 Simulazione 1 • L’esperimento di questo esempio consiste in n = 2 estrazioni con rimessa di una pallina xi da un’urna che contiene N = 4 palline. • Le palline sono numerate nel modo seguente: {2, 3, 5, 9} • L’estrazione con rimessa corrisponde ad una popolazione di grandezza infinita (` sempre possibile infatti estrarre una nuova e pallina dall’urna). Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 9 29Riccardo RigonTuesday, March 6, 12
  • 37. Inferenza statistica e statistica descrittiva 2 Simulazione 1 Per ciascun campione di grandezza n = 2 viene calcolata la media dei 2 valori delle palline estratte x = i=1 xi /2. ¯ • Per esempio, se le palline estratte sono x1 = 2 e x2 = 3, allora x = (2 + 3)/2 = 5/2 = 2.5 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 10 30Riccardo RigonTuesday, March 6, 12
  • 38. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1 Tre distribuzioni Dobbiamo distinguere tre distribuzioni: 1. la distribuzione della popolazione, 2. la distribuzione di un particolare campione, 3. la distribuzione campionaria delle medie di tutti i possibili campioni. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 11 31Riccardo RigonTuesday, March 6, 12
  • 39. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.1 Distribuzione della popolazione Distribuzione della popolazione: la distribuzione di X (il valore della pallina estratta) nella popolazione. In questo caso la popolazione ` e infinita e ha la seguente distribuzione di probabilit`: a xi pi 1 2 4 1 3 4 1 5 4 1 9 4 somma 1.0 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 12 32Riccardo RigonTuesday, March 6, 12
  • 40. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • La media della popolazione ` e µ= xi pi = 4.75 • La varianza della popolazione ` e 2 = (xi µ)2 pi = 7.1875 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 13 33Riccardo RigonTuesday, March 6, 12
  • 41. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.2 Distribuzione di un campione Distribuzione di un campione: la distribuzione di X in un particolare campione. • Per esempio, se x1 = 2 e x2 = 3, allora la media di questo campione sar` x = 2.5 e la varianza sar` s2 = 0.5. a¯ a Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 14 34Riccardo RigonTuesday, March 6, 12
  • 42. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 2.1.3 Distribuzione campionaria della media Distribuzione campionaria della media: la distribuzione delle medie di tutti i possibili campioni. • Se n = 2, ci sono 4 4 = 16 possibili campioni. Possiamo dunque elencarli, insieme alle loro medie. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 15 35Riccardo RigonTuesday, March 6, 12
  • 43. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 campione media xi ¯ campione media xi ¯ {2, 3} 2.5 {3, 2} 2.5 {5, 2} 3.5 {2, 5} 3.5 {9, 2} 5.5 {2, 9} 5.5 {5, 3} 4.0 {3, 5} 4.0 {9, 3} 6.0 {3, 9} 6.0 {9, 5} 7.0 {5, 9} 7.0 {2, 2} 2 {3, 3} 3 {5, 5} 5 {9, 9} 9 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 16 36Riccardo RigonTuesday, March 6, 12
  • 44. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 La distribuzione campionaria della media ha la seguente distribuzione di probabilit`: a xi ¯ pi 2.0 1/16 2.5 2/16 3.0 1/16 3.5 2/16 4.0 2/16 5.0 1/16 5.5 2/16 6.0 2/16 7.0 2/16 9.0 1/16 somma 1.0 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 17 37Riccardo RigonTuesday, March 6, 12
  • 45. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • La media della distribuzione campionaria della media ` e µx = ¯ xi pi = 4.75 ¯ • La varianza della distribuzione campionaria della media ` e 2 x ¯ = (¯i x µx )2 pi = 3.59375 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 18 38Riccardo RigonTuesday, March 6, 12
  • 46. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 • L’esercizio presente ha a che fare con una situazione particolare, quella in cui la distribuzione della popolazione ` conosciuta. e • In pratica, la distribuzione della popolazione non ` mai conosciuta. e Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 19 39Riccardo RigonTuesday, March 6, 12
  • 47. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Con questo esercizio possiamo per` di notare come la distribuzione o campionaria della media possieda due importanti propriet`. a • La media µx della distribuzione campionaria della media ` uguale ¯ e alla media della popolazione µ. 2 • La varianza x della distribuzione campionaria della media ` uguale ¯ e al rapporto tra la varianza della popolazione 2 e la numerosit` n a del campione: 2 7.1875 2 = = = 3.59375 x ¯ n 2 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 20 40Riccardo RigonTuesday, March 6, 12
  • 48. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Si noti che: 1. la media e la varianza della distribuzione campionaria sono determinate dalla media e varianza della popolazione: 2 µx = µ ¯ 2 x ¯ = n 2. la varianza della distribuzione campionaria della media ` pi` piccola e u della varianza della popolazione. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 21 41Riccardo RigonTuesday, March 6, 12
  • 49. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 In seguito utilizzeremo le propriet` della distribuzione campionaria per a fare delle inferenze a proposito dei parametri della popolazione anche quando la distribuzione della popolazione non ` conosciuta. e Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 22 42Riccardo RigonTuesday, March 6, 12
  • 50. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Tre distribuzioni Si noti inoltre che abbiamo distinto tra tre diverse distribuzioni. 1. Distribuzione della popolazione: = {2, 3, 5, 9}, µ = 4.75, 2 = 7.1875 2. Distribuzione di un particolare campione: i = {2, 3}, x = 2.5, s2 = 0.5 ¯ 3. Distribuzione campionaria della media: x ¯= {2.5, 3.5, 5.5, 4, 6, 7, 2.5, 3.5, 4, 6, 7, 2, 5, 3, 9}, µx = 4.75, x = 3.59375 ¯ 2 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 23 43Riccardo RigonTuesday, March 6, 12
  • 51. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 Distribuzione della popolazione La distribuzione che contiene tutte le osservazioni. Media e varianza di questa distribuzione si indicano con µ e 2 . Distribuzione del campione La distribuzione dei valori della popolazione che fanno parte di un particolare campione casuale di grandezza n. Le singole osservazioni si indicano con x1 , . . . , xn , e ¯ hanno media x e varianza s2 . Distribuzione campionaria delle medie dei campioni La ¯ distribuzione di xi per tutti i possibili campioni di grandezza n che si possono estrarre dalla popolazione considerata. Media e varianza 2 della distribuzione campionaria della media si indicano con µx e x . ¯ ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 24 44Riccardo RigonTuesday, March 6, 12
  • 52. Inferenza statistica e statistica descrittiva 2.1 Tre distribuzioni 2 Simulazione 1 La distribuzione che sta alla base dell’inferenza statistica ` la e distribuzione campionaria. Definizione: la distribuzione campionaria di una statistica ` la e distribuzione dei valori che quella statistica assume in tutti i campioni di numerosit` n che possono essere estratti dalla a popolazione. • Si noti che, se in una simulazione consideriamo un numero di campioni minore di quello che teoricamente ` possibile, la e distribuzione risultante ci fornir` soltanto un’approssimazione alla a vera distribuzione campionaria. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 25 45Riccardo RigonTuesday, March 6, 12
  • 53. Inferenza statistica e statistica descrittiva Stima e test di ipotesi Avendo creato statistiche differenti, possiamo fare alcune ipotesi. Per esempio: • I campioni hanno tutti la medesima media e la medesima varianza ? • La media dipende dalla numerosità del campione ? • La varianza dipende dalla numerosità del campione ? 46Riccardo RigonTuesday, March 6, 12
  • 54. Inferenza statistica e statistica descrittiva Stima e test di ipotesi Se i campioni non hanno la medesima media, può essere presente una tendenza. 47Riccardo RigonTuesday, March 6, 12
  • 55. Inferenza statistica e statistica descrittiva Stima e test di ipotesi La varianza può variare con la numerosità del campione ! Se non si stabilizza all’aumentare dei dati del campione, si dice che i dati presentano la “sindrome della varianza infinita”. 48Riccardo RigonTuesday, March 6, 12
  • 56. Inferenza statistica e statistica descrittiva Ipotesi Zero (Nulla) Sui test di ipotesi avremo la possibilità di entrare nel dettaglio in lezioni successive. • In genere si ricordi, che è non è possibile provare con certezza alcunchè. Una ipotesi si può tentare di provare che non sia vera. Sia H0 l’ipotesi zero da provare. • Se non si riesce a scartare H0 , allora si può affermare che “sia vera” con un certo grado di confidenza 49Riccardo RigonTuesday, March 6, 12
  • 57. Inferenza statistica e statistica descrittiva Altre statistiche Covarianza Assegnate due serie di dati, per esempio hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln } La covarianza tra queste de serie di dati è definita da: n 1 ¯i )(hi ¯ Cov(hi , li ) := (li l hi ) N 1 1 50Riccardo RigonTuesday, March 6, 12
  • 58. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Assegnate due serie di dati, per esempio hi = {h1 , · · ·, hn } ed li = {l1 , · · ·, ln } La correlazione tra queste de serie di dati è definita da: Cov(l, h) lh := ⇥h ⇥l 51Riccardo RigonTuesday, March 6, 12
  • 59. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Si osservi che, si potrebbe considerare la correlazione tra le due serie campionarie di ugual lunghezza: hi = {h1 , · · ·, hn 1} e hi+1 = {h2 , · · ·, hn 1} Ottenendo n 1 1 ¯ ¯ Cov(hi , hi+1 ) := (hi hi )(hi+1 hi+1 ) N 1 j=1 52Riccardo RigonTuesday, March 6, 12
  • 60. Inferenza statistica e statistica descrittiva Altre statistiche Correlazione Ripetendo l’operazione per le serie via via ridotte di lunghezza e separate da r istanti, si ottiene: r hi = {h1 , · · ·, hn r} e hi+r = {hr , · · ·, hn } Ottenendo n r 1 ¯ r )(hi+r ¯ Cov(hi , hi+r ) r := (hi r hi hi+r ) N 1 j=1 Cov(hr , hi+r ) (hi , hi+r ) := r i ⇥i ⇥i + r r 53Riccardo RigonTuesday, March 6, 12
  • 61. Inferenza statistica e statistica descrittiva Altre statistiche Autocorrelazione 54Riccardo RigonTuesday, March 6, 12
  • 62. Inferenza statistica e statistica descrittiva Campioni Casuali Random Sample Nella strategia di creare ed analizzare i campioni di dati, ha un ruolo importante la selezione (o, talvolta, la generazione) di campioni casuali. Un campione casuale di n eventi scelto da una popolazione è tale se la probabilità di tale campione di essere prescelto è la stessa di ogni altro campione della medesima numerosità. Se i dati sono generati, si sta effettuando un esperimento casuale. Esempi ne sono: •il lancio di una moneta •il conteggio dei giorni piovosi in un anno •il conteggio dei giorni in cui si sia misurata a Ponte S. Lorenzo di Trento una portata superiore ad un valore prefissato.Riccardo RigonTuesday, March 6, 12
  • 63. Inferenza statistica e statistica descrittiva 3 Simulazione 2 3 Simulazione 2 Consideriamo ora un’altro esempio in cui la variabilit` campionaria verr` a a illustrata nel modo seguente: 1. la stessa popolazione dell’esempio precedente verr` usata; a 2. utilizzando R, verranno estratti con rimessa da questa popolazione 50000 campioni causali di grandezza n = 2; 3. verr` calcolata la media di ciascuno di questi campioni di grandezza a n = 2; 4. verranno calcolate la media e la varianza della distribuzione delle medie dei 50000 campioni di grandezza n = 2. Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 26 56Riccardo RigonTuesday, March 6, 12
  • 64. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57Riccardo RigonTuesday, March 6, 12
  • 65. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57Riccardo RigonTuesday, March 6, 12
  • 66. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N Media e Varianza del Campione SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57Riccardo RigonTuesday, March 6, 12
  • 67. Inferenza statistica e statistica descrittiva 3 Simulazione 2 N <- 4 n <- 2 nSamples <- 50000 X <- c(2, 3, 5, 9) Mean <- mean(X) Var <- var(X)*(N-1)/N Media e Varianza del Campione SampDistr <- rep(0, nSamples) for (i in 1:nSamples){ samp <- sample(X, n, replace=T) Sono fatti 50000 campioni SampDistr[i] <- mean(samp) } MeanSampDistr <- mean(SampDistr) VarSampDistr <- var(SampDistr)*(nSamples-1)/nSamples Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 27 57Riccardo RigonTuesday, March 6, 12
  • 68. Inferenza statistica e statistica descrittiva 3 Simulazione 2 Risultati della simulazione > Mean [1] 4.75 > Var [1] 7.1875 > MeanSampDistr [1] 4.73943 > VarSampDistr [1] 3.578548 > Var/n [1] 3.59375 Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 28 58Riccardo RigonTuesday, March 6, 12
  • 69. Inferenza statistica e statistica descrittiva 3 Simulazione 2 • Popolazione: µ = 4.75, 2 = 7.1875. • Distribuzione campionaria della media: µx = 4.75, ¯ 2 x ¯ = 3.59375. • Risultati della simulazione: µx = 4.73943, ˆx = 3.578548. ˆ¯ 2 ¯ Corrado Caudek Tecniche di Ricerca Psicologica e di Analisi dei Dati 29 59Riccardo RigonTuesday, March 6, 12
  • 70. Inferenza statistica e statistica descrittiva Grazie per l’attenzione! G.Ulrici - Uomo dope aver lavorato alle slides , 2000 ? 60Riccardo RigonTuesday, March 6, 12
  • 71. Inferenza statistica e statistica descrittiva http://www.treccani.it/scuola/dossier/2010/statistica/d_agostini.html 61Riccardo RigonTuesday, March 6, 12