Appunti statistica descrittiva 2

970 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
970
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
26
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Appunti statistica descrittiva 2

  1. 1. Note di Statistica e Calcolo della probabilità DATI e PREVISIONI Note di base sulla Statistica e Calcolo della probabilità 2° Incontro: Indici statistici. Correlazione tra dati Enrico SmargiassiBologna, 18 Febbraio 2013 1
  2. 2. Note di Statistica e Calcolo della probabilitàIndici StatisticiPercentiliI percentili sono indici statistici di posizione non centrale che si definiscono similmente allamediana che ne è un caso particolare.In generale si definirà (con ) il più piccolo valore deidati ordinati, , tale che la percentuale 100 di dati sia minore o uguale aPiù in particolare si fa uso spesso di: primo quartile che è il valore del campione di dati per cui il numero di dati con valore inferiore o uguale a è almeno il 25% terzo quartile che è il valore del campione di dati per cui il numero di dati con valore inferiore o uguale a è almeno il 75% secondo quartile che è il valore mediano del campione,Anche in questo calcolo, come per la mediana, se non è un numero intero si prendecome valore del percentile il valore successivo, ovveroSe se è invece un numero intero si può prendere come valore del percentilequalunque valore compreso tra (compreso) e ; solitamente si fa uso del valorepiù piccolo o del valore medio (aritmetico) ESEMPIO 6 Carattere osservato  peso in g di bambini nati in un dato ospedale in un mese Campione di dati  Cardinalità  n = 30 Tipo di dato  quantitativo continuo Ordiniamo i dati: Calcoliamo alcuni percentili: 1° quartile  0.25-percentile  2° quartile (mediana)  0.5-percentile  3° quartile  0.75-percentile  0.10-percentile Bologna, 18 Febbraio 2013 2
  3. 3. Note di Statistica e Calcolo della probabilità Aggreghiamo e rappresentiamo graficamente i dati. Il campo di variazione dei dati è l’intervallo [1800; 5000] di ampiezza 3200 g La regola di Sturges: ci suggerisce il numero di classi che fissiamo a 6. Ogni classe potrebbe avere un’ampiezza di Considerando i dati a disposizione scegliamo 500 come ampiezza di una classe. Classe Frequenza Frequenza Frequenza Frequenza Ik assoluta relativa percentuale relativa Nk fk f% k cumulativa 1800  x < 2300 3 10 % 0.10 2300  x < 2800 6 200 % 0.30 2800  x < 3300 7 23 % 0.53 3300  x < 3800 6 20 % 0.73 3800  x < 4300 5 17 % 0.90 x  4300 3 10 % 1.00 Totale 30 1 100 % Frequenza relativa fi mediana 1° quartile 0,25 3220 2760 0.10-percentile 3° quartile 2230 3860 0,2 0,15 0,1 0,05 0 2050 2550 3050 3550 4050 4850 Peso (g)Bologna, 18 Febbraio 2013 3
  4. 4. Note di Statistica e Calcolo della probabilitàIndici di dispersione o di variabilitàConsideriamo di prendere la media campionaria come indice di centralità del campionedei dati. E’ ovvio che tale indice non è sufficiente per caratterizzare completamente ilcampione, poiché ci sono campioni che hanno lo stesso valor medio, ma con datidistribuiti in modo molto diverso rispetto al valore “centrale”.E’ necessario, quindi, fornire una misura di questa dispersione del campione.Vi sono molti modi per valutare la dispersione, ma generalmente si parte dagliscostamenti che i dati hanno rispetto al valore centrale scelto, ovveroConsiderandoli senza segno per evitare compensazioni, cioèSembra ragionevole considerare allora la media di tutti gli scostamenti come misura didispersione:Questo valore è un primo indice di dispersione noto come Scarto medio assoluto.Si può matematicamente evitare di maneggiare il modulo dei dati (il modulo non èadditivo, non è derivabile,…), considerando il quadrato degli scarti.Si ottiene così la definizione di varianza.Varianza campionaria (4)si usa talvolta il simbolo per riferirsi al campione in oggetto.Se i dati hanno una dimensione allora anche la varianza ha una dimensione, la stessa di xal quadrato (es. x  m  m2)Pertanto si utilizza invece della varianza la sua radice quadrata che ha la stessadimensione dei dati.Scarto quadratico medio (o deviazione standard) (5)Il termine deviazione standard è più usato in ambito della statistica inferenziale.Tanto maggiore è la distanza media dei dati dal “suo centro”, maggiore è il valore dellavarianza, che appunto fornisce una misura della dispersione o variabilità del campione.Nel caso di dati aggregati, secondo le modalità o le classi, valgono le seguenti relazioniper il calcolo della varianza e lo scarto quadratico medio, dove k indica il numero dellemodalità o di classi:Bologna, 18 Febbraio 2013 4
  5. 5. Note di Statistica e Calcolo della probabilità (6)Molto spesso, nel calcolo della varianza si usa una espressione che prevede dove l’uso di n-1 piuttosto che n è giustificato e più idoneonell’ambito della statistica inferenziale, dove si affronta il problema della stima deiparametri delle distribuzioni.Nel caso di un’analisi dati di tipo solo descrittivo continuiamo ad utilizzare l’espressione (4)Alcune proprietà della varianza 1. Formula pratica per il calcolo della varianza - =n =n Pertanto (7) Cioè la varianza è calcolabile come la media dei quadrati dei dati diminuita del quadrato della media. 2. Trasformazione della varianza al cambiamento lineare della base dati Se x è una variabile con un campione di dati e i dati sono traslati di un offset con conseguente modifica del campione di dati allora la varianza rimane inalterata, cioè (la dispersione non cambia per un offset!) Infatti: Se invece la trasformazione dei dati riguarda una trasformazione di scala, allora la relazione delle varianze è data da Infatti: dove in entrambe le relazioni si è sfruttata la proprietà della media per una trasformazione lineare dei dati.Bologna, 18 Febbraio 2013 5
  6. 6. Note di Statistica e Calcolo della probabilità 3. La varainza come minimo di un funzionale Se consideriamo la funzione reale a valore reale: definita per un dato campione di dati. Allora V(x) assume valore minimo per cioè quando lo scostamento è calcolato rispetto al valore medio. Infatti: OSSERVAZIONE Se consideriamo la funzione somma degli scostamenti in modulo allora essa è minima quando si prende x uguale alla mediana dei dati disposizione. 4. Variabile standardizzata Se invece della variabile osservata x, relativa al campione si considera la variabile: con campione di dati allora quest’ultima è una variabile centrata e ridotta, cioè con media nulla e varainza unitaria. Infatti: dove si sono sfruttate le proprietà della media e della varianza. 5. Coefficiente di variazione Come indice di dispersione di un campione si può utilizzare anche il rapporto dello scarto quadratico medio con la media campionaria, ovvero: Il coefficiente di variazione esprime la deviazione standard come percentuale della media. Essendo misurate con la stessa unità di misura, cv è un indice adimensionale e quindi si presta ad essere utilizzato per confrontare la dispersione di campioni diversi e non omogenei.Bologna, 18 Febbraio 2013 6
  7. 7. Note di Statistica e Calcolo della probabilità ESEMPIO 7 Carattere osservato  tempi in minuti per l’esecuzione di un determinato processo di lavorazione Campione di dati  Cardinalità  n = 10 Tipo di dato  quantitativo discreto Indici di posizione e di dispersione  disponiamo i dati in una tabella (numero di dati limitato) Media  (min) 2.6 6.76 Varianza  1.8 3.24 2.1 4.41 1.5 2.25 2.8 7.84 Scarto quadratico medio  3.0 9.00 1.2 1.44 1.9 3.61 2.3 5.29 Coefficiente di variazione  2.8 7.84 Somma 22.0 51.68 E’ ragionevole dedurre che il campione è poco disperso intorno al suo valore centraleBologna, 18 Febbraio 2013 7
  8. 8. Note di Statistica e Calcolo della probabilità PROBLEMA 9 Per la partecipazione a una gara di chimica una scuola deve proporre una squadra di 6 alunni di una stessa classe. La scuola organizza un test preliminare per scegliere la squadra. Il test che ha un punteggio massimo di 100 punti, ha permesso di individuare 3 classi sulla media dei migliori 6 punteggi conseguiti dagli alunni di una stessa classe. Questo valore medio è però uguale per le tre squadre che quindi risultano a pari merito. Con quale criterio può essere scelta la squadra da mandare alla gara? I dati (punteggi nel test)  Classe A Classe B Classe C (/100) (/100) (/100) Punteggio alunni 72 5184 74 5476 73 5329 75 5625 75 5625 76 5776 78 6084 80 6400 79 6241 83 6889 81 6561 82 6724 84 7056 83 6889 84 7056 86 7396 85 7225 84 7056 Somma 478 38234 478 38176 478 38182 Per ciascuna classe il punteggio medio del test è stato Mentre la varianza risulta essere: Sebbene di poco è ragionevole scegliere la classe B perché ha una dispersione inferiore e quindi il team offre maggiori garanzie di successo.Bologna, 18 Febbraio 2013 8
  9. 9. Note di Statistica e Calcolo della probabilità PROBLEMA 10 Una azienda produce pistoncini e deve fornire, come specifiche, le caratteristiche dimensionali del prodotto. Per questo si effettua un test a campione prendendo la misura della lunghezza di 40 pistoncini scelti casualmente. I dati (lunghezze in cm)  Calcoliamo la media e lo scarto quadratico medio. La numerosità del campione ci permetterebbe anche di dividere in classi il nostro carattere osservato, ma la precisione del problema impone un calcolo puntuale, dato per dato: (cm) (cm) (cm) (cm) 2.08 4.3264 2.11 4.4521 2.03 4.1209 2.08 4.3264 2.07 4.2849 2.10 4.41 2.10 4.41 2.14 4.5796 2.11 4.4521 2.12 4.4944 2.07 4.2849 2.07 4.2849 2.09 4.3681 2.15 4.6225 2.13 4.5369 2.11 4.4521 2.10 4.41 2.07 4.2849 2.09 4.3681 2.13 4.5369 2.05 4.2025 2.06 4.2436 2.05 4.2025 2.08 4.3264 2.12 4.4944 2.10 4.41 2.11 4.4521 2.09 4.3681 2.06 4.2436 2.08 4.3264 2.10 4.41 2.10 4.41 2.05 4.2025 2.09 4.3681 2.09 4.3681 2.15 4.6225 2.09 4.3681 2.13 4.5369 2.02 4.0804 2.03 4.1209 somma 20.82 43.3526 21.01 44.1489 20.79 43.2339 20.98 44.0278 Valore medio  Varianza   Da questa semplice analisi si può supporre che la lunghezza “tipica” prodotta sia 2.09 cm, ma sicuramente non è molto corretto affermare che l’errore associato sia  0.03 cm, ovvero descrivere le dimensioni del pistoncino come (2.09  0.03) cm. Per approfondire la situazione domandiamoci quanti dati del nostro campione rientrano nell’intervallo , e quanti rientrano nell’intervallo ?Bologna, 18 Febbraio 2013 9
  10. 10. Note di Statistica e Calcolo della probabilitàVisualizziamo graficamente 2,16 2,15 2,14 2,13 2,12 2,11 lunghezza (cm) 2,10 2,09 2,08 2,07 2,06 2,05 2,04 2,03 2,02 2,01 0 5 10 15 20 25 30 35 40 N. datoIl numero di dati campione che rientrano nell’intervallo sono 28 mentrequelli che rientrano nell’intervallo sono 39.Pertanto il prodotto può essere commercializzato indicando come specificadimensionale il valore di cioè (2.090.06) cm.[NOTA Qui non si parla di tolleranza meccanica ma di un errore da associarestatisticamente, dovuto a componenti casuali]PROBLEMA 11Una ditta che si occupa di trasporti e logistica deve decidere se far pagare il trasportodi alcuni pacchi prodotti da una Azienda in termini di peso o di volume.Pertanto deve analizzare se la maggiore variabilità si ha relativamente al peso o alvolume dei pacchi da trasportare in un determinato tempo (es. settimana).I dati  (peso e volume)Bologna, 18 Febbraio 2013 10
  11. 11. Note di Statistica e Calcolo della probabilità Poiché le grandezze d’interesse sono diverse (anche se correlate)ed utilizzano unità di misura diverse, non è possibile confrontare direttamente l’indice di dispersione fornito dallo scarto quadratico medio. Ricorriamo quindi al coefficiente di variazione che è un indice senza dimensione: Si deduce che si ha una maggiore variabilità nel volume dei pacchi rispetto al loro peso. Converrebbe (dal punto di vista di chi fornisce il servizio del trasporto) differenziare le tariffe in funzione del volume dei pacchi. PROBLEMA 12 Caratterizzare la quantità di grassi nel latte di un allevamento bovino di mucche di 3 anni. I dati (percentuale di grassi % raccolti in un giorno per ogni bovino)  4.32 3.96 3.74 4.10 4.33 4.23 4.28 4.15 4.49 4.67 4.24 4.48 4.12 4.10 4.09 4.42 4.00 4.16 4.67 4.03 4.29 4.05 4.11 4.29 3.89 4.20 4.33 3.86 3.99 3.91 3.88 3.74 4.42 4.27 3.97 4.24 4.00 4.02 3.87 3.81 4.81 4.25 4.10 4.40 4.70 4.09 4.38 4.32 5.00 4.60 4.00 4.71 4.38 4.06 3.97 4.31 4.30 4.41 4.24 4.20 4.51 4.24 3.94 4.17 4.06 3.93 4.38 4.22 3.95 4.35 4.09 4.28 4.18 3.56 3.99 4.38 4.46 3.96 4.16 4.08 3.97 3.70 4.17 3.86 4.05 3.89 3.82 4.33 3.58 4.60 3.89 4.20 4.14 3.57 4.38 3.91 4.34 3.98 3.72 4.82 3.66 3.77 3.97 4.91 4.52 3.66 4.20 3.83 3.97 4.36 4.05 4.58 3.70 4.07 3.89 4.66 3.92 4.09 4.88 4.58 Cardinalità  120 Poiché i dati sono numerosi e la quantità sotto osservazione è considerabile continua, aggreghiamo i dati raccolti tramite classi della grandezza osservata. Determiniamo inizialmente il range di variabilità del nostro campione e il numero adeguato di classi. Range di variabilità  [3.56; 5.00] Numero di classi  regola di SturgesBologna, 18 Febbraio 2013 11
  12. 12. Note di Statistica e Calcolo della probabilità Ogni classe avrà una ampiezza di Costruiamo ora la tabella della frequenza, aggiungendo anche i dati necessari per determinare gli indici statistici che interessano Classe Frequenza Frequenza Valore Valore Prodotto Prodotto Ik assoluta relativa centrale centrale ponderato ponderato Nk fk xk (%) (xk)2 fkxk fk(xk)2 3.56  x < 3.74 8 0.067 3.65 13.3225 0.24455 0.892608 3.74  x < 3.92 16 0.133 3.83 14.6689 0.50939 1.950964 3.92  x < 4.10 30 0.250 4.01 16.0801 1.00250 4.020025 4.10  x < 4.28 24 0.200 4.19 17.5561 0.83800 3.511220 4.28  x < 4.46 22 0.183 4.37 19.0969 0.79971 3.494733 4.46  x < 4.64 8 0.067 4.55 20.7025 0.30485 1.387068 4.64  x < 4.82 5 0.042 4.73 22.3729 0.19866 0.939662 x  4.82 7 0.058 4.91 24.1081 0.28478 1.398270 Totale 120 1 4.18240 17.5945 Calcoliamo la media campionaria della percentuale di grassi Calcoliamo la varianza e lo scarto quadratico medio della percentuale di grassi Le nostre mucche hanno quindi un contenuto percentuale medio di grassi pari a 4.18 % Con una dispersione di circa 0.32 %La media e lo scarto quadratico medio sono i due indici di posizione e di dispersione piùusati.Uno dei motivi principali è che la distribuzione normale, che viene largamente utilizzata inmolti campi diversi, è definita in termini di questi due parametri.Nell’elaborazione pura dei dati di un campione si possono usare altri indici, sia di posizionecome abbiamo già visto, e sia di variabilità.In particolare vediamo come si possa usare la mediana e i percentili per sintetizzare i datidi un campione.Bologna, 18 Febbraio 2013 12
  13. 13. Note di Statistica e Calcolo della probabilitàESEMPIO 8Carattere osservato  esito di un esame universitario scritto giudicato sufficiente persostenere il dialogo oraleCampione di dati Cardinalità  n = 35Tipo di dato  quantitativo discretoOrdiniamo i dati:Calcoliamo i quartili: 1° quartile  0.25-percentile  2° quartile (mediana)  0.5-percentile  3° quartile  0.75-percentile Allora è possibile considerare la mediana come indice di centralità e la nuova grandezza , nota come l’ampiezza dell’intervallo interquartile [ ; ] rappresenta un indice divariabilità indicando che in tale intervallo vi è il 50 % dei valori centrali del campione.Nel caso specificoL’utilizzo dei suddetti indici ha una efficace rappresentazione grafica, nota come box-plot,che consente anche un rapido confronto tra campioni diversi ma omogenei. Voto (/30) 30 Xn=max{xi} Permette un rapido confronto con i dati di q3 un altro campione 25 Modalità del carattere 20 mediana q1 15 x1=min{xi}Bologna, 18 Febbraio 2013 13
  14. 14. Note di Statistica e Calcolo della probabilitàIndici di forma e di simmetriaUnaltra caratteristica interessante per descrivere i dati di un campione è la forma delladistribuzione delle frequenze (forma dell’istogramma).Il riferimento usato per confrontare queste forme è la nota “forma a campana” in cui idati si distribuiscono in modo simmetrico rispetto ad un valore centrale e con unandamento “tipico”.L’andamento tipico è quella delladistribuzione normale di Gauss cheaccenneremo nella sezione diapprofondimento, e la cui formafunzionale è, per una variabile continua: (8)Quando i dati sono così oapprossimativamente così distribuiti sidicono appunto normali o approssimativamente normali. Per una distribuzione normalemediana e media coincidono e inoltre essa è caratterizzata solo da due parametri: valormedio e deviazione standard (come si può vedere dalla forma funzionale).Se una distribuzione di dati è approssimativamente normale, con media campionaria edeviazione standard , allora vale la seguente regola empirica : ▪ Circa il 68% dei dati hanno valori compresi tra , cioè appartenenti all’intervallo ▪ Circa il 95% dei dati hanno valori compresi tra , cioè appartenenti all’intervallo ▪ Circa il 99.7% dei dati hanno valori compresi tra , cioè appartenenti all’intervalloBologna, 18 Febbraio 2013 14
  15. 15. Note di Statistica e Calcolo della probabilità mediana medianaSe una distribuzione si allontana dalla forma normale presenterà una asimmetria che laporterà ad avere una coda a sinistra o a destraUna asimmetria a sinistra è detta anche negativa, mentre una a destra anche positiva.In questo caso la mediana e la media hanno valori distinti.Se la media è inferiore alla mediana la distribuzione è asimmetrica negativa e viceversa.Come possiamo costruire un indice di asimmetria ?Vi sono diverse possibilitàPartiamo generalizzando il concetto di media e di varianza, considerandoli casi particolaridi una famiglia di valori calcolabili a partire da un campione di dati, ovvero i momenticentrali di ordine k, cioè:Dove k=1  e ci permette di definire la media k=2  è la definizione di varianzaIl momento centrale di ordine 3 può essere utilizzato per caratterizzare l’asimmetria delladistribuzione, in quanto l’elevamento alla terza potenza amplifica le distanze maggiori trail dato campionato e la media, così come riduce le distanze minori.In generale risulterà positivo quando la distribuzione avrà una coda verso destradistribuendo i dati più lontano dalla media, mentre risulterà negativo quando la codadella distribuzione sarà verso sinistra.Se, invece sarà vicino a zero, ciò indicherà che i dati sono distribuiti simmetricamenteintorno al valore centrale.Nel caso particolare della distribuzione normale (8), si haBologna, 18 Febbraio 2013 15
  16. 16. Note di Statistica e Calcolo della probabilitàPoiché il momento si porta con se solitamente una dimensione, per consentire unimmediato confronto fra distribuzioni diverse, si definisce indice di asimmetria o skewnessla quantità adimensionaleOsserviamo che questo indice è invariante per una trasformazione lineare dei dati delcampione ESEMPIO 9 I clienti di un supermercato sono stati classificati sulla base dell’entità delle loro spese fatte in un giorno. I dati sono raccolti nella seguente tabella, dove sono state già aggregati per classi e dove si è fissato un limite massimo di 160 euro I dati  Classe Frequenza Frequenza Valore Valore Prodotto Prodotto Ik assoluta relativa centrale centrale ponderato ponderato (spesa in euro) Nk fk xk (euro) (xk)2 fkxk fk(xk)2 0  x < 20 165 0.233 10 100 2.33 23.3 20  x < 40 212 0.299 30 900 8.97 269.1 40  x < 60 129 0.182 50 2500 9.10 455.0 60  x < 80 78 0.110 70 4900 7.7 539.0 80  x < 100 56 0.079 90 8100 7.11 639.9 100  x < 120 32 0.045 110 12100 4.95 544.5 120  x < 140 25 0.035 130 16900 4.55 591.5 140  x < 160 12 0.017 150 22500 2.55 382.5 Totale 709 1 47.26 3444.8 Pertanto il valore medio vale La varianza e la deviazione standard risultano: Calcoliamo anche la mediana, per confronto: classe modale  2a poiché quindi la differenza tra media e mediana ci suggerisce che la distribuzione dei dati sia asimmetrica. Pertanto calcoliamo l’indice di asimmetria Classe Frequenza Frequenza Valore Scarto dalla Cubo dello Prodotto Ik assoluta relativa centrale media scarto ponderato (spesa in euro) Nk fk xk (euro) xk - x (xk – x)3 fk(xk – x)3 0  x < 20 165 0.233 10 -37 -50653 -11802,15 20  x < 40 212 0.299 30 -17 -4913 -1468,987 40  x < 60 129 0.182 50 3 27 4,914 60  x < 80 78 0.110 70 23 12167 1338,37 80  x < 100 56 0.079 90 43 79507 6281,053 100  x < 120 32 0.045 110 63 250047 11252,12 120  x < 140 25 0.035 130 83 571787 20012,55 140  x < 160 12 0.017 150 103 1092727 18576,36 Totale 709 1 43194,256Bologna, 18 Febbraio 2013 16
  17. 17. Note di Statistica e Calcolo della probabilità Calcoliamo l’indice di skewness L’indice è positivo e maggiore di 1. Ciò ci dice che la distribuzione è (abbastanza) asimmetrica positiva (coda a destra). 0,350 mediana = 37 0,300 media = 47 0,250 0,200 0,150 0,100 0,050 0,000 10 30 50 70 90 110 130 150E’ possibile ottenere anche una stima dell’indice di asimmetria tramite la seguente regola(empirica) suggerita da Pearson dove è la mediana Applichiamo la stima proposta all’esempio precedente: La stima sottostima il valore calcolato, ma in ogni caso esprime comunque l’asimmetria positiva.Ovviamente possono esistere modi diversi di esprimere l’asimmetria di una distribuzione difrequenze.Unaltra caratteristica della forma della distribuzione che può essere catturata è la Kurtosi.La Kurtosi è un indice di forma che misura il peso relativo che ha le code delladistribuzione rispetto alla parte centrale, cioè quanto la distribuzione è a "punta" versol’alto.In modo più analitico, la Kurtosi esprime l’ordine d’infinitesimo della densità di probabilitàdi una variabile aleatoria, rispetto alla distribuzione normale, cioè se la densità in oggettotende a 0 “più o meno velocemente” di quella normale.Bologna, 18 Febbraio 2013 17
  18. 18. Note di Statistica e Calcolo della probabilitàLa Kurtosi si esprime comeAnche la Kurtosi è un invariante rispetto ad una trasformazione lineare dei dati.La costante 3 nella formula indicata entra in gioco perché nel caso della distribuzionenormale vale 0.In particolare si ha: ▪ KURT > 0  code leggere – appuntite ▪ KURT = 0  rapporto code/parte centrale come la normale ▪ KURT < 0  code pesanti KURT > 0 KURT = 0 KURT < 0Anche per la Kurtosi si può proporre una stima empirica data dalla seguente relazioneBologna, 18 Febbraio 2013 18
  19. 19. Note di Statistica e Calcolo della probabilitàCorrelazione tra più caratteriTalvolta per lo stesso campione si osservano più caratteri (peso, altezza,…) e se i caratterisono quantitativi è naturale porsi il problema del’esistenza di una correlazione tra icaratteri.Nel caso in cui si suppone l’esistenza di un legame tra le grandezze, che può nasceredall’osservazione dei dati od anche da informazioni esterne (es. informazioni provenientida ambiti scientifici che trattano lo studio delle grandezze in oggetto), deve essereindividuato il tipo “funzionale” della relazione.Risolvere, quindi, il problema della correlazione tra caratteri significa individuare il legamefunzionale tra le grandezze coinvolte e fornire una misura della bontà del risultatoottenuto.Analizziamo inizialmente il caso più semplice, dove per ogni individuo di un campionevengono osservate due grandezze: carattere x  campione carattere y  campioneAggreghiamo i dati in un unico campione Dove l’ordine tra le grandezze è del tutto arbitrario.In primo luogo ci affidiamo ad una rappresentazione grafica per valutare la possibilitàche ci sia un qualche tipo di correlazione, riportando i dati su un grafico “cartesiano”dove gli assi rappresentano i valori delle modalità di ogni carattere e ogni osservazionecongiunta (cioè che si riferisce allo stesso individuo del campione) costituisce unpunto del grafico stesso.Questo tipo di grafico si chiama diagramma di dispersione o scatter plot.y No apparente correlazione y Si apparente correlazione x xBologna, 18 Febbraio 2013 19
  20. 20. Note di Statistica e Calcolo della probabilitàIl secondo diagramma evidenzia una certa regolarità: punti con ascissa piccola hannoordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso siparla di correlazione diretta o positiva fra le due variabili.Analogamente si potrà parlare di correlazione inversa o negativa fra le due grandezze.Dallo stesso grafico si può ipotizzare una correlazione tra le due variabili di tipo lineare.Correlazione lineareSe i dati sono correlati in modo lineare allora sarà possibile determinare il valore di dueparametri, a e b, in modo tale cheCioè i valori rilevati del carattere y possono essere approssimativamente dedotti da quelliosservati per il carattere x, tramite la suddetta relazione.La relazione funzionale rappresenta una retta del piano Oxy e sarà la retta“che meglio si avvicina” ai dati a disposizione.Tale retta è detta retta di regressionePer trovare la retta di regressione è necessario dapprima definire un criterio di scelta,ovvero definire cosa si intende per “avvicinamento migliore” ai dati.E’ naturale considerare la differenza tra i dati sperimentali osservati di una grandezza equelli dedotti applicando la relazione prevista ai dati dell’altro carattere, cioèdove il simbolo e sta a indicare l’errore che si commette applicando la dipendenzalineare.Bologna, 18 Febbraio 2013 20
  21. 21. Note di Statistica e Calcolo della probabilitàUn criterio adeguato potrebbe essere di minimizzare la somma di tutte le suddettedifferenzeQuesto criterio non consente di avere una unica soluzione al problema di determinare icoefficienti a e b. Infatti se consideriamo solo due punti, è ovvio che la retta migliore èquella che passa per i punti stessi, ma qualunque altra retta che passa per il punto mediodei due punti fornisce ugualmente un valore nullo allo suddetta somma che quindi laminimizza.Allo stesso modo se si considera la somma dei moduli degli errori come funzione obiettivoda minimizzare, e cioè , si ha ancora una infinità di soluzioni alproblema. Basta pensare al caso di 4 punti, dove qualunque retta compresa tra le dueche uniscono i punti a due a due soddisfa il suddetto criterio.Il criterio migliore e coerente da utilizzare è quello noto come CRITERIO DEI MINIMIQUADRATI, cioè quello di minimizzare la funzione obiettivoQuindi, sintetizzando, si può dire che la retta di regressione o la retta dei minimi quadrati èla retta di equazione per la quale è minima la quantitàMatematicamente il problema si risolve considerando la funzione obiettivo come funzionedelle due variabili a e b:E quindi ricercando il minimo della stessa funzione.Condizione necessaria affinché un punto (a,b) sia un minimo per F(a,b) è che le derivateparziali rispetto alle variabili indipendenti si annullino (matrice Jacobiana nulla):Bologna, 18 Febbraio 2013 21
  22. 22. Note di Statistica e Calcolo della probabilità La retta passa per il puntoOsserviamo cheInoltre si definisce la nuova quantità, rilevante nei problemi di correlazione, nota comecovarianza di x e yLa cui definizione di base è:Infatti –Riformuliamo quindi le espressioni per i coefficienti della retta di regressione: (9)Le condizioni espresse nella (9) garantiscono anche che la matrice hessiana sia definitapositiva, cioè che il punto critico individuato sia un punto di minimo,Bologna, 18 Febbraio 2013 22
  23. 23. Note di Statistica e Calcolo della probabilitàLo studio autonomo della covarianza fornisce alcune informazioni che vanno oltre lacaratterizzazione della retta d’interpolazione, ovvero consente di classificare il tipo dicorrelazione. Infatti: Se la retta di regressione è orizzontale (il coefficiente angolare della retta è nullo) e in un certo senso i valori di y non dipendono da quelli di x, cioè le grandezze non sono correlate. Questo accadrebbe, come esempio, se x e y fossero l’esito del lancio di due dadi. y xy  0 x Questa situazione può nascondere però una altra situazione, ovvero che la dipendenza tra le due grandezze non sia considerabile lineare. La figura di seguito indica una chiara correlazione quadratica, ma la covarianza risulta ugualmente nulla. y xy  0 x Se allora anche il coefficiente angolare della retta è positivo e quindi la funzione è crescente. In questo caso la correlazione si dice diretta o positiva (es. peso vs altezza) y xy > 0 xBologna, 18 Febbraio 2013 23
  24. 24. Note di Statistica e Calcolo della probabilità Se allora anche il coefficiente angolare della retta è negativo e quindi la funzione è decrescente. In questo caso la correlazione si dice inversa o negativa (es. vs altezza) y xy < 0 xUn altro parametro significativo nei problemi d’interpolazione di grandezze è ilcoefficiente di correlazione dei caratteri x e yPoiché in generaleQuindi Se allora si ha scarsa correlazione tra i caratteri Se allora si ha una ottima correlazione (antagonista) tra i caratteri Se allora si ha una ottima correlazione (all’unisono) dei caratteriL’uso del coefficiente di correlazione è diffuso proprio perché fornisce un indiceimmediato della bontà della correlazione (lineare). Se il suo valore senza segno è moltovicino a 1 indica una alta probabilità dell’effettivo legame lineare tra le grandezze.Inoltre il coefficiente di correlazione è insensibile ad eventuali cambiamenti della scale dimisura della x e/o della y, a differenza della covarianza.Bologna, 18 Febbraio 2013 24
  25. 25. Note di Statistica e Calcolo della probabilità ESEMPIO 10 Ad una persona mentre cammina vengono misurate la velocità del movimento e la quantità di ossigeno consumata. C’è una correlazione tra le due grandezze ? I dati (velocità in km/h e quantità di ossigeno in litri/h)  Velocità Ossigeno (km/h) (litri/h) 0 19 1 20 2 20.5 3 21.5 4 22 5 23 6 23 7 23.5 8 24 x y Proviamo a correlare le grandezze in modo lineare, costruendo la seguente tabella che racchiude tutti i valori necessari xi yi xi yi xi2 yi2 0 19 0 0 361 1 20 20 1 400 2 20.5 41 4 420.25 3 21.5 64.5 9 462.25 4 22 88 16 484 5 23 115 25 529 6 23 138 36 529 7 23.5 164.5 49 552.25 8 24 192 64 576 Somma 36 196.5 823 204 4313.75 Da cui; media campionaria della grandezza x  media campionaria della grandezza y     = 91.444  Bologna, 18 Febbraio 2013 25
  26. 26. Note di Statistica e Calcolo della probabilità Varianza campionaria della grandezza x  Deviazione standard della grandezza x  Varianza campionaria della grandezza y  Deviazione standard della grandezza y  Covarianza  I coefficienti della retta di regressione sono ora calcolabili come Pertanto la retta di regressione è Il coefficiente di correlazione relativo è: La correlazione è buona! 25 24 23 Consumo ossigeno (litri/h) 22 21 y = 0,6167x + 19,367 20 R² = 0,9709 19 18 17 16 15 0 1 2 3 4 5 6 7 8 9 Velocità (km/h)Bologna, 18 Febbraio 2013 26
  27. 27. Note di Statistica e Calcolo della probabilitàRegressione polinomiale e metodi di linearizzazioneLo stesso principio dei minimi quadrati si può applicare per stimare i coefficienti di unainterpolazione tramite un polinomio di grado n.Consideriamo, come esempio, il caso di una dipendenza quadratica:Legame funzionale Funzione obiettivo da minimizzare Sistema lineare da risolvere (matrice Jacobiana nulla) Se la legge funzionale ipotizzata non è polinomiale ma ti tipo potenza si puòprocedere alla linearizzazione e quindi applicare i suddetti metodi di interpolazione.In particolare, la linearizzazione è effettuata utilizzando il logaritmo naturale:Legame funzionale Trasformazione della legge d’interpolazione Rinominando le variabili e i parametrisi ottiene la relazione lineare .Bologna, 18 Febbraio 2013 27
  28. 28. Note di Statistica e Calcolo della probabilitàUna volta determinati i parametri incogniti si possono ottenere i parametri della relazioneinizialeSe la legge funzionale è di tipo esponenziale si procede analogamente:Legame funzionale Trasformazione della legge d’interpolazione Rinominando le variabili e i parametrisi ottiene la relazione lineare .Una volta determinati i parametri incogniti si possono ottenere i parametri della relazioneinizialeAltri casi d’interesse: ▪ ▪ ▪ ▪ ▪ ▪Bologna, 18 Febbraio 2013 28
  29. 29. Note di Statistica e Calcolo della probabilitàObiettivi dell’incontro Ulteriori indici di posizione Indici di dispersione o di variabilità Varianza e deviazione standard Intervallo interquartile Indici di forma e simmetria Correlazione lineare tra grandezze Covarianza e coefficiente di correlazione Interpolazione polinomiale e linearizzazione APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassiBologna, 18 Febbraio 2013 29

×