Note di Statistica e Calcolo della probabilità                                             DATI e PREVISIONI           Not...
Note di Statistica e Calcolo della probabilitàSTATISTICAInizialmente (storicamente) la statistica si occupava della raccol...
Note di Statistica e Calcolo della probabilitàLa statistica descrittiva si occupa dellanalisi dei dati osservati, prescind...
Note di Statistica e Calcolo della probabilitàUn carattere quantitativo può essere discreto (es. numero di figli) o contin...
Note di Statistica e Calcolo della probabilitàSe il carattere è quantitativo e continuo non si può parlare di frequenza di...
Note di Statistica e Calcolo della probabilitàPrimi esempi di aggregazione. Rappresentazione dei dati ESEMPIO 1 Carattere ...
Note di Statistica e Calcolo della probabilità                     frequenza relativa fi                            freque...
Note di Statistica e Calcolo della probabilitàESEMPIO 2Carattere osservato  tipo di guasto (malfunzionamento) di una macc...
Note di Statistica e Calcolo della probabilità  ESEMPIO 3  Carattere osservato  quantità giornaliera (in g) di gas inqui...
Note di Statistica e Calcolo della probabilità  Scegliamo il numero di classi:       ▪                                    ...
Note di Statistica e Calcolo della probabilità  OSSERVAZIONE  La tecnica di aggregare i dati in classi è talvolta utile ed...
Note di Statistica e Calcolo della probabilità  Costruiamo la tabelle delle distribuzioni di frequenze, ma prima aggreghia...
Note di Statistica e Calcolo della probabilitàIndici Statistici (o statistiche)Gli indici statistici sono numeri che hanno...
Note di Statistica e Calcolo della probabilitàMedia aritmetica o campionaria                                              ...
Note di Statistica e Calcolo della probabilitàPrime proprietà della media aritmetica.    1. Se si applica una trasformazio...
Note di Statistica e Calcolo della probabilità         La stessa situazione si ha nel caso in cui due campioni di dati che...
Note di Statistica e Calcolo della probabilità         Allo stesso modo si potrebbe prendere un qualunque valore intermedi...
Note di Statistica e Calcolo della probabilitàApprofondimenti sul concetto di mediaPartiamo da un problema, che riassume a...
Note di Statistica e Calcolo della probabilitàAltri tipi di medie  PROBLEMA 1  In una popolazione di batteri si osserva ch...
Note di Statistica e Calcolo della probabilitàPROBLEMA 2n macchine utensili producono un stesso pezzo impiegando tempi div...
Note di Statistica e Calcolo della probabilità  PROBLEMA 3 (tipico nelle prove di selezione SISS, giochi matematici, …)  L...
Note di Statistica e Calcolo della probabilità         2. Poiché al ritorno la velocità tenuta è stata i 2/5 di quella del...
Note di Statistica e Calcolo della probabilità  Ma se invece volessimo calcolare la velocità media in relazione al calcolo...
Note di Statistica e Calcolo della probabilitàDefinizione generale di media di un campione di datiSi parlerà di media come...
Note di Statistica e Calcolo della probabilità    ▪    Media armonica    ▪    Media quadratica    Delle suddette medie esi...
Note di Statistica e Calcolo della probabilità    Il ragionamento funziona anche se il problema è posto dicendo che nella ...
Note di Statistica e Calcolo della probabilitàUlteriori considerazioni sul concetto della media    PROBLEMA 6    Ecco un a...
Note di Statistica e Calcolo della probabilità     PROBLEMA 7     Una famiglia è formata da 4 componenti ed un’altra famig...
Note di Statistica e Calcolo della probabilitàLa relazione ( 3) ci dice che le medie tipiche che conosciamo sono sempre co...
Note di Statistica e Calcolo della probabilità  Ora  se  Se  In caso contrario          torna ad essere interno ai dati   ...
Upcoming SlideShare
Loading in...5
×

Appunti statistica descrittiva 1

1,606

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,606
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
41
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Appunti statistica descrittiva 1

  1. 1. Note di Statistica e Calcolo della probabilità DATI e PREVISIONI Note di base sulla Statistica e Calcolo della probabilità 1° Incontro: Statistica descrittiva e Indici statistici Enrico SmargiassiBologna, 7 Febbraio 2013 1
  2. 2. Note di Statistica e Calcolo della probabilitàSTATISTICAInizialmente (storicamente) la statistica si occupava della raccolta di dati demografici edeconomici per uso dello Stato.Quindi si è sviluppata in un metodo scientifico di analisi: elabora ed interpreta datisperimentali.Ora è applicato a molte scienze, sociali, naturali, mediche, ingegneristiche, fisiche ed èuno dei rami più importanti della matematica.Parole chiavi: dati, previsioni.Come esempio di indagine statistica si consideri il classico problema: Come vota una popolazione ? Qual è la percentuale della popolazione che voterà una lista?1° metodoChiedere a ciascun votante di esprimere il voto e quindi elaborare tutti i dati (simile al DATIcensimento ISTAT)  Statistica descrittiva2° metodoEffettuare un sondaggio (exit poll), cioè selezionare un campione di votanti (solitamentequalche migliaio), chiedere una intenzione di voto, interpretare i dati e stimare quantoessi siano realistici, cioè corrispondano alla realtà dell’intera popolazione  Statisticainferenziale.Campioni diversi conducono spesso a risultati diversi. Ciò significa che ogni risultato PREVIdell’indagine statistica di tipo inferenziale possiede un grado di incertezza e un grado di SIONIfiducia sulla bontà del risultato stesso (corrispondenza con la realtà della popolazione).In termini tecnici: il risultato di una statistica inferenziale è una variabile casuale la cuitrattazione scientifica (matematica) deve avvenire tramite la Teoria del Calcolo delleProbabilità.Questo esempio ci fa capire che la statistica si occupa ▪ dello studio (di alcune caratteristiche) delle popolazioni, intese come oggetti a se, ▪ dello studio della variazione fra gli individui della popolazione rispetto alle caratteristiche sotto analisi, ▪ dello studio dei metodi di riduzione dei dati (solitamente numerosi).Una popolazione è un qualunque insieme di elementi che possano esprimere, in unaforma qualsiasi, la/e caratteristica/e oggetto dello studio.Abbiamo visto che si distingue tra statistica descrittiva e statistica inferenziale.Bologna, 7 Febbraio 2013 2
  3. 3. Note di Statistica e Calcolo della probabilitàLa statistica descrittiva si occupa dellanalisi dei dati osservati, prescindendo sia daqualsiasi modello probabilistico o teorico che descriva il fenomeno in esame e sia dalfatto che linsieme dei dati sia un campione estratto da una popolazione più vasta o siainvece lintera popolazione.Lo scopo principale è quello di ridurre il volume dei dati osservati, esprimendolinformazione rilevante per mezzo di grafici e di indicatori numerici che li descrivono.La statistica descrittiva include anche mezzi per fare indagini di tipo comparativo everificare l’adattamento di dati sperimentali ad un certo modello teorico.La statistica inferenziale ci permette invece di fare proposizioni sulla popolazionecomplessiva, a partire dallindagine su un campione estratto.Queste proposizioni non sono asserzioni perentorie, ma sono dotate di un certo grado difiducia nella loro certezza e per questo sono formulate con i metodi, precisi e quantitativi,del calcolo delle probabilità.Il contatto tra statistica e probabilità appare quindi doppio: da un lato c’è l’aleatorietàcon cui ogni individuo esprime la caratteristica (o carattere) sotto osservazione e dall’altroc’è l’incertezza nel selezionare un campione rappresentativo dell’intera popolazione.LA STATISTICA DESCRITTIVATermini e definizioniDati  di un campione o di una popolazione (non distinguiamo più) risultati di un carattere (o grandezza o variabile ) osservabile ed osservato (non necessariamente misurabile in senso stretto)Raccolta dati Paradigmi: misurazioni e misure, esperimenti ed esiti, osservazioni e risultati, …Dati grezzi Dati disordinatiTipi di dati ▪ Qualitativi (es. gruppo sanguigno: 0, A, B, AB) ▪ Quantitativi (es, peso)  carattere numericoIn realtà la distinzione tra carattere quantitativo e qualitativo sta nel fatto che su datiqualitativi non si può “operare aritmeticamente” (A+B = ?), e non perché gli uni sononumerici e gli altri non (si può sempre assegnare un codice numerico al grupposanguigno: 0, 1, 2, 3).Bologna, 7 Febbraio 2013 3
  4. 4. Note di Statistica e Calcolo della probabilitàUn carattere quantitativo può essere discreto (es. numero di figli) o continuo (es. altezzeindividui), dove discreto significa che i valori che quel carattere può assumere a priori è innumero finito o numerabile (corrispondenza biunivoca con N), mentre continuo indicache l’insieme dei valori assumibili costituiscono un intervallo di R.Si sottolinea che per decidere la natura di un carattere è necessario considerare l’insiemedi tutti i valori possibili con cui si può esprime quel carattere in una osservazione e nonquelli effettivamente assunti che sono sempre in numero finito.Un carattere qualitativo è sempre discreto.Si dice modalità di un carattere ogni valore che può assumere una variabile discreta inuna osservazione (o esperimento).Campione di datiL’insieme dei valori ottenuti in un insieme di osservazioni o esperimenti di un carattere(non si usa la parola serie o sequenza perché non deve esserci un ordine stabilito)n è la cardinalità del campione.Aggregare i datiSe il carattere osservato è discreto e ha k modalità di presentarsi con k << n è efficaceaggregare i dati partendo appunto dalle modalità e determinandone le frequenze (dipresentazione o di uscita):frequenza assoluta  Distribuzione delle frequenze assolute frequenza relativa  Distribuzione delle frequenze relative frequenza percentuale  Distribuzione delle frequenze percentuali OvviamenteBologna, 7 Febbraio 2013 4
  5. 5. Note di Statistica e Calcolo della probabilitàSe il carattere è quantitativo e continuo non si può parlare di frequenza di una specificamodalità del carattere, poiché di modalità c’è ne sono infinite.Si introduce quindi il concetto di classe che sostituisce quello di modalità e rispetto alquale si aggregano i dati.Se consideriamo un intervallo I che include il nostro campione di dati:con I che può essere limitato o illimitato, chiuso o (semi)aperto (da valutare caso per caso)Possiamo dividerlo in classi, cioè una famiglia di sottoinsiemi che costituisca unapartizione di I, cioè:Le classi spesso hanno la stessa ampiezza, nel caso di intervallo limitato, ma non è laregola.Le classi svolgono in questo caso lo stesso ruolo delle modalità del caso discreto rispettoalle quali si può costruire le distribuzioni di frequenze:frequenza assoluta della classe  Distribuzione delle frequenze assolute frequenza relativa della classe  Distribuzione delle frequenze relative frequenza percentuale della classe  Distribuzione delle frequenze percentuali Vediamo ora alcuni esempi esplicativi in cui costruiremo la tabella di distribuzione difrequenza e rappresenteremo tali distribuzione con metodi grafici.Bologna, 7 Febbraio 2013 5
  6. 6. Note di Statistica e Calcolo della probabilitàPrimi esempi di aggregazione. Rappresentazione dei dati ESEMPIO 1 Carattere osservato  tempo di attesa (in mesi) per eseguire un esame clinico Campione di dati  Cardinalità  n = 40 Tipo di dato  quantitativo discreto Insieme delle modalità  k=7 Costruiamo la tabella delle distribuzioni di frequenze Modalità Frequenza Frequenza Frequenza carattere assoluta relativa percentuale (mesi) Ni fi f% i 1 1 2.5 % Frequenza assoluta (Ni) 2 5 12.5 % 14 3 10 25.0 % 12 4 12 30.0 % 10 5 7 17.5 % 8 6 4 10.0 % 6 7 1 2.5 % 4 Totale 40 1 100 % 2 0 Metodo grafico  DIAGRAMMA A BARRE  1 2 3 4 5 6 7  ISTOGRAMMA  tempo attesa (mesi) (disegnato o costruito con fogli elettronici ) Tempo attesa (mesi) non necessariamente in 1 2 3 4 5 6 7 scala Modalità del 11 carattere 4 5 Curva (o poligono) di frequenza 7 10 12  DIAGRAMMA CIRCOLARE  Metodo grafico Frequenza assolutaBologna, 7 Febbraio 2013 6
  7. 7. Note di Statistica e Calcolo della probabilità frequenza relativa fi frequenza percentuale f% i 0,35 35,0 0,3 30,0 0,25 25,0 0,2 20,0 0,15 15,0 0,1 10,0 0,05 5,0 0 0,0 1 2 3 4 5 6 1 2 3 4 5 6 7 tempo attesa (mesi) tempo atteso (mesi)Sullo stesso diagramma si può accostare (con colore diverso) i dati dello stesso caratterepresi su una diversa popolazione o un diverso campione della stessa popolazione.(nell’esempio dati provenienti da Comuni diversi) frequenza relativa 0,35 0,3 0,25 0,2 Comune A 0,15 Comune B 0,1 Comune C 0,05 0 1 2 3 4 5 6 7 tempo attesa (mesi)Bologna, 7 Febbraio 2013 7
  8. 8. Note di Statistica e Calcolo della probabilitàESEMPIO 2Carattere osservato  tipo di guasto (malfunzionamento) di una macchina utensile. I dati siriferiscono ad un periodo di un meseCampione di dati  Fluttuazioni di tensione 6 Instabilità del sistema di controllo 22 Errore operatore 13 Strumento usurato e non sostituito 2 Altre cause 5 Totale 48Cardinalità  n = 48Tipo di dato  qualitativo (discreto)Insieme delle modalità  k=5Costruiamo la tabella delle distribuzioni di frequenze Modalità Frequenza Frequenza Frequenza carattere assoluta relativa percentuale (guasto) Ni fi f% i Fluttuazioni 6 12.5 % Instabilità 20 41.6 % Operatore 13 27.1 % Strumento 4 8.4 % Altro 5 10.4 % Totale 48 1 100 % frequenza relativa fi 0,45 0,4 0,35 0,3 L’ordine è 0,25 arbitrario, 0,2 ma si 0,15 centra 0,1 0,05 0 fluttuazioni instabilità operatore strumento altro Tipo di guasto nel mese ...Bologna, 7 Febbraio 2013 8
  9. 9. Note di Statistica e Calcolo della probabilità ESEMPIO 3 Carattere osservato  quantità giornaliera (in g) di gas inquinante prodotto da un impianto industriale (quantità di gas emesso/giorno) Campione di dati  15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2 22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7 26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7 19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0 18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5 14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1 8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5 Cardinalità  n = 80 Tipo di dato  quantitativo continuo Non lavoriamo con le modalità ma con le classi. Ma quanti classi?La scelta del numero delle classi è importante per mettere in evidenza le modalità delcarattere osservato.Il numero delle classi deve essere adeguato, ne piccolo ne grande rispetto allanumerosità del campione. Se le classi sono troppe, in ogni classe cisarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendoviconcentrati molti elementi, potrebbe sfuggirci la globalità della distribuzione. Ingenere il numero delle classi `e compreso fra 5 e 20.Vi sono delle regole, più o meno empiriche,quali: ▪ ▪ (regola di Sturges)Ogni classe (intervallo) avrà una ampiezza. Sebbene non necessariamente, ma èsolitamente conveniente che ogni classe abbia la stessa ampiezza. Nell’esempio 3, il numero di dati è n = 80. Il range di variabilità del campione è: Scegliamo l’intervallo che include il campione di dati:Bologna, 7 Febbraio 2013 9
  10. 10. Note di Statistica e Calcolo della probabilità Scegliamo il numero di classi: ▪ ▪ Definiamo che k = 8 Ogni classe avrà una ampiezza: Possiamo costruire la tabelle delle distribuzioni delle frequenze: Classe Frequenza Frequenza Frequenza Ik assoluta relativa percentuale Nk fk f% k 6.2  x < 9.125 4 5.000 % 9.125  x < 12.050 7 8.625 % 12.050  x < 14.975 9 11.250 % 14.975  x < 17.900 11 13.750 % 17.900  x < 20.825 20 25.000 % 20.825  x < 23.750 12 15.000 % 23.750  x < 26.675 11 13.750 % x  26.675 6 7.500 % Totale 80 1 100 % frequenza percentuale f% i 30,00 25,00 20,00 15,00 10,00 5,00 0,00 [6.2 ; [9.125 ; [12.050 ; [14.975 , [17.900 ; [20.825 ; [23.750 ; [26.675; 9.125[ 12.050[ 14.975[ 17.900[ 20.825[ 23.750[ 26.675[ +oo[ gas emesso/giorno (g)Bologna, 7 Febbraio 2013 10
  11. 11. Note di Statistica e Calcolo della probabilità OSSERVAZIONE La tecnica di aggregare i dati in classi è talvolta utile ed efficace anche nel caso di un campione di dati relativi ad un carattere quantitativo discreto.Distribuzione della frequenza cumulativa (relativa). Altro modo di aggregareOltre alle distribuzione delle frequenze già viste si può aggregare i dati di un campionecostruendo la distribuzione della frequenza cumulativa.La frequenza cumulativa si costruisce a partire dalla distribuzione di frequenza (assoluta, orelativa o percentuale) e si può applicare alle sole grandezze quantitative sia discreteche continue.Per frequenza cumulativa di una modalità (o classi) si intende la somma delle frequenzeassociate a tutte le modalità (o classi) di valore inferiore o uguale alla modalitàd’interesse.Se si ordina in senso crescente le modalità di un campioneAllo stesso modo si può usare la frequenza assoluta o percentuale. ESEMPIO 4 Carattere osservato  peso di studentesse di una scuola (in kg) Campione di dati  48 50 51 52 52 53 53 54 54 55 55 55 56 56 56 56 57 57 57 57 58 58 58 58 58 59 59 59 59 59 59 60 60 60 60 60 61 61 61 61 62 62 62 63 63 64 66 66 67 68 (i dati sono stati ordinati in senso crescente) Cardinalità  n = 50 Tipo di dato  quantitativo continuoBologna, 7 Febbraio 2013 11
  12. 12. Note di Statistica e Calcolo della probabilità Costruiamo la tabelle delle distribuzioni di frequenze, ma prima aggreghiamo i dati per classi. Il campo di variazione dei dati è l’intervallo [48; 68] di ampiezza 20 kg La regola di Sturges: ci suggerisce il numero di classi che fissiamo a 7. Ogni classe potrebbe avere un’ampiezza di Considerando che i dati sono tutti interi scegliamo 3 come ampiezza di una classe. Classe Frequenza Frequenza Frequenza Frequenza Ik assoluta relativa percentuale relativa Nk fk f% k cumulativa 48  x < 51 2 4% 0.04 51  x < 54 5 100 % 0.14 54  x < 57 9 18 % 0.32 57  x < 60 15 30 % 0.62 60  x < 63 12 24 % 0.86 63  x < 66 3 6% 0.92 x  66 4 8% 1.00 Totale 50 1 100 % Passiamo a rappresentare graficamente le distribuzioni di frequenza Frequenza relativa fi Frequenza relativa cumulativa 0,35 1,2 0,3 1 0,25 0,8 0,7 0,2 0,6 0,15 0,4 0,1 0,05 0,2 60 0 0 49 52 55 58 61 64 67 49 52 55 58 61 64 67 Sono stati indicati i valori centrali delle classiBologna, 7 Febbraio 2013 12
  13. 13. Note di Statistica e Calcolo della probabilitàIndici Statistici (o statistiche)Gli indici statistici sono numeri che hanno lo scopo di descrivere un campione di datirilevati e le loro distribuzioni di frequenze. Essi si applicano ad una variabile quantitativa,discreta o continua.In realtà il termine indice fa pensare ad un numero adimensionale, ma nel caso dellastatistica in generale non è così.Consideriamo di avere un campione di datiIndici di posizione. Indici di posizione centrale o di centralitàModaLa moda di un insieme di dati è quel valore, , a cui corrisponde la massima frequenza(assoluta o relativa). CioèSe esistono più valori modali, ovvero più valori con il massimo della frequenza, allora taleindice non è appropriato per descrivere sinteticamente il campione di dati.Allo stesso modo, se esistono più valori le cui frequenze sono elevate e non molto diversetra loro allora non è appropriato usare il concetto di moda.Nel caso di carattere continuo, o, comunque, quando si utilizzano le classi invece dellemodalità, è ancora possibile utilizzare il concetto di moda, individuando prima la classemodale, cioè quella di massima frequenza e quindi calcolare il valore modale come: 0,3 classe frequenza relativa d- modale 0,2 d+ 0,1 h x 0 a 45 48 51 54 57Bologna, 7 Febbraio 2013 13 c
  14. 14. Note di Statistica e Calcolo della probabilitàMedia aritmetica o campionaria (1) LA FAMOSA FORMULA!La media si può esprimere anche utilizzando la frequenza relativa, passando dai singolidati osservati alle modalità del carattere: (2)La stessa formula vale anche nel caso si utilizzino le classi, dove rappresenta il valorecentrale di ogni classe.La formula (2) è detta anche media ponderata, assegnando al coefficiente il significatodi peso di ogni modalità del carattere.Il concetto di media ponderata può essere soggetto ad una operazione di astrazione,cioè vengono assegnati (soggettivamente) dei valori come pesi a ciascuna modalità delcarattere osservato quindi si calcola la media, fermo restando il vincolo di coerenza dellanormalizzazione, cioè .Supponiamo, ad esempio, di voler calcolare il rendimento scolastico di un alunno, dacome si deduce dal voto ottenuto in un certo numero di prove. (ns classico problema)Normalmente le prove non avranno tutte la stessa valenza rispetto al calcolo delrendimento, essendo diverse per grado di difficoltà, per argomenti trattati, per tipologia,…Pertanto si assegnano dei pesi a ciascuna prova che sintetizzi l’importanza della provarispetto al calcolo del rendimento e si può operare la media ponderata dei voti.Qual è il significato della media aritmetica?Essa indica il “centro”, il “baricentro”, del campione di dati. Infatti:Questa formula avvalora l’idea di media come centro introno al quale sono distribuiti idati. La formula del calcolo del baricentro (unidimensionale) di un insieme di massecoincide con quella della media aritmetica, assegnando come peso il rapporto dellamassa per la massa totale,Si darà poi la definizione formale di media aritmetica.Bologna, 7 Febbraio 2013 14
  15. 15. Note di Statistica e Calcolo della probabilitàPrime proprietà della media aritmetica. 1. Se si applica una trasformazione lineare ai dati di un campione la stessa trasformazione è applicabile alla media aritmetica. Supponiamo di avere un campione di dati , sul quale applichiamo una trasformazione lineare: Ciò avviene tipicamente quando si cambia scala di misurazione della grandezza osservata ( offset  b ; fattore di conversione  a) Di conseguenza il campione di dati trasformato sarà . Le medie dei due campioni seguiranno la stessa relazione del singolo dato, cioè Infatti: ESEMPIO 5 Se un campione di misure di temperature espresse in gradi fahrenheit fornisce un valore medio di 50° F, qual è la media delle temperature espresse in gradi Celsius? Poichè Allora Nel caso specifico: 2. L’operazione di media non è associativa Supponiamo di avere un campione di dati con cardinalità n e di suddividerlo in due campioni (il modo è indifferente) di cardinalità n1 e di cardinalità n2 Allora e vero che cioè fare la media aritmetica delle singole medie dei sotto campioni non fornisce la media dell’intero campione di dati. E’ una media ponderata con i pesi dati dal Infatti rapporto tra le che per appunto risulta diverso dall’effettuare la media delle medie. numerosità dei campioniBologna, 7 Febbraio 2013 15
  16. 16. Note di Statistica e Calcolo della probabilità La stessa situazione si ha nel caso in cui due campioni di dati che si riferiscono allo stesso carattere sono uniti per formare un unico campione. La nuova media non sarà la medie delle medie dei singoli campioni. Solo nel caso di uguale numerosità dei sotto campioni (o solo dividendo l’insieme di dati in sottoinsiemi con lo stesso numero di elementi) è possibile effettuare le medie parziali e poi fare la media delle medie. Ovviamente questa stessa considerazione può essere generalizzato al caso di più sotto campioni.MedianaConsideriamo di ordinare in senso crescente (in senso debole) i dati del campione:Si effettua cioè una trasformazione degli indici di numerazione dei dati del campione.Si definisce mediana, , il più piccolo dei valori (reali) per cui il numero di elementi delcampione ordinato che sono è almeno la metà della cardinalità del campione.CioèLa definizione sopra non è formalmente rigorosa, nel termine “più piccolo”, ma èabbastanza comprensibile.Il mancato rigore, nasce dal dovere distinguere il caso in cui il campione ha un numeropari di dati da quello in cui il numero è dispari: ▪ Se n dispari, , allora esiste l’elemento centrale del campione e la mediana è con il numero di elementi che sono pari k+1 xm x1 x2 x3 x4 xk xk+1 xk+2 xn Osserviamo che anche l’elemento e successivi possono avere lo stesso valore di e quindi della mediana, ma ciò non inficia il significato di valore centrale rispetto alla distribuzione dei campioni alla sinistra e alla destra di ▪ Se n pari, allora non esiste un dato centrale, ma il più piccolo valore che soddisfa la definizione sopra è con il numero di elementi che sono pari k In realtà è pratica diffusa prendere la mediana come il valore medio tra e : .Bologna, 7 Febbraio 2013 16
  17. 17. Note di Statistica e Calcolo della probabilità Allo stesso modo si potrebbe prendere un qualunque valore intermedio tra e In questi casi l’affermazione “più piccolo” nella definizione perderebbe di senso. xm x1 x2 x3 x4 xk xk+1 xk+2 xn Quando si usa la media aritmetica e quando la mediana ? Consideriamo questo esempio: una azienda è formata da - 12 operai che percepiscono ciascuno un compenso lordo annuo di 20 k euro - 4 impiegati che percepiscono ciascuno un compenso lordo annuo di 30 k euro - 2 dirigenti che percepiscono un ciascuno compenso lordo annuo di 140 k euro Qual è il compenso medio di questa azienda? Uso la media aritmetica  Uso la mediana  Decidete voi qual è l’indice più rappresentativo della realtà ! Una indicazione metodologica suggerisce che la mediana è un indice “più robusto”, rispetto a degli errori di misurazione e/o di campionamento, nel senso che dei valori anomali (molto alti o molto bassi) dovuti ad errore hanno una minore influenza sulla mediana rispetto alla media aritmetica. Inoltre se un campione di dati è distribuito (distribuzione delle frequenze) in modo asimmetrico è preferibile usare la mediana. Oltre agli indici che abbiamo visto vi sono altri indici di posizione, ma non di centralità, che vedremo in seguito.Bologna, 7 Febbraio 2013 17
  18. 18. Note di Statistica e Calcolo della probabilitàApprofondimenti sul concetto di mediaPartiamo da un problema, che riassume a pieno la necessità di un approfondimento delconcetto di media.Problema (paradosso) delle due buste1A Mario vengono presentate due buste chiuse, dicendo che una contiene una somma didenaro pari al doppio della cifra contenuta nell’altra.Mario ha la facoltà di aprire una busta a suo piacimento e di prendersi la cifra oppure discegliere l’altra busta con il suo contenuto.Valorizziamo !Se Mario apre la prima busta che contiene 1000 euro allora cosa gli conviene fare?Proviamo a rispondere !Se Mario scegliesse la seconda busta avrebbe due possibilità: trovare 2000 euro oppure500 euro, cioè in mediaAllora è chiaro che la risposta è: conviene la seconda busta !E se non fosse 1000 la cifra della prima busta?Sarebbe uguale, infatti se s è la somma della prima busta, la seconda conterrebbe 2soppure s/2 e quindi in mediaMa allora vuol dire che non importa aprire la prima busta, ma è sempre convenientescegliere l’altra !!!!!!!!Ma ciò è in contraddizione con il fatto ovvio che le due buste sono per Marioequiprobabili, cioè non c’è alcuna preferenza a priori di sceglierne una rispetto all’altra. Ilproblema è simmetrico rispetto al ruolo delle due buste.Contraddizione  paradosso !Come se ne esce ? Dobbiamo convincerci che fare la media aritmetica non va beneCioè dobbiamo pensare ad un altro tipo di media. Quale?1 Introdotto da R.M. Smullyam - 1988Bologna, 7 Febbraio 2013 18
  19. 19. Note di Statistica e Calcolo della probabilitàAltri tipi di medie PROBLEMA 1 In una popolazione di batteri si osserva che la popolazione ha un aumento percentuale di il primo giorno, il secondo giorno,…, l’n-esimo giorno. Qual è l’incremento medio della popolazione in questo periodo di osservazione? Consideriamo il problema: contestualizziamo e formalizziamo Sia N il numero iniziale (prima dell’osservazione) di batteri, allora si ha: ▪ il numero di batteri dopo il 1° giorno ▪ il numero di batteri dopo il 2° giorno ▪ … ▪ il numero di batteri dopo l’ultimo giorno L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso numero finale di batteri. Pertanto se indichiamo con b tale valore dovremmo avere: … Uguagliando le due espressioni finali per : Chiamando si ottiene l’espressione di un valore medio, noto come media geometrica.Media geometricadove la parola “geometrica” assume il chiaro significato legato al prodotto dei dati adifferenza di “aritmetica” che indica la somma.Bologna, 7 Febbraio 2013 19
  20. 20. Note di Statistica e Calcolo della probabilitàPROBLEMA 2n macchine utensili producono un stesso pezzo impiegando tempi diversi:(supponiamo i tempi espressi in s)Qual è il tempo medio di produzione di quel pezzo?Consideriamo il problema: contestualizziamo e formalizziamoIl tempo medio sarà quel tempo che se tutte le macchine adottassero si otterrebbe lastessa produttivitàMa cosa significa produttività? (Numero di pz prodotti/unità di tempo)Se la macchina i-esima esegue un pezzo in secondi allora nell’unità di tempoeseguePertanto la produttività è calcolabile come:Se tutte le macchine lavorassero con il tempo medio T avremmo una produttività diLa produttività coincide nei due casi se:Abbiamo ottenuto un nuovo valore medio, noto come media armonica ▪ il numero di batteri dopo il 1° giorno ▪Media armonica il numero di batteri dopo il 2° giorno ▪ … ▪dove la parolanumero di batteri doposignificato legato all’operazione del reciproco. il “armonica ” assume il il 2° giornoL’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stessonumero finale di batteri.Pertanto se indichiamo con b tale valore dovremmo avere: …Uguagliando le due espressioni finali per :Bologna, 7 Febbraio 2013 20
  21. 21. Note di Statistica e Calcolo della probabilità PROBLEMA 3 (tipico nelle prove di selezione SISS, giochi matematici, …) L’ultima volta che sono andato al mare ho viaggiato bene all’andato a circa 100 km/h mentre al ritorno, facendo lo stesso percorso, molto più lentamente a causa del rientro comune, ad una velocità di circa 40 km/h Qual è stata la mia velocità media? Fino ad alcuni anni fa la proposizione di questo quesito ad alunni di scuole superiori ed anche universitari produceva la quasi totalità di risposta pari a = 70 km/h cioè si applicava la media aritmetica. Ora le cose vanno meglio ma ancora si ha la stessa risposta in numero ben al di sopra della metà delle risposte. Il ragionamento corretto prevede che non si usi la media aritmetica, poiché il contesto del problema ci dice che dobbiamo riferirci al tempo di percorrenza e non alla velocità di percorrenza. Sottolineiamo anche che non si conosce la lunghezza del percorso, ma anzi la risposta deve essere logicamente indipendente dalla quantità di strada effettuata. Possiamo procedere in due modi: 1. Ricordando la relazione cinematica velocità = spazio/tempo  tempo = spazio/velocità, allora si ha: Pertanto il tempo totale del viaggio è e di conseguenza la velocità media è calcolabile come spazio totale/tempo totale, ovvero MEDIA ARMONICA ! Numericamente:Bologna, 7 Febbraio 2013 21
  22. 22. Note di Statistica e Calcolo della probabilità 2. Poiché al ritorno la velocità tenuta è stata i 2/5 di quella dell’andata, vuol dire che la velocità del ritorno è stata tenuta per un tempo 5/2 = 2.5 volte il tempo per il quale si è mantenuta la velocità alta. Quindi è giusto che la velocità del ritorno abbia un peso, nella valutazione della media, 2.5 volte il peso di quella dell’andata. Immaginiamo che un dispositivo registri periodicamente (es. ogni secondo) la velocità della macchina, si avrà così un numero di valori uguali a 40 km/h che è 2.5 volte il numero di valori uguali a 100 km/h. Se volessimo fare la media aritmetica del campione di dati registrati dal dispositivo si avrebbe dati tutti uguali a 100 km/h e dati tutti uguali a 40 km/h. Costruiremo così la media aritmetica delle due modalità del carattere osservato (100 e 40) come media ponderata: Pertanto Conclusioni ▪ Si sono usate medie diverse che hanno portato allo stesso risultato ▪ La deduzione della giusta operazione di media da applicare è passata attraverso considerazioni relative ad unaltra grandezza, quale il tempo, collegata con quella in esame, facendo riferimento a ciò che rimane invariante per i dati che costituiscono il campione, anche sostituendone il valore medio Variante Se il problema fosse impostato così: in un viaggio ho percorso 120 km ad una velocità di 60 km/h e poi i successivi 100 km ad una velocità di 80 km/h. Qual è la velocità media del viaggio. Se applichiamo la media ponderata, ragioniamo così: il primo tratto è percorso in 2 h, mentre il secondo in 1,25 h e quindi le velocità andranno pesate con pesi proporzionali a 2 e 1.25, cioè: Se ragioniamo sui tempi di percorrenza: otteniamo la media armonica ponderata con i pesi forniti dagli spazi percorsiBologna, 7 Febbraio 2013 22
  23. 23. Note di Statistica e Calcolo della probabilità Ma se invece volessimo calcolare la velocità media in relazione al calcolo del consumo di carburante ? Andrebbe bene la media appena fatta ? Probabilmente no!!! PROBLEMA 4 Si osserva una colonia di batteri di forma pressoché circolare, di diametri diversi: (supponiamo i una qualunque unità di misura) Qual è il diametro medio? Consideriamo il problema: contestualizziamo e formalizziamo Se tutti i batteri avessero lo stesso diametro allora si avrebbe la stessa “consistenza”. Per stessa consistenza cosa si intende ? Stessa superficie  Stessa densità superficiale Poiché una superficie circolare si calcola come allora, se indichiamo con il diametro medio che cerchiamo, si ha la stessa consistenza se: Abbiamo ottenuto il valore medio, di tipo nuovo, nota come media quadraticaMedia quadraticaTutti gli esempi mostrati portano alla conclusione che esistono tante tipi di medieIn particolare ci sono infiniti tipi di medie !!!Bologna, 7 Febbraio 2013 23
  24. 24. Note di Statistica e Calcolo della probabilitàDefinizione generale di media di un campione di datiSi parlerà di media come quel valore che se fosse assegnato a ciascun esito delleosservazioni oggetto di studio, produrrebbe lo stesso risultato del campione rispetto ad undeterminato aspetto.Ciò significa che per ogni problema si dovrà individuare l’aspetto d’interesse generatodall’insieme dei dati del campione, il quale aspetto dovrà mantenersi invariato se ai dati sisostituisce il valore medio.Quindi per ogni problema c’è una media, così come lo stesso campione può essereaffrontato con due problemi distinti (e quindi dare due medie distinte).Questo concetto è in accordo con il pensiero di Chisini e di De Finetti, padri della statisticamoderna italiana e mondiale, di cui riportiamo il seguente pensiero sulla media Pensando alla “media” non si deve pensare ad una convenzione Matematica, a una formuletta, al risultato di certe operazioni scelte chissà perché. Si deve invece pensare ad un problema ben determinato, in cui interessa considerare un aspetto ben determinato, e conviene sapere quale valore comune si potrebbe dare a certe grandezze(più o meno differenti fra loro) volendo che, “per riguardo all’aspetto che interessa, il risultato rimanesse invariato”. E’ questa, concettualmente, la definizione di media data da Chisini. … esprimendo tale concetto in forma matematica, tutta la trattazione sulle medie diventa significativa ed elegante.Come Bruno De Finetti indica il tutto si può formalizzare matematicamenteDato un campione di dati e una funzione di tali valori a valore reale(funzionale):Si chiama media di , di un certo tipo (definito dalla forma di f), quel valore tale che: (3)Poiché le forme funzionali di f sono infinite si possono calcolare infinite medie !!!Verifichiamo con le medie che conosciamo: ▪ Media aritmetica ▪ Media geometricaBologna, 7 Febbraio 2013 24
  25. 25. Note di Statistica e Calcolo della probabilità ▪ Media armonica ▪ Media quadratica Delle suddette medie esistono le seguenti disuguaglianze: Ora torniamo al problema delle buste !! Ci dobbiamo domandare qual è la proprietà che deriva dalle informazioni a disposizione che deve rimanere invariata. E’ forse che nella busta da aprire c’è una somma che differisce dalla cifra s che si scopre nella prima busta ? In questo caso sarebbe giustificato usare la media aritmetica che lascia invariata la somma dei dati.  NO ! Non è piuttosto che nella seconda busta la cifra può essere la metà oppure il doppio della cifra contenuta nella prima busta ?  SI Ma ciò è equivalente a dire che il prodotto dei due dati possibili è costante rispetto al valore medio da trovare. Questo significa che il funzionale f( ) più adatto per trovare la media è il prodotto e non la somma, ovvero la media geometrica Pertanto la media sarà calcolabile come Cioè il valore medio corretto è uguale alla cifra scoperta dopo l’apertura della prima busta e non c’è più il paradosso. Rispetto all’esempio numerico fatto:Bologna, 7 Febbraio 2013 25
  26. 26. Note di Statistica e Calcolo della probabilità Il ragionamento funziona anche se il problema è posto dicendo che nella seconda busta c’è l’ennesima parte della cifra nella prima busta oppure la ennupla parte della stessa, ovvero se le due possibilità fossero . Si avrebbe in ogni caso il paradosso che la media aritmetica è superiore ad s: E in ogni caso la media geometrica risolve il paradosso: Perché l’intuito ci fa sbagliare in questo problema ? Forse perché la mente tende a preferire schemi additivi piuttosto che moltiplicativi ? …… PROBLEMA 5 Un altro esempio collegato al problema delle buste e che in molti contesti è importante è quello della stima, cioè del valore più adeguato (medio) da dare avendo a disposizione stime diverse della stessa grandezza. La grandezza potrebbe essere il preventivo per una spesa, il tempo di produzione di un pezzo materiale, l’altezza di una collina, … Se nel caso più semplice abbiamo due stime cosa si applica ? La media aritmetica? Ma se siamo nella situazione di avere, ad esempio, due preventivi di 500 e di 2000 euro per un lavoro, qual è il prezzo che riteniamo più idoneo da dover pagare? Poiché i valori differiscono in relativo di molto (1:4), non sembra convincente applicare lo schema che essi siano prezzi dovuti allo scostamento, , rispetto ad un valore centrale, il che giustificherebbe l’uso della media aritmetica. Ma piuttosto, lo schema di pensiero che consideri i due prezzi, uno come una frazione del prezzo ragionevole e l’altro come proporzionale al prezzo ragionevole, ovvero come parte e multiplo piuttosto che eccesso e difetto, appare più adeguato. Si potrebbe, con ciò, pensare ad un prezzo di mercato non stabilizzato per la presenza di speculatori o di situazioni anomale di monopolio o di altro, invece di un mercato in cui una sana concorrenza porti a fornire prezzi che si discostano in più o meno rispetto ad un valore centrale. Pertanto forse è più ragionevole applicare la media geometrica. Le stesse considerazioni si possono fare anche se si hanno più dati che però differiscono di molto tra loro.Bologna, 7 Febbraio 2013 26
  27. 27. Note di Statistica e Calcolo della probabilitàUlteriori considerazioni sul concetto della media PROBLEMA 6 Ecco un altro problema in cui non si usa la media aritmetica. Se in diverse aziende sanitarie nazionali si pagano 3000 euro per comprare confezioni dello stesso farmaco rispettivamente a 5, 6 e 10 euro per confezione. Qual è il prezzo medio a confezione ? Calcoliamo la media come media aritmetica Ma non è corretto E’ corretto ragionare considerando che per calcolare la media si deve tener presente il numero totale di confezioni che deve rimanere inalterato. Il numero totale di confezioni sarà: Se questo numero deve essere lo stesso anche se si sostituisce il valore medio al prezzo di ogni azienda, allora si dovrà avere: Ora se, sulla base della definizione di media, uguagliamo le due espressioni si ha Ritroviamo la media armonica come quella giusta da applicare. NumericamenteBologna, 7 Febbraio 2013 27
  28. 28. Note di Statistica e Calcolo della probabilità PROBLEMA 7 Una famiglia è formata da 4 componenti ed un’altra famiglia da 12 componenti. Qual è il numero medio dei componenti per famiglia? E’ immediato rispondere: Questo significa che in media ogni persona del gruppo considerato ha in media altri 7 componenti nella sua famiglia. Molto logico e corretto ! Vero? NO! L’errore si commette perché si prende come carattere osservato quello relativo alla famiglia, mentre si deve considerareil quesito posto dal problema in relazione a ciascuna persona del gruppo. Pertanto “chiedendo” ad ogni persona quanti sono i componenti della sua famiglia otterremo 12 risposte con 12 e 4 risposte con 4. Da cui la media (ponderata): Questa è la risposta corretta.Bologna, 7 Febbraio 2013 28
  29. 29. Note di Statistica e Calcolo della probabilitàLa relazione ( 3) ci dice che le medie tipiche che conosciamo sono sempre comprese tra ilvalore minimo e il valore massimo dei dati del campione sul quale si esegue l’operazione dimedia.Ciò sembrerebbe ragionevole e spesso si insegna questo come proprietà della media.Ma non è così. E’ possibile, in alcuni casi non frequenti, far uso di medie che fornisconocome risultato un valore al di fuori del range di variabilità dei dati a disposizione.Vediamo un esempio geometrico. PROBLEMA 8Sui lati di un angolo al ampiezza di vertice O vengono considerati i segmenti . Costruito il triangolo OPQ, il lato è calcolabile tramite il teorema diCarnot O  y x P z QQual è il valore medio dei lati x e y al variare del vertice O dell’angolo mantenendoinalterata la sua ampiezza e calcolata rispetto alla lunghezza del terzo lato del triangolo chevale sempre lo stesso valore ?Geometricamente si capisce che questa proprietà è soddisfatta se si fa variare O sullacirconferenza circoscritta a OPQ.Seguendo la definizione generale di media, ponendo il valore medio al posto di x e y euguagliando l’espressione di Carnot si ottiene:Geometricamente questo valore medio che va sostituito ai lati del triangolo può essere vistogeometricamente, rappresentando il caso di OPQ come il triangolo isoscele O  y x P z QBologna, 7 Febbraio 2013 29
  30. 30. Note di Statistica e Calcolo della probabilità Ora se Se In caso contrario torna ad essere interno ai dati A B O y  x P z QObiettivi dell’incontro Statistica descrittiva Alfabeto della statistica descrittiva Aggregare i dati Distribuzione delle frequenze e loro rappresentazione grafica Indici statistici. Indici di centralità Moda Media aritmetica Mediana Vari tipi di media Definizione generale di media APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassiBologna, 7 Febbraio 2013 30

×