SlideShare a Scribd company logo
Calcolo delle Probabilita’ e StatisticaCalcolo delle Probabilita’ e Statistica
Metodi Statistici per l’IngegneriaMetodi Statistici per l’Ingegneria
A.A. 2013-14A.A. 2013-14
Recapiti del docente:
• @ nntmdl@unife.it
• Tel 0532 – 97 4994
Mailing List:
scrivetemi per essere inclusi nella mailing list del corso, in modo da ricevere informazioni e
aggiornamenti su eventuali cambi di orario, etc.
Orario di ricevimento
• Martedi’ 17:00-18:00 e su prenotazione alle 18:50 c/o Dipartimento di Ingegneria (Blocco A) piano 3
stanza 313 durante il periodo didattico. Si prega cmq di prenotarsi per mail almeno il giorno prima.
Ricevimento su appuntamento nel resto dell’anno.
Libro di testo
• Sheldon Ross, Probabilita’ e Statistica per Ingegneria e le Scienze, 2 ed., Apogeo
Esame
• Scritto
• Orale (nella stessa sessione)
– opzionale per chi ha superato lo scritto con almeno 18,
– obbligatorio per chi ha tra 15 e 17. Oscillazione di voto [-3, +3]
• Obbligo di iscrizione almeno 3gg prima sul web
• Testi dei compiti e TRACCE di soluzione sul minisito
Programma del corso
• Sul minisito dell’insegnamento
Orario di lezione
• http://servizi.unife.it/orariolezioni/
• martedi’ 14:15-16:30, venerdi’ 16:30-18:45
• No lezione venerdi’ 18 OttobreNo lezione venerdi’ 18 Ottobre, recupero in data da definire
Programma del corso (cap 1-8)
Statistica descrittiva,
• Rappresentazione dei dati di un campione, media mediana, moda, e varianza campionaria;
percentili; boxplot.
• disuguaglianza di Chebyshev su insiemi finiti; campioni normali;
• insiemi bivariati; coefficiente di correlazione campionaria.
Introduzione alla probabilità:
• diagrammi di Venn e algebra degli eventi.
• Richiami di calcolo combinatorio.
• Assiomi della probabilità. Probabilità condizionale, formula di Bayes, eventi indipendenti.
Variabili Aleatorie.
– Variabili discrete: Bernoulli e Binomiale, Poissoniana, Ipergeometrica.
– Variabili continue: Uniforme, Normale, Esponenziale, Gamma.
– Variabili aleatorie inferenziali: Chi quadro, t(di student), F.
• Valore atteso, def. e proprietà nel caso discreto e nel caso continuo. Valore atteso di somme
di variabili aleatorie, valore atteso di funzioni di variabile aleatorie.
• Distribuzioni congiunte, marginali e condizionali. Variabili indipendenti.
• Varianza e covarianza di somme di variabili aleatorie. Funzione generatrice dei momenti.
Disuguaglianza di Chebyshev per variabili aleatorie.
Statistica inferenziale
• popolazioni e campioni. Stimatori campionari, distribuzioni campionarie, media campionaria,
varianza campionaria.
• Teoria della Stima. Stime puntuali e per intervalli.
Statistica
Descrittiva vs Inferenziale
Descrittiva:
Descrive in modo compatto l’insieme dei dati raccolti,
attraverso l’utilizzo di indicatori sintetici.
Inferenziale:
A partire dall’analisi delle caratteristiche di un campione,
cerca di inferire le caratteristiche della popolazione a cui il
campione appartiene
Per condurre correttamente l’analisi, occorre fare delle
ipotesi sul modello probabilistico dei dati a cui e’ soggetto il
nostro campione sperimentale. Per questo occorre avere le
basi della teoria del calcolo delle probabilita’
La statistica Descrittiva
• raccoglie dati,
• li sintetizza
• li interpreta
Step 1: organizzare la raccolta dei dati
• Step Fondamentale: la scelta del campione
• Per essere rappresentativo, il campione deve
essere scelto casualmentecasualmente tra tutti i sottoinsiemi
possibili di tale cardinalita’.
Statistica Descrittiva:
rappresentazione dei dati
Quando i dati assumono pochi valori diversi (gli stessi valori sono
ripetuti piu’ volte nel campione), la rappresentazione piu’ semplice e’ la
tabella delle frequenze
Valore del dato Numero di volte (frequenza)
27 4
28 1
29 3
30 5
31 8
32 10
34 5
36 2
37 3
40 1
Esempio:
Dati salariali.
Il campione descrive il
reddito annuale iniziale,
in migliaia di $,
di 42 ingegneri.
Def Frequenza Relativa
Si dice frequenza relativa
di un valore i
il rapporto tra la sua
frequenza, fi cioe’ il
numero di volte che tale
valore compare nel
campione, e la
cardinalita’ n del
campione stesso.
Esempio
sul campione di 42 elementi
27 4 4/42=0.095 (9.5%)
28 1 1/42=0.024 (2.38%)
29 3 3/42=0.071 (7.14%)
30 5 5/42=0.119 (11.9%)
31 8 8/42=0.190 (19.05%)
32 10 10/42=0.238 (23.81%)
34 5 5/42=0.119 (11.9%)
36 2 2/42=0.047 (4.76%)
37 3 3/42=0.071 (7.14%)
40 1 1/42=0.024 (2.38%)
Valore Frequenza Freq. relativa (%)
La somma delle frequenze relative e’ a somma 1
Rappresentazioni grafiche
del campione
sull’asse x delle ascisse sono
rappresentati i diversi valori
che possono assumere i dati,
e in ordinata y le frequenze.
Si danno diverse rappresentazioni
• Line graph (grafico a
bastoncini).
• Grafico a barre
• Grafico a linee (spezzata)
Freq
0
5
10
15
27 28 29 30 31 32 34 36 37 40
Freq
Freq
0
5
10
15
27 28 29 30 31 32 34 36 37 40
Freq
0
2
4
6
8
10
12
0 10 20 30 40 50
stipendio (M$)
frequenza
stipendio
Serie2
Grafico a torta per i valori non numerici del dato
Es.
• Orientamento politico, il partito
votato non e’ un dato numerico
• Tipi di tumore (l’organo affetto)
• Sport principale praticato dai
bambini di una scuola
L’angolo giro di 360° e’ suddiviso in
settori, uno per ogni valore, di
ampiezza proporzionale alla
frequenza relativa
Organo
affetto
Frequenza
(su 200)
Polmoni 42
Seno 50
Colon 32
Prostata 55
Melanoma cutaneo 9
Vescica 12
Frequenza
Polmoni
Seno
Colon
Prostata
Melanoma cutaneo
Vescica
Quando i valori assunti dai dati numerici
sono molto numerosi (1)
si aggregano per intervallisi aggregano per intervalli del tipo (ai,bi] di ampiezza costante
In tal caso il grafico a barre prende il nome di ISTOGRAMMA.ISTOGRAMMA.
E’ molto utile in quanto visivamente rappresenta anche l’ampiezza
scelta degli intervalli.
I dati sull’asse delle x rappresentano i valori estremi degli intervalli e
sono posti al confine tra una barra e la successiva, mentre nel
grafico a barre vi e’ un valore (centrale) per ogni barra.
Quando i valori assunti dai dati numerici
sono molto numerosi (2)
In alternativa si utilizza
la curva delle FREQUENZE
CUMULATIVE (ogiva)
OGIVA:
grafico di una funzione non
decrescente sul piano cartesiano che,
ad ogni valore xv appartenente
all’intervallo dei valori assunti dai dati
del campione, fa corrispondere ilil
numero dei dati ynumero dei dati yvv che hanno valoreche hanno valore
uguale o minore a xuguale o minore a xvv..
((anticipa il concetto di distribuzione /
ripartizionedi variabili aleatorie))
NB in caso di valori discreti dei dati si
tratta di una spezzata
ogiva
0
10
20
30
40
50
27 28 29 30 31 32 34 36 37 40
stipendi in m$
freqcumulative
Quando i valori assunti dai dati numerici
sono molto numerosi (3)
Si utilizzano i diagrammi stem and leaf
Occorre identificare una gerarchia nel dato
numerico, dividendo il valore in una parte
significativa e una meno.
Pensate per esempio al consumo in m3
rilevato dai
contatori del gas: si tratta di un numero a piu’
cifre, composto da una parte rossa (piu’
significativa, con le cifre a sx del punto
decimale) e una parte nera (< 1 m3
).
In tabella si riporta, per ogni valore significativo,
l’insieme dei valori meno significativi associati
nei dati del campione.
Es. L’insieme dei dati rilevati in un condominio di
11 unita’ abitative
{1.56, 3.4, 3.78, 2.3, 9.14, 5.2, 3.87, 6.9, 2.84, 3.1,
5.54} si rappresenta come in figura:
rosso nero
1 56,
2 30, 84
3 40, 78, 87, 10
5 20, 54
6 90
9 14
Statistiche di sintesi
dei dati numerici dei campioni
• Media campionaria
• Mediana campionaria
• Moda campionaria
Media campionaria
Si definisce media campionaria di un campione di n dati numerici S(X)={x1,..,xn}
il valore xaverage = 1/n Σi=1..n xi
Come cambia la media perCome cambia la media per trasformazioni linearitrasformazioni lineari del datodel dato
Sia yi = axi + b, allora vale yaverage= a xaverage + b
Come si utilizza questa proprieta’?
Semplificando i calcoli, shiftando i valori di S sottraendo a ciascuno il valore xmin,
svolgendo il calcolo della media sul campione S(Y)={yi=xi-xmin} e poi
sommando alla media xmin. Quindi xaverage= yaverage + xmin
Utilita’: ridurre l’incidenza degli errori di cancellazione nelle operazioni
Date le frequenze fi dei valori, e le frequenze relative (occorrenza / cardinalita’
del campione) φi = fi /n si osserva che la media campionaria e’ la somma
pesata dei valori per le frequenze relative
Siano {v1,..,vk} i k valori distinti assunti dai dati del campione,
sia φi la frequenza relativa del valore vi.
Allora, xxaverageaverage == ΣΣi=1..ki=1..k vvii φφii
Mediana campionaria
• La mediana descrive il centrocentro di un insieme di dati.
• Si definisce la mediana campionaria di un campione di dati numerici
S={x1,..,xn} ORDINATO IN ORDINE CRESCENTE
il valore posizionato in posizione intermedia:
n/2 per n dispari,
la media tra i valori in posizione n/2 e (1 + n/2) per n pari
Sia la media che la mediana descrivono I valori “centrali” del campione.
Inoltre la media e’ molto sensibile ai valori estremi,
sia particolarmente alti ☺ che bassi ☹ (pensate alla media dei vostri
esami), ma non danno indicazioni sulle frequenze dei valori nel
campione.
Quante volte viene assunto dai dati questo specifico valore?
Quale e’ il valore + frequente? A quest’ultima domanda risponde la
MODAMODA
Moda campionaria
• Si definisce la moda campionaria di un campione di dati numerici S={x1,..,xn} il
valore con frequenza massima se unico.
Altrimenti, tutti i valori con frequenza pari alla frequenza massima si dicono
Valori Modali
La moda descrive il centro della DISTRIBUZIONE dei datiLa moda descrive il centro della DISTRIBUZIONE dei dati
…………………………………………….
Ex: calcolo di media mediana e moda di un campione
40 lanci di un dado a 6 facce, questi i risultati
Valore 1 2 3 4 5 6
Frequenza 9 8 5 5 6 7
Media campionaria: (9 + 2·8 + 3·5 + 4·5 + 5·6 + 6·7) / 40 = 3.05
Mediana campionaria: avendo 40 lanci si prende la media di valori 20esimo
e 21esimo
,
cioe’ (3+3)/2=3
Moda campionaria: il valore con massima frequenza e’ 1, che compare nel
campione per 9 volte
Media mediana e moda sono informazioni complementari,
nel senso che la loro conoscenza congiunta permette una lettura piu’
approfondita del campione.
I topi di laboratorioI topi di laboratorio
Un gruppo di topi di 35gg e’ sottoposto a radiazioni e poi diviso in due sottogruppi S1 di 29
elementi e S2 di 19, tenuti in ambiente serile / normale.
Questi i giorni di vita nei due gruppi (stem and leaf)
1 58,92,93,94,95 1 59,89,91,98
2 02,12,15,29,30,37,40,44,47,59 2 35,45,50,56,61,65,66,80
3 01,01,21,37 3 43,56,83
4 15,34,44,85,96 4 03,14,28,32
5 29,37
6 24
7 07
8 00
media S1=344.07, media S2=292.32, ma
mediana S1=259 (quindicesimo valore), e mediana S2=265 (decimo valore)
Infatti la media di S1 risente molto dei valori alti, 624 707 e 800, ma la mediana non ne viene
influenzata purche’ siano > a 259.
Quindi l’ambiente sterile ha allungato la vita dei topi + longevi ma non si possono trarre
conclusioni sugli altri
Esempio 2.3.4
Media mediana e moda descrivono
i valori “centrali” del campione,
MA
non colgono il grado di dispersione / concentrazione
dei dati attorno a tali valori.
Esempio
Siano dati i due insiemi Sa={3,4,6,7,10} e Sb={-20,5,15,24}
Calcoliamone le medie:
xa=(3+4+6+7+10)/5 = 6, xb=(-20+5+15+24)/4 = 6,
Si evince che confrontare le medie di due campioni non
fornisce indicazioni sufficienti per dedurne delle
conseguenze
• Occorrono altri indicatori, Varianza e Deviazione Standard
Esempio 2.3.6
Varianza campionaria
• La varianza s2
di un campione S={x1,..,xn} descrive lo scarto
quadratico medio dalla media campionaria
Def.
Se calcoliamo la varianza dei due campioni S1 eS2, notiamo come la
loro varianza differisca notevolmente
s2
a= ( (3-6)2
+ (4-6)2
+ (6-6)2
+ (7-6)2
+ (10-6)2
) / 4 = 7.5
s2
b= ( (-20-6)2
+ (5-6)2
+ (15-6)2
+ (24-6)2
) / 3 = ~ 360
2
1
2
)(
1
1
∑=
−
−
=
n
i i xx
n
s
Proprieta’ della varianzaProprieta’ della varianza
2
1
2
1
2
)( xnxxx
n
i i
n
i i −=− ∑∑ ==
Trasformazioni lineari dei dati del campioneTrasformazioni lineari dei dati del campione
La varianza e’ invariante rispetto alla somma di costanti e varia con il quadrato
del coefficiente moltiplicativo
Sia sx
2
la varianza di un campione Sx e si operi la trasformazione yi=xi+b.
Allora sx
2
e’ anche la varianza del campione Sy={yi=xi+b}
Si operi la trasformazione zi=axi,
allora la varianza del campione Sz={zi=axi} e’ sz
2
= a2
sx
2
2
1
22
1
2
2
11
2
2
1
2
1
2
2
2
)2()(
xnxxnxnxx
xnxxx
xxxxxx
n
i i
n
i i
i
n
i
n
i i
i
n
i i
n
i i
−=+−=
=+−=
=+−=−
∑∑
∑∑
∑∑
==
==
==
ThTh
Dim.Dim.
Deviazione Standard CampionariaDeviazione Standard Campionaria
2
1
)(
1
1
∑=
−
−
=
n
i i xx
n
s
Si definisce la deviazione standard campionaria come la radice quadrata della
Varianza Campionaria.
Si osservi che s ha la stessa unita’ di misura dei dati del campione.
Vedremo che proprio per questo e’ utile nello stimare il numero di dati
del campione che sono presenti in un certo intervallo di valori
centrato nella media campionaria.
Percentile, quartile, box plotPercentile, quartile, box plot
Def. dato k intero ∊(0,100), si definisce come Percentile kPercentile kesimoesimo
il valore ≥ al k% dei dati del campione e
contemporaneamente ≤ al (100-k)% dei dati, se unico,
altrimenti la media dei 2.
Si tratta del valore in posizione nk/100 avendo i dati del
campione ordinati in ordine (non de)crescente.
• Il 25esimo
percentile si dice primo quartileprimo quartile,
• il 50esimo
corrisponde alla medianamediana campionaria, o secondosecondo
quartilequartile
• il 75esimo
si dice terzo quartileterzo quartile
Esempio: data set di 36 rilevazioni di rumoreEsempio: data set di 36 rilevazioni di rumore
Diagramma stem and leaf dei valori
• 6 0,5,5,8,9
• 7 2,4,4,5,7,8
• 8 2,3,3,5,7,8,9
• 9 0,0,1,4,4,5,7
• 10 0,2,7,8
• 11 0,2,4,5
• 12 2,4,5
Calcoliamo il 1 quartile (25 precentile)
Il campione e’ di 36 dati, cerco (almeno) un dato
che sia
>= dei primi 9 dati ( 9 = ceiling(36 * 25/100) )
<= dei maggiori 27 ( 27 = ceiling(36 * (1 - 25/100)) )
Il nono dato, 75 e’ >= dei primi 9, e <= dei maggiori 28
Anche il decimo dato, 77, soddisfa alle condizioni:
77 e’ >= dei primi 10 ed e’ <= dei maggiori 27
Quindi il primo quartile (25 esimo percentile) e’
(75+77)/2 = 76.
NB
il k^ percentile puo’ non essere un dato del campione!!
Box PlotsBox Plots
• Si dice blox plot la rappresentazione sul segmento
associato all’ intervallo compreso tra il valore minimo e
quello massimo nel campione,
di due rettangolidue rettangoli adiacenti aventi come lato la parte tra il
primo e il secondo quartile, e tra il secondo e il terzo.
27 40
30 31.5 34
60 125
Questo e’ il box plot deli dati di tabella 2.6
Ora facciamo quello dei dati della rumorosita’
76 89.5 104.5
La mediana e’ la media tra 89 e 90, il terzo percentile la media tra 102 e 107
Box plot dei risultati prodotti da 14 algoritmi diversi su 100 istanze.
Che tipo di valutazioni vi consente di fare questa rappresentazione?
Disuguaglianza di ChebyshevDisuguaglianza di Chebyshev
• Stabilisce per difetto il numero di dati del campione che si trovano
entro una certa distanza dalla media campionaria.
• Tale distanza e’ espressa in termini di multipli della deviazione
standard campionaria s.
Def.
dato un campione S={x1,..,xn} di media campionaria xavg e deviazione
standard campionaria s, sia Sk l’insieme degli indici dei dati con
valore nell’intervallo [xavg- ks, xavg+ ks].
Allora per ogni k≥1 vale che |Sk| /n ≥ 1 – (n-1)/(nk2
) > 1 – 1/k2
.
Quindi gli elementi fuori da Sgli elementi fuori da Skk sono non piu’ di 1/ksono non piu’ di 1/k22
volte quelli di S.volte quelli di S.
Th:
|Sk| /n ≥ 1 – (n-1)/(nk2
) > 1 – 1/k2
Dim.
)(
)()()()(
)()1()()1()1(
22
2222
1
2
1
22
k
SiSi
i
Si
i
Si
i
n
i
i
n
i
i
Snsk
ksxxxxxx
xxnxxnsn
kkkk
−=
=≥−≥−+−
=−=−−−=−
∑∑∑∑
∑∑
∉∉∉∈
==
Quindi
2
22
2
2
222
11
1)1(1
1)1(
)()1(
)()1(
knS
nSnknk
nSnkn
nSnnkn
Snsksn
k
k
k
k
k
−≥
⇔−≥−≥
⇒−≥−
⇔−≥−
⇔−≥− Divido entrambi i
membri per nk2
s2
Maggioro (n-1) con n
e semplifico
Riordino i termini
mettendo in evidenza |Sk|/n
Per def di varianza campionaria Scompongo la
sommatoria tra
i termini in Sk e
quelli fuori da Sk
In base alla
definizione di Sk
Porto fuori dalla sommatoria k2
s2
Campioni Normali
Molto spesso gli istogrammi dei dati relativi a delle misurazioni
sperimentali in contesti anche molto dissimili, hanno una forma
caratteristica
• I campioni normali sono contraddistinti dalla forma a campana degli
istogrammi dei dati
• Presentano un unico massimo in corrispondenza della mediana
• Media = mediana = moda
• La curva della campana e’ simmetrica rispetto alla media
Esempi: altezza dei bambini di una certa scuola, misurata al k esimo
giorno di eta’, ore spese davanti alla tv in un giorno, valore
dell’emoglobina negli individui sani di sesso maschile in una certa
fascia di eta’,…
I campioni con queste caratteristiche si dicono campionicampioni NORMALINORMALI
Esempio di istogrammaEsempio di istogramma
di un campione perfettamente normaledi un campione perfettamente normale
Esempio di istogramma di unEsempio di istogramma di un
campione approssimativamente normalecampione approssimativamente normale
Esempio di istogramma di unEsempio di istogramma di un
campione skewed a sinistracampione skewed a sinistra
Asimmetria rispetto alla mediana, coda + lunga a sinistra
Esempio di istogramma di unEsempio di istogramma di un
campione skewed a destracampione skewed a destra
Asimmetria rispetto alla mediana, coda + lunga a destra
Nei campioni approssimativamente normali vale la seguente regola
empirica che rinforza la disuguaglianza di Chebyshev
fornendo percentuali maggiori dei dati che si trovano a distanza s, 2s e
3s dalla media
Regola empirica:
In un campione approx normale
sia xav la media e s la deviazione standard campionaria, allora
• Il 68%68% dei dati sta nell’intervallo [xav - s, xav+s]
• Il 95%95% dei dati sta nell’intervallo [xav -2s, xav+2s]
• Il 98%98% dei dati sta nell’intervallo [xav -3s, xav+3s]
xav
Campioni BivariatiCampioni Bivariati
• Quando i dati relativi a una singola osservazione nel campione sono
coppie di valoricoppie di valori, es temperatura e umidita’, grado di istruzione e
stipendio medio, si parla di campioni BIVARIATI
• I dati vengono rappresentati come punti sul diagramma didiagramma di
dispersionedispersione, un piano cartesiano con i valori in ordinata e in ascissa
riferiti alle due classi di valori dei dati.
Soggetto 1 2 3 4 5 6 7 8 9 10
Anni scuola 12 16 13 18 19 12 18 19 12 14
Frequenza Card 73 67 74 63 73 84 60 62 76 71
anni studio vs frequenza cardiaca
0
10
20
30
40
50
60
70
80
90
0 5 10 15 20
anni di studio
battitialminuto
anni studio vs
frequenza cardiaca
Correlazione tra valori delle coppie (x,y)Correlazione tra valori delle coppie (x,y)
Indichiamo ogni dato iesimo
con la coppia dei valori associati (xi,yi)
Ci si domanda se esiste corrispodenza tra I valori di x e y,
in particolare
– se a valori alti di x corrispondono generalmente valori alti di y e a valori
bassi di x corrispondono generalmente a valori bassi di y si parla di
correlazione positiva MENTRE
– Se a valori alti di x corrispondono generalmente valori bassi di y e a
valori bassi di x corrispondono generalmente valori alti di y si parla di
correlazione negativa tra x e y.
• Nel primo caso il diagrama di dispersione evidenzia una curva
crescente, nel secondo una curva decrescente
Introduciamo una misura di questa relazione
Siano xavg e yavg le medie dei valori dei dati relativi al primo e al secondo valore dei dati.
Per ogni dato iesimo
consideriamo il prodotto delle differenze dalle medie,prodotto delle differenze dalle medie,
(xavg -xi)(yavg -yi)
Se (xavg -xi)(yavg -yi)>0 allora sia il primo che il secondo valore del dato sono sopra la
rispettiva media, oppure entrambi inferiori ad essa. E’ cio’ che accadrebbe in
caso di correlazione POSITIVA
Se (xavg -xi)(yavg -yi)<0 allora o il primo valore del dato iesimo xi e’ inferiore alla sua
media xavg mentre il secondo valore yi e’ superiore alla propria media yavg, o
viceversa. E’ cio’ che accadrebbe in caso di correlazione NEGATIVA.
Sommiamo questo valore per tutti i dati del campione e normalizziamo dividendo per
((n-1) sy sx) dove n e’ la cardinalita’ del campione, e sx sy sono le deviazioni
standard campionarie del primo e del secondo valore dei dati del campione.
Coefficiente di Correlazione Campionaria
Def:
si definisce coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’
∑∑∑
∑∑∑
∑
===
==
=
=
−−−−
=−−−−−−−
=−−−≡
n
i
i
n
i
ii
n
i
i
ni ini ii
n
i
i
yxi
n
i
i
yyxxyyxx
nyynxxnyyxx
ssnyyxxr
1
2
1
2
1
..1
2
..1
2
1
1
)()()()(
)1()()1()()1()()(
)1()()(
Espandiamo la formula della
Deviazione standard campionaria
Proprieta’ del
Coefficiente di Correlazione Campionaria
1)
Il valore del coefficiente di correlazione campionaria e’ compreso tra -1 e 1
2)
Se i valori del secondo elemento della coppia di ciascun dato sono legati
al primo da una relazione lineare, i.e., yi = axi+b ∀ i=1..n, con a>0 ⇒ allora |r| = 1
Se invece la relazione vale per a<0 ⇒ allora |r| = -1
3)
Sia r e’ il coefficiente di correlazione campionaria del campione C1
={(xi,yi)} e sia
C2
={(wi,zi)} con wi = axi+b e zi = cyi+d ∀ i=1..n, dove i coefficienti a e c hanno lo stesso
segno, allora
il campione C2
ha lo stesso coefficiente di correlazione campionario r del campione C1
.
Una rilevante conseguenza della proprieta’ 3 e’ che il coefficiente di correlazione tra iil coefficiente di correlazione tra i
due valori {xdue valori {xii} e {y} e {yii} NON dipende dall’unita’ di misura utilizzata per misurarli.} NON dipende dall’unita’ di misura utilizzata per misurarli.
Grado di correlazione tra dati
Il valore assoluto di r e’una misura del grado di correlazione esistente tra i
due valori del singolo dato in un campione.
se |r|=1 la correlazione e’ massima e i punti associati ai singoli dati sul
diagramma di dispersione si dispongono lungo una retta, di coefficiente
angolare pari al segno di r (crescente per r>0, correlazione positiva,
decrescente per r<0, correlazione negativa).
Spesso r~1-ε, con ε dell’ordine di qualche decimo.
Se r~0.8 la correlazione e’ intensa, mentre per r~0.4 e’ scarsa, e si dice
molto debole per 0.3.
Tipicamente i sw commerciali hanno una funzione che ricerca la rettaretta
interpolanteinterpolante, come la retta che minimizza la somma
dello scarto quadratico della distanza
di ciascun punto dalla retta stessa.
NB
Correlazione ≠ Rapporto causa-effetto

More Related Content

What's hot

Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
Vispo Srl
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
Vispo Srl
 
Esercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teoriciEsercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teorici
Irene Martelli
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizione
Vispo Srl
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1ESmargiassi
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
Vispo Srl
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
Lucia Schirru
 
La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilità
Luigi Pasini
 
Indici di variabilità
Indici di variabilità Indici di variabilità
Indici di variabilità
Luigi Pasini
 
Indici dispersione
Indici dispersioneIndici dispersione
Indici dispersione
beatricecostanzo
 
Capitolo 5 richiami prob. stat. mercati fin
Capitolo 5   richiami prob. stat. mercati finCapitolo 5   richiami prob. stat. mercati fin
Capitolo 5 richiami prob. stat. mercati finGiovanni Della Lunga
 

What's hot (16)

Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
Esercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teoriciEsercitazioni corso di Statistica con riassunti teorici
Esercitazioni corso di Statistica con riassunti teorici
 
Statistica
StatisticaStatistica
Statistica
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizione
 
Appunti statistica descrittiva 1
Appunti statistica descrittiva 1Appunti statistica descrittiva 1
Appunti statistica descrittiva 1
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
Statistica
StatisticaStatistica
Statistica
 
Statistica
StatisticaStatistica
Statistica
 
Statistica sociale
Statistica socialeStatistica sociale
Statistica sociale
 
La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilità
 
Indici di variabilità
Indici di variabilità Indici di variabilità
Indici di variabilità
 
Statistica
StatisticaStatistica
Statistica
 
Indici dispersione
Indici dispersioneIndici dispersione
Indici dispersione
 
Lezione 3 metodo monte carlo
Lezione 3   metodo monte carloLezione 3   metodo monte carlo
Lezione 3 metodo monte carlo
 
Capitolo 5 richiami prob. stat. mercati fin
Capitolo 5   richiami prob. stat. mercati finCapitolo 5   richiami prob. stat. mercati fin
Capitolo 5 richiami prob. stat. mercati fin
 

Similar to Introduzione v

Lastatistica
LastatisticaLastatistica
Lastatistica
garofaloloredana
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
Luigi Pasini
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadrati
Luigi Pasini
 
Capitolo 6a elementi di valutazione dei prodotti derivati
Capitolo 6a   elementi di valutazione dei prodotti derivatiCapitolo 6a   elementi di valutazione dei prodotti derivati
Capitolo 6a elementi di valutazione dei prodotti derivatiGiovanni Della Lunga
 
Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _
SullivanReeis
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
Riccardo Narizzano
 
Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excel
Simone Vecchi
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misureDario
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2ESmargiassi
 
3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation
Riccardo Rigon
 
Appunti di teoria dell informazione
Appunti di teoria dell informazioneAppunti di teoria dell informazione
Appunti di teoria dell informazione
Vitalij Zadneprovskij
 
Alignment free sequence comparison—a review
Alignment free sequence comparison—a reviewAlignment free sequence comparison—a review
Alignment free sequence comparison—a review
Franco
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statisticagiammisarti
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - Schede
Nicola Gentili
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
Vispo Srl
 
Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9stefano_s
 
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di PsicofisicaSNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
Monica Pennati
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeri
Riccardo Rigon
 
1. frequenze
1. frequenze1. frequenze
1. frequenze
pontematica
 

Similar to Introduzione v (20)

Lastatistica
LastatisticaLastatistica
Lastatistica
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadrati
 
Capitolo 6a elementi di valutazione dei prodotti derivati
Capitolo 6a   elementi di valutazione dei prodotti derivatiCapitolo 6a   elementi di valutazione dei prodotti derivati
Capitolo 6a elementi di valutazione dei prodotti derivati
 
Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _Omundo da variabilidade: a estatística _
Omundo da variabilidade: a estatística _
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
 
Lss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excelLss dispersione correlazione_covarianza_excel
Lss dispersione correlazione_covarianza_excel
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misure
 
Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2
 
3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation3 alberti-seconda parte - About Spatial Correlation
3 alberti-seconda parte - About Spatial Correlation
 
Appunti di teoria dell informazione
Appunti di teoria dell informazioneAppunti di teoria dell informazione
Appunti di teoria dell informazione
 
Alignment free sequence comparison—a review
Alignment free sequence comparison—a reviewAlignment free sequence comparison—a review
Alignment free sequence comparison—a review
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statistica
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - Schede
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
 
Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9Misura psicologia esercizi-5-6-7-8-9
Misura psicologia esercizi-5-6-7-8-9
 
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di PsicofisicaSNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
 
8.7 il teorema del limite centrale e la legge dei grandi numeri
8.7   il teorema del limite centrale e la legge dei grandi numeri8.7   il teorema del limite centrale e la legge dei grandi numeri
8.7 il teorema del limite centrale e la legge dei grandi numeri
 
1. frequenze
1. frequenze1. frequenze
1. frequenze
 

More from imartini

2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo
imartini
 
Scheda bambino
Scheda bambinoScheda bambino
Scheda bambino
imartini
 
Subitizing
SubitizingSubitizing
Subitizing
imartini
 
intelligenza emotiva
intelligenza emotivaintelligenza emotiva
intelligenza emotiva
imartini
 
Il quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematicaIl quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematica
imartini
 
comunicazione_non_verbale
 comunicazione_non_verbale comunicazione_non_verbale
comunicazione_non_verbale
imartini
 
Adhd u
Adhd uAdhd u
Adhd u
imartini
 
DSA
DSADSA
osservazione fattoei di rischio dsa
osservazione fattoei  di rischio dsaosservazione fattoei  di rischio dsa
osservazione fattoei di rischio dsa
imartini
 
Prerequisiti
Prerequisiti Prerequisiti
Prerequisiti
imartini
 
Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura
imartini
 
scrittura
scritturascrittura
scrittura
imartini
 
Dispensa dsa
Dispensa  dsaDispensa  dsa
Dispensa dsa
imartini
 
Dentro ai dsa n
Dentro ai dsa nDentro ai dsa n
Dentro ai dsa n
imartini
 
dislessia
dislessiadislessia
dislessia
imartini
 
stili di apprendimento
stili di apprendimentostili di apprendimento
stili di apprendimento
imartini
 
DSA
DSADSA
Dsa fasce eta
Dsa  fasce etaDsa  fasce eta
Dsa fasce eta
imartini
 
Sviluppo percettivomotorio
Sviluppo percettivomotorio Sviluppo percettivomotorio
Sviluppo percettivomotorio
imartini
 
prerequisiti della scrittura
prerequisiti della scritturaprerequisiti della scrittura
prerequisiti della scrittura
imartini
 

More from imartini (20)

2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo2 parliamo e discutiamo del bullismo
2 parliamo e discutiamo del bullismo
 
Scheda bambino
Scheda bambinoScheda bambino
Scheda bambino
 
Subitizing
SubitizingSubitizing
Subitizing
 
intelligenza emotiva
intelligenza emotivaintelligenza emotiva
intelligenza emotiva
 
Il quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematicaIl quaderno delle_regole_di_matematica
Il quaderno delle_regole_di_matematica
 
comunicazione_non_verbale
 comunicazione_non_verbale comunicazione_non_verbale
comunicazione_non_verbale
 
Adhd u
Adhd uAdhd u
Adhd u
 
DSA
DSADSA
DSA
 
osservazione fattoei di rischio dsa
osservazione fattoei  di rischio dsaosservazione fattoei  di rischio dsa
osservazione fattoei di rischio dsa
 
Prerequisiti
Prerequisiti Prerequisiti
Prerequisiti
 
Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura Per sito-prerequisiti-letto-scrittura
Per sito-prerequisiti-letto-scrittura
 
scrittura
scritturascrittura
scrittura
 
Dispensa dsa
Dispensa  dsaDispensa  dsa
Dispensa dsa
 
Dentro ai dsa n
Dentro ai dsa nDentro ai dsa n
Dentro ai dsa n
 
dislessia
dislessiadislessia
dislessia
 
stili di apprendimento
stili di apprendimentostili di apprendimento
stili di apprendimento
 
DSA
DSADSA
DSA
 
Dsa fasce eta
Dsa  fasce etaDsa  fasce eta
Dsa fasce eta
 
Sviluppo percettivomotorio
Sviluppo percettivomotorio Sviluppo percettivomotorio
Sviluppo percettivomotorio
 
prerequisiti della scrittura
prerequisiti della scritturaprerequisiti della scrittura
prerequisiti della scrittura
 

Introduzione v

  • 1. Calcolo delle Probabilita’ e StatisticaCalcolo delle Probabilita’ e Statistica Metodi Statistici per l’IngegneriaMetodi Statistici per l’Ingegneria A.A. 2013-14A.A. 2013-14 Recapiti del docente: • @ nntmdl@unife.it • Tel 0532 – 97 4994 Mailing List: scrivetemi per essere inclusi nella mailing list del corso, in modo da ricevere informazioni e aggiornamenti su eventuali cambi di orario, etc. Orario di ricevimento • Martedi’ 17:00-18:00 e su prenotazione alle 18:50 c/o Dipartimento di Ingegneria (Blocco A) piano 3 stanza 313 durante il periodo didattico. Si prega cmq di prenotarsi per mail almeno il giorno prima. Ricevimento su appuntamento nel resto dell’anno. Libro di testo • Sheldon Ross, Probabilita’ e Statistica per Ingegneria e le Scienze, 2 ed., Apogeo Esame • Scritto • Orale (nella stessa sessione) – opzionale per chi ha superato lo scritto con almeno 18, – obbligatorio per chi ha tra 15 e 17. Oscillazione di voto [-3, +3] • Obbligo di iscrizione almeno 3gg prima sul web • Testi dei compiti e TRACCE di soluzione sul minisito Programma del corso • Sul minisito dell’insegnamento Orario di lezione • http://servizi.unife.it/orariolezioni/ • martedi’ 14:15-16:30, venerdi’ 16:30-18:45 • No lezione venerdi’ 18 OttobreNo lezione venerdi’ 18 Ottobre, recupero in data da definire
  • 2. Programma del corso (cap 1-8) Statistica descrittiva, • Rappresentazione dei dati di un campione, media mediana, moda, e varianza campionaria; percentili; boxplot. • disuguaglianza di Chebyshev su insiemi finiti; campioni normali; • insiemi bivariati; coefficiente di correlazione campionaria. Introduzione alla probabilità: • diagrammi di Venn e algebra degli eventi. • Richiami di calcolo combinatorio. • Assiomi della probabilità. Probabilità condizionale, formula di Bayes, eventi indipendenti. Variabili Aleatorie. – Variabili discrete: Bernoulli e Binomiale, Poissoniana, Ipergeometrica. – Variabili continue: Uniforme, Normale, Esponenziale, Gamma. – Variabili aleatorie inferenziali: Chi quadro, t(di student), F. • Valore atteso, def. e proprietà nel caso discreto e nel caso continuo. Valore atteso di somme di variabili aleatorie, valore atteso di funzioni di variabile aleatorie. • Distribuzioni congiunte, marginali e condizionali. Variabili indipendenti. • Varianza e covarianza di somme di variabili aleatorie. Funzione generatrice dei momenti. Disuguaglianza di Chebyshev per variabili aleatorie. Statistica inferenziale • popolazioni e campioni. Stimatori campionari, distribuzioni campionarie, media campionaria, varianza campionaria. • Teoria della Stima. Stime puntuali e per intervalli.
  • 3. Statistica Descrittiva vs Inferenziale Descrittiva: Descrive in modo compatto l’insieme dei dati raccolti, attraverso l’utilizzo di indicatori sintetici. Inferenziale: A partire dall’analisi delle caratteristiche di un campione, cerca di inferire le caratteristiche della popolazione a cui il campione appartiene Per condurre correttamente l’analisi, occorre fare delle ipotesi sul modello probabilistico dei dati a cui e’ soggetto il nostro campione sperimentale. Per questo occorre avere le basi della teoria del calcolo delle probabilita’
  • 4. La statistica Descrittiva • raccoglie dati, • li sintetizza • li interpreta Step 1: organizzare la raccolta dei dati • Step Fondamentale: la scelta del campione • Per essere rappresentativo, il campione deve essere scelto casualmentecasualmente tra tutti i sottoinsiemi possibili di tale cardinalita’.
  • 5. Statistica Descrittiva: rappresentazione dei dati Quando i dati assumono pochi valori diversi (gli stessi valori sono ripetuti piu’ volte nel campione), la rappresentazione piu’ semplice e’ la tabella delle frequenze Valore del dato Numero di volte (frequenza) 27 4 28 1 29 3 30 5 31 8 32 10 34 5 36 2 37 3 40 1 Esempio: Dati salariali. Il campione descrive il reddito annuale iniziale, in migliaia di $, di 42 ingegneri.
  • 6. Def Frequenza Relativa Si dice frequenza relativa di un valore i il rapporto tra la sua frequenza, fi cioe’ il numero di volte che tale valore compare nel campione, e la cardinalita’ n del campione stesso. Esempio sul campione di 42 elementi 27 4 4/42=0.095 (9.5%) 28 1 1/42=0.024 (2.38%) 29 3 3/42=0.071 (7.14%) 30 5 5/42=0.119 (11.9%) 31 8 8/42=0.190 (19.05%) 32 10 10/42=0.238 (23.81%) 34 5 5/42=0.119 (11.9%) 36 2 2/42=0.047 (4.76%) 37 3 3/42=0.071 (7.14%) 40 1 1/42=0.024 (2.38%) Valore Frequenza Freq. relativa (%) La somma delle frequenze relative e’ a somma 1
  • 7. Rappresentazioni grafiche del campione sull’asse x delle ascisse sono rappresentati i diversi valori che possono assumere i dati, e in ordinata y le frequenze. Si danno diverse rappresentazioni • Line graph (grafico a bastoncini). • Grafico a barre • Grafico a linee (spezzata) Freq 0 5 10 15 27 28 29 30 31 32 34 36 37 40 Freq Freq 0 5 10 15 27 28 29 30 31 32 34 36 37 40 Freq 0 2 4 6 8 10 12 0 10 20 30 40 50 stipendio (M$) frequenza stipendio Serie2
  • 8. Grafico a torta per i valori non numerici del dato Es. • Orientamento politico, il partito votato non e’ un dato numerico • Tipi di tumore (l’organo affetto) • Sport principale praticato dai bambini di una scuola L’angolo giro di 360° e’ suddiviso in settori, uno per ogni valore, di ampiezza proporzionale alla frequenza relativa Organo affetto Frequenza (su 200) Polmoni 42 Seno 50 Colon 32 Prostata 55 Melanoma cutaneo 9 Vescica 12 Frequenza Polmoni Seno Colon Prostata Melanoma cutaneo Vescica
  • 9. Quando i valori assunti dai dati numerici sono molto numerosi (1) si aggregano per intervallisi aggregano per intervalli del tipo (ai,bi] di ampiezza costante In tal caso il grafico a barre prende il nome di ISTOGRAMMA.ISTOGRAMMA. E’ molto utile in quanto visivamente rappresenta anche l’ampiezza scelta degli intervalli. I dati sull’asse delle x rappresentano i valori estremi degli intervalli e sono posti al confine tra una barra e la successiva, mentre nel grafico a barre vi e’ un valore (centrale) per ogni barra.
  • 10. Quando i valori assunti dai dati numerici sono molto numerosi (2) In alternativa si utilizza la curva delle FREQUENZE CUMULATIVE (ogiva) OGIVA: grafico di una funzione non decrescente sul piano cartesiano che, ad ogni valore xv appartenente all’intervallo dei valori assunti dai dati del campione, fa corrispondere ilil numero dei dati ynumero dei dati yvv che hanno valoreche hanno valore uguale o minore a xuguale o minore a xvv.. ((anticipa il concetto di distribuzione / ripartizionedi variabili aleatorie)) NB in caso di valori discreti dei dati si tratta di una spezzata ogiva 0 10 20 30 40 50 27 28 29 30 31 32 34 36 37 40 stipendi in m$ freqcumulative
  • 11. Quando i valori assunti dai dati numerici sono molto numerosi (3) Si utilizzano i diagrammi stem and leaf Occorre identificare una gerarchia nel dato numerico, dividendo il valore in una parte significativa e una meno. Pensate per esempio al consumo in m3 rilevato dai contatori del gas: si tratta di un numero a piu’ cifre, composto da una parte rossa (piu’ significativa, con le cifre a sx del punto decimale) e una parte nera (< 1 m3 ). In tabella si riporta, per ogni valore significativo, l’insieme dei valori meno significativi associati nei dati del campione. Es. L’insieme dei dati rilevati in un condominio di 11 unita’ abitative {1.56, 3.4, 3.78, 2.3, 9.14, 5.2, 3.87, 6.9, 2.84, 3.1, 5.54} si rappresenta come in figura: rosso nero 1 56, 2 30, 84 3 40, 78, 87, 10 5 20, 54 6 90 9 14
  • 12. Statistiche di sintesi dei dati numerici dei campioni • Media campionaria • Mediana campionaria • Moda campionaria
  • 13. Media campionaria Si definisce media campionaria di un campione di n dati numerici S(X)={x1,..,xn} il valore xaverage = 1/n Σi=1..n xi Come cambia la media perCome cambia la media per trasformazioni linearitrasformazioni lineari del datodel dato Sia yi = axi + b, allora vale yaverage= a xaverage + b Come si utilizza questa proprieta’? Semplificando i calcoli, shiftando i valori di S sottraendo a ciascuno il valore xmin, svolgendo il calcolo della media sul campione S(Y)={yi=xi-xmin} e poi sommando alla media xmin. Quindi xaverage= yaverage + xmin Utilita’: ridurre l’incidenza degli errori di cancellazione nelle operazioni Date le frequenze fi dei valori, e le frequenze relative (occorrenza / cardinalita’ del campione) φi = fi /n si osserva che la media campionaria e’ la somma pesata dei valori per le frequenze relative Siano {v1,..,vk} i k valori distinti assunti dai dati del campione, sia φi la frequenza relativa del valore vi. Allora, xxaverageaverage == ΣΣi=1..ki=1..k vvii φφii
  • 14. Mediana campionaria • La mediana descrive il centrocentro di un insieme di dati. • Si definisce la mediana campionaria di un campione di dati numerici S={x1,..,xn} ORDINATO IN ORDINE CRESCENTE il valore posizionato in posizione intermedia: n/2 per n dispari, la media tra i valori in posizione n/2 e (1 + n/2) per n pari Sia la media che la mediana descrivono I valori “centrali” del campione. Inoltre la media e’ molto sensibile ai valori estremi, sia particolarmente alti ☺ che bassi ☹ (pensate alla media dei vostri esami), ma non danno indicazioni sulle frequenze dei valori nel campione. Quante volte viene assunto dai dati questo specifico valore? Quale e’ il valore + frequente? A quest’ultima domanda risponde la MODAMODA
  • 15. Moda campionaria • Si definisce la moda campionaria di un campione di dati numerici S={x1,..,xn} il valore con frequenza massima se unico. Altrimenti, tutti i valori con frequenza pari alla frequenza massima si dicono Valori Modali La moda descrive il centro della DISTRIBUZIONE dei datiLa moda descrive il centro della DISTRIBUZIONE dei dati ……………………………………………. Ex: calcolo di media mediana e moda di un campione 40 lanci di un dado a 6 facce, questi i risultati Valore 1 2 3 4 5 6 Frequenza 9 8 5 5 6 7 Media campionaria: (9 + 2·8 + 3·5 + 4·5 + 5·6 + 6·7) / 40 = 3.05 Mediana campionaria: avendo 40 lanci si prende la media di valori 20esimo e 21esimo , cioe’ (3+3)/2=3 Moda campionaria: il valore con massima frequenza e’ 1, che compare nel campione per 9 volte
  • 16. Media mediana e moda sono informazioni complementari, nel senso che la loro conoscenza congiunta permette una lettura piu’ approfondita del campione. I topi di laboratorioI topi di laboratorio Un gruppo di topi di 35gg e’ sottoposto a radiazioni e poi diviso in due sottogruppi S1 di 29 elementi e S2 di 19, tenuti in ambiente serile / normale. Questi i giorni di vita nei due gruppi (stem and leaf) 1 58,92,93,94,95 1 59,89,91,98 2 02,12,15,29,30,37,40,44,47,59 2 35,45,50,56,61,65,66,80 3 01,01,21,37 3 43,56,83 4 15,34,44,85,96 4 03,14,28,32 5 29,37 6 24 7 07 8 00 media S1=344.07, media S2=292.32, ma mediana S1=259 (quindicesimo valore), e mediana S2=265 (decimo valore) Infatti la media di S1 risente molto dei valori alti, 624 707 e 800, ma la mediana non ne viene influenzata purche’ siano > a 259. Quindi l’ambiente sterile ha allungato la vita dei topi + longevi ma non si possono trarre conclusioni sugli altri Esempio 2.3.4
  • 17. Media mediana e moda descrivono i valori “centrali” del campione, MA non colgono il grado di dispersione / concentrazione dei dati attorno a tali valori. Esempio Siano dati i due insiemi Sa={3,4,6,7,10} e Sb={-20,5,15,24} Calcoliamone le medie: xa=(3+4+6+7+10)/5 = 6, xb=(-20+5+15+24)/4 = 6, Si evince che confrontare le medie di due campioni non fornisce indicazioni sufficienti per dedurne delle conseguenze • Occorrono altri indicatori, Varianza e Deviazione Standard Esempio 2.3.6
  • 18. Varianza campionaria • La varianza s2 di un campione S={x1,..,xn} descrive lo scarto quadratico medio dalla media campionaria Def. Se calcoliamo la varianza dei due campioni S1 eS2, notiamo come la loro varianza differisca notevolmente s2 a= ( (3-6)2 + (4-6)2 + (6-6)2 + (7-6)2 + (10-6)2 ) / 4 = 7.5 s2 b= ( (-20-6)2 + (5-6)2 + (15-6)2 + (24-6)2 ) / 3 = ~ 360 2 1 2 )( 1 1 ∑= − − = n i i xx n s
  • 19. Proprieta’ della varianzaProprieta’ della varianza 2 1 2 1 2 )( xnxxx n i i n i i −=− ∑∑ == Trasformazioni lineari dei dati del campioneTrasformazioni lineari dei dati del campione La varianza e’ invariante rispetto alla somma di costanti e varia con il quadrato del coefficiente moltiplicativo Sia sx 2 la varianza di un campione Sx e si operi la trasformazione yi=xi+b. Allora sx 2 e’ anche la varianza del campione Sy={yi=xi+b} Si operi la trasformazione zi=axi, allora la varianza del campione Sz={zi=axi} e’ sz 2 = a2 sx 2 2 1 22 1 2 2 11 2 2 1 2 1 2 2 2 )2()( xnxxnxnxx xnxxx xxxxxx n i i n i i i n i n i i i n i i n i i −=+−= =+−= =+−=− ∑∑ ∑∑ ∑∑ == == == ThTh Dim.Dim.
  • 20. Deviazione Standard CampionariaDeviazione Standard Campionaria 2 1 )( 1 1 ∑= − − = n i i xx n s Si definisce la deviazione standard campionaria come la radice quadrata della Varianza Campionaria. Si osservi che s ha la stessa unita’ di misura dei dati del campione. Vedremo che proprio per questo e’ utile nello stimare il numero di dati del campione che sono presenti in un certo intervallo di valori centrato nella media campionaria.
  • 21. Percentile, quartile, box plotPercentile, quartile, box plot Def. dato k intero ∊(0,100), si definisce come Percentile kPercentile kesimoesimo il valore ≥ al k% dei dati del campione e contemporaneamente ≤ al (100-k)% dei dati, se unico, altrimenti la media dei 2. Si tratta del valore in posizione nk/100 avendo i dati del campione ordinati in ordine (non de)crescente. • Il 25esimo percentile si dice primo quartileprimo quartile, • il 50esimo corrisponde alla medianamediana campionaria, o secondosecondo quartilequartile • il 75esimo si dice terzo quartileterzo quartile
  • 22. Esempio: data set di 36 rilevazioni di rumoreEsempio: data set di 36 rilevazioni di rumore Diagramma stem and leaf dei valori • 6 0,5,5,8,9 • 7 2,4,4,5,7,8 • 8 2,3,3,5,7,8,9 • 9 0,0,1,4,4,5,7 • 10 0,2,7,8 • 11 0,2,4,5 • 12 2,4,5 Calcoliamo il 1 quartile (25 precentile) Il campione e’ di 36 dati, cerco (almeno) un dato che sia >= dei primi 9 dati ( 9 = ceiling(36 * 25/100) ) <= dei maggiori 27 ( 27 = ceiling(36 * (1 - 25/100)) ) Il nono dato, 75 e’ >= dei primi 9, e <= dei maggiori 28 Anche il decimo dato, 77, soddisfa alle condizioni: 77 e’ >= dei primi 10 ed e’ <= dei maggiori 27 Quindi il primo quartile (25 esimo percentile) e’ (75+77)/2 = 76. NB il k^ percentile puo’ non essere un dato del campione!!
  • 23. Box PlotsBox Plots • Si dice blox plot la rappresentazione sul segmento associato all’ intervallo compreso tra il valore minimo e quello massimo nel campione, di due rettangolidue rettangoli adiacenti aventi come lato la parte tra il primo e il secondo quartile, e tra il secondo e il terzo. 27 40 30 31.5 34 60 125 Questo e’ il box plot deli dati di tabella 2.6 Ora facciamo quello dei dati della rumorosita’ 76 89.5 104.5 La mediana e’ la media tra 89 e 90, il terzo percentile la media tra 102 e 107
  • 24. Box plot dei risultati prodotti da 14 algoritmi diversi su 100 istanze. Che tipo di valutazioni vi consente di fare questa rappresentazione?
  • 25. Disuguaglianza di ChebyshevDisuguaglianza di Chebyshev • Stabilisce per difetto il numero di dati del campione che si trovano entro una certa distanza dalla media campionaria. • Tale distanza e’ espressa in termini di multipli della deviazione standard campionaria s. Def. dato un campione S={x1,..,xn} di media campionaria xavg e deviazione standard campionaria s, sia Sk l’insieme degli indici dei dati con valore nell’intervallo [xavg- ks, xavg+ ks]. Allora per ogni k≥1 vale che |Sk| /n ≥ 1 – (n-1)/(nk2 ) > 1 – 1/k2 . Quindi gli elementi fuori da Sgli elementi fuori da Skk sono non piu’ di 1/ksono non piu’ di 1/k22 volte quelli di S.volte quelli di S.
  • 26. Th: |Sk| /n ≥ 1 – (n-1)/(nk2 ) > 1 – 1/k2 Dim. )( )()()()( )()1()()1()1( 22 2222 1 2 1 22 k SiSi i Si i Si i n i i n i i Snsk ksxxxxxx xxnxxnsn kkkk −= =≥−≥−+− =−=−−−=− ∑∑∑∑ ∑∑ ∉∉∉∈ == Quindi 2 22 2 2 222 11 1)1(1 1)1( )()1( )()1( knS nSnknk nSnkn nSnnkn Snsksn k k k k k −≥ ⇔−≥−≥ ⇒−≥− ⇔−≥− ⇔−≥− Divido entrambi i membri per nk2 s2 Maggioro (n-1) con n e semplifico Riordino i termini mettendo in evidenza |Sk|/n Per def di varianza campionaria Scompongo la sommatoria tra i termini in Sk e quelli fuori da Sk In base alla definizione di Sk Porto fuori dalla sommatoria k2 s2
  • 27. Campioni Normali Molto spesso gli istogrammi dei dati relativi a delle misurazioni sperimentali in contesti anche molto dissimili, hanno una forma caratteristica • I campioni normali sono contraddistinti dalla forma a campana degli istogrammi dei dati • Presentano un unico massimo in corrispondenza della mediana • Media = mediana = moda • La curva della campana e’ simmetrica rispetto alla media Esempi: altezza dei bambini di una certa scuola, misurata al k esimo giorno di eta’, ore spese davanti alla tv in un giorno, valore dell’emoglobina negli individui sani di sesso maschile in una certa fascia di eta’,… I campioni con queste caratteristiche si dicono campionicampioni NORMALINORMALI
  • 28. Esempio di istogrammaEsempio di istogramma di un campione perfettamente normaledi un campione perfettamente normale
  • 29. Esempio di istogramma di unEsempio di istogramma di un campione approssimativamente normalecampione approssimativamente normale
  • 30. Esempio di istogramma di unEsempio di istogramma di un campione skewed a sinistracampione skewed a sinistra Asimmetria rispetto alla mediana, coda + lunga a sinistra
  • 31. Esempio di istogramma di unEsempio di istogramma di un campione skewed a destracampione skewed a destra Asimmetria rispetto alla mediana, coda + lunga a destra
  • 32. Nei campioni approssimativamente normali vale la seguente regola empirica che rinforza la disuguaglianza di Chebyshev fornendo percentuali maggiori dei dati che si trovano a distanza s, 2s e 3s dalla media Regola empirica: In un campione approx normale sia xav la media e s la deviazione standard campionaria, allora • Il 68%68% dei dati sta nell’intervallo [xav - s, xav+s] • Il 95%95% dei dati sta nell’intervallo [xav -2s, xav+2s] • Il 98%98% dei dati sta nell’intervallo [xav -3s, xav+3s] xav
  • 33. Campioni BivariatiCampioni Bivariati • Quando i dati relativi a una singola osservazione nel campione sono coppie di valoricoppie di valori, es temperatura e umidita’, grado di istruzione e stipendio medio, si parla di campioni BIVARIATI • I dati vengono rappresentati come punti sul diagramma didiagramma di dispersionedispersione, un piano cartesiano con i valori in ordinata e in ascissa riferiti alle due classi di valori dei dati. Soggetto 1 2 3 4 5 6 7 8 9 10 Anni scuola 12 16 13 18 19 12 18 19 12 14 Frequenza Card 73 67 74 63 73 84 60 62 76 71 anni studio vs frequenza cardiaca 0 10 20 30 40 50 60 70 80 90 0 5 10 15 20 anni di studio battitialminuto anni studio vs frequenza cardiaca
  • 34. Correlazione tra valori delle coppie (x,y)Correlazione tra valori delle coppie (x,y) Indichiamo ogni dato iesimo con la coppia dei valori associati (xi,yi) Ci si domanda se esiste corrispodenza tra I valori di x e y, in particolare – se a valori alti di x corrispondono generalmente valori alti di y e a valori bassi di x corrispondono generalmente a valori bassi di y si parla di correlazione positiva MENTRE – Se a valori alti di x corrispondono generalmente valori bassi di y e a valori bassi di x corrispondono generalmente valori alti di y si parla di correlazione negativa tra x e y. • Nel primo caso il diagrama di dispersione evidenzia una curva crescente, nel secondo una curva decrescente
  • 35. Introduciamo una misura di questa relazione Siano xavg e yavg le medie dei valori dei dati relativi al primo e al secondo valore dei dati. Per ogni dato iesimo consideriamo il prodotto delle differenze dalle medie,prodotto delle differenze dalle medie, (xavg -xi)(yavg -yi) Se (xavg -xi)(yavg -yi)>0 allora sia il primo che il secondo valore del dato sono sopra la rispettiva media, oppure entrambi inferiori ad essa. E’ cio’ che accadrebbe in caso di correlazione POSITIVA Se (xavg -xi)(yavg -yi)<0 allora o il primo valore del dato iesimo xi e’ inferiore alla sua media xavg mentre il secondo valore yi e’ superiore alla propria media yavg, o viceversa. E’ cio’ che accadrebbe in caso di correlazione NEGATIVA. Sommiamo questo valore per tutti i dati del campione e normalizziamo dividendo per ((n-1) sy sx) dove n e’ la cardinalita’ del campione, e sx sy sono le deviazioni standard campionarie del primo e del secondo valore dei dati del campione.
  • 36. Coefficiente di Correlazione Campionaria Def: si definisce coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’ ∑∑∑ ∑∑∑ ∑ === == = = −−−− =−−−−−−− =−−−≡ n i i n i ii n i i ni ini ii n i i yxi n i i yyxxyyxx nyynxxnyyxx ssnyyxxr 1 2 1 2 1 ..1 2 ..1 2 1 1 )()()()( )1()()1()()1()()( )1()()( Espandiamo la formula della Deviazione standard campionaria
  • 37. Proprieta’ del Coefficiente di Correlazione Campionaria 1) Il valore del coefficiente di correlazione campionaria e’ compreso tra -1 e 1 2) Se i valori del secondo elemento della coppia di ciascun dato sono legati al primo da una relazione lineare, i.e., yi = axi+b ∀ i=1..n, con a>0 ⇒ allora |r| = 1 Se invece la relazione vale per a<0 ⇒ allora |r| = -1 3) Sia r e’ il coefficiente di correlazione campionaria del campione C1 ={(xi,yi)} e sia C2 ={(wi,zi)} con wi = axi+b e zi = cyi+d ∀ i=1..n, dove i coefficienti a e c hanno lo stesso segno, allora il campione C2 ha lo stesso coefficiente di correlazione campionario r del campione C1 . Una rilevante conseguenza della proprieta’ 3 e’ che il coefficiente di correlazione tra iil coefficiente di correlazione tra i due valori {xdue valori {xii} e {y} e {yii} NON dipende dall’unita’ di misura utilizzata per misurarli.} NON dipende dall’unita’ di misura utilizzata per misurarli.
  • 38. Grado di correlazione tra dati Il valore assoluto di r e’una misura del grado di correlazione esistente tra i due valori del singolo dato in un campione. se |r|=1 la correlazione e’ massima e i punti associati ai singoli dati sul diagramma di dispersione si dispongono lungo una retta, di coefficiente angolare pari al segno di r (crescente per r>0, correlazione positiva, decrescente per r<0, correlazione negativa). Spesso r~1-ε, con ε dell’ordine di qualche decimo. Se r~0.8 la correlazione e’ intensa, mentre per r~0.4 e’ scarsa, e si dice molto debole per 0.3. Tipicamente i sw commerciali hanno una funzione che ricerca la rettaretta interpolanteinterpolante, come la retta che minimizza la somma dello scarto quadratico della distanza di ciascun punto dalla retta stessa. NB Correlazione ≠ Rapporto causa-effetto