Queste sono le slides del corso di Statistica Inferenziale per Data Scientist, realizzato dal Dott. Giuseppe Dejan Lucido e prodotto da ProfessionAI, la prima Online Academy Italiana per Data Science, Machine Learning e Artificial Intelligence.
https://www.profession.ai/
2. Obbiettivi del corso
• Capire cos’è e a cosa serve la statistica
• Descrivere i dati, sintetizzandoli e rappresentandoli graficamente
• Capire la probabilità e le sue distribuzioni
• Cominciare a programmare in R
Cosa è la Statistica?
3. Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• IL DISEGNO DI STUDIO
Definizione del fenomeno da studiare, degli
obbiettivi e delle modalità
Cosa è la Statistica?
4. Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• IL PIANO DI CAMPIONAMENTO
Rilevazione e raccolta dei dati regolata
dalla teoria dei campioni
Cosa è la Statistica?
5. Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• L’ANALISI DESCRITTIVA
Sintesi, rappresentazione grafica e
interpretazione dei dati
Cosa è la Statistica?
6. Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• L’INFERENZA
Generalizzazione delle evidenze osservate
nei dati del campione all’intera popolazione
oggetto di studio.
Previsioni e/o interpolazioni.
Cosa è la Statistica?
7. Cosa è la Statistica?
Per mezzo della statistica si analizzano i
fenomeni e la realtà e si cerca di spiegarli
in termini quantitativi.
Lo si fa osservando un insieme di dati,
sintetizzandoli, ispezionando le variabili e
trovando relazioni fra di esse.
Cosa è la Statistica?
14. L’unità elementare su cui vengono
osservate le caratteristiche oggetto di
studio prende il nome di unità statistica
Concetti e definizioni di base
Cosa è la Statistica?
15. Concetti e definizioni di base
L’insieme di unità elementari
accomunate da una o più caratteristiche,
prende il nome di popolazione
Cosa è la Statistica?
16. Per ragioni di tempo e denaro non si lavora (quasi)
mai sull’intera popolazione, ma su un sottogruppo
di essa, chiamato campione
Concetti e definizioni di base
Cosa è la Statistica?
17. Concetti e definizioni di base
Le caratteristiche delle unità osservate e
studiate vengono chiamate variabili, e
possono essere di diverso tipo e misura
Cosa è la Statistica?
19. Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano
i valori e possono essere:
Discrete, quando assumono valori interi
ed esprimono un conteggio
(numero di…)
Variabili Statistiche
20. Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Continue, quando assumono valori su scala
continua, quelle che possono essere suddivisi
in sottointervalli sempre più piccoli
(tempo, lunghezza, peso ecc.)
Variabili Statistiche
21. Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Su scala di intervalli, quando nella scala di
misura non esiste uno zero assoluto o esso è
convenzionale
Variabili Statistiche
22. Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Su scala di rapporti, quando nella scala di
misura esiste uno zero assoluto, spesso inteso
come ‘’assenza’’
Variabili Statistiche
23. Qualitative o categoriali
sono espresse in lettere, se ne osservano le
modalità e possono essere:
Su scala nominale: quando le modalità si
possono confrontare solo in termini di
uguaglianza.
Tipi di variabili statistiche
Variabili Statistiche
24. Qualitative o categoriali
sono espresse in lettere, se ne osservano le
modalità e possono essere:
Su scala ordinale, quando le modalità
hanno un ordinamento, naturale o artificiale
Tipi di variabili statistiche
Variabili Statistiche
25. NOTA 1:
Alcune variabili possono essere
considerate a volte su scala nominale,
altre volte su scala ordinale, a seconda
dello studio e dell’obbiettivo.
Il colore è una di queste.
Tipi di variabili statistiche
Variabili Statistiche
26. NOTA 2:
Alcune variabili sono qualitative ma vengono
espresse in numeri solo perché codificate, ma
vanno comunque trattate come qualitative.
Potresti trovarle sotto il nome di fattori o dummy.
Es.
0: gruppo di controllo
1: gruppo trattato
Tipi di variabili statistiche
0 1
Variabili Statistiche
27. Suddivisione in classi
Quando una variabile presenta un
numero troppo elevato di modalità o
valori, per sintetizzare l’informazione a
volte conviene suddividerla in classi.
È importante trovare un compromesso
tra sintesi e perdita/distorsione
d’informazione.
Variabili Statistiche
28. Suddivisione in classi
Le classi devono essere:
ESAUSTIVE
tutti i valori devono rientrare IN ALMENO
UNA delle classi
MUTUAMENTE ESCLUSIVE
tutti i valori devono rientrare IN UNA
SOLA classe
Ogni valore quindi deve stare in UNA E
UNA SOLA classe.
Variabili Statistiche
29. Possibilmente le classi si costruiscono di
uguale ampiezza, tranne in casi
particolari o in base al contesto e
all’obbiettivo dell’analisi
Le classi iniziali e finali possono essere
lasciate aperte per evitare classi vuote o
con pochissime osservazioni
Classi di età
0 – 1
2 – 4
5 – 9
10 – 14
15 – 19
20 – 24
.
.
.
90 – 94
95+
Suddivisione in classi
Variabili Statistiche
31. Esempio – Disegno di studio e campionamento
Chi sono io? Ricercatore – pescatore – persona curiosa o appassionata
Cosa voglio studiare? L’intero ecosistema marino o la pescosità delle coste di Palermo
Qual è il mio obbiettivo attuale? Capire la natura – pescare di più – pubblicare un paper
Che tipo di studio voglio fare? Osservazionale sul campo – Sperimentale in laboratorio
Chi mi commissiona il lavoro? L’Università – il Comune – l’Unione Europea – la mia curiosità
Quanti soldi ho? 200 euro - 5 mila euro – 100 mila euro – 1 milione di euro
Quanto tempo ho? 1 anno – 3 mesi – 2 settimane – 1 giorno
Esempio
32. Esempio - Disegno di Studio e Campionamento
Variabili di interesse:
LUOGO, SESSO, LUNGHEZZA E PESO
Carini Isola delle Femmine Capogallo
Esempio
Rispettare le regole
del campionamento
33. Esempio - Disegno di Studio e Campionamento
Definire:
popolazione
oggetto di studio
criteri di
esclusione-
inclusione delle
unità
Esempio
34. Esempio - Disegno di Studio e Campionamento
Definire:
popolazione
oggetto di studio
criteri di
esclusione-
inclusione delle
unità
Esempio
36. ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Distribuzione unitaria o dati grezzi
Spesso e volentieri i dati appena
raccolti (o prelevati da un database) si
presentano così
In questo formato contengono la
massima quantità di informazione
disponibile a discapito della
‘’leggibilità’’ e della sintesi
Esempio
37. Statistica Descrittiva
per Data Scientist
Sintetizzare i dati
Distribuzioni di frequenze
presentato da
Giuseppe Dejan Lucido
38. ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Distribuzione unitaria o dati grezzi
Spesso e volentieri i dati appena
raccolti (o prelevati da un database) si
presentano così
In questo formato contengono la
massima quantità di informazione
disponibile a discapito della
‘’leggibilità’’ e della sintesi
Esempio
39. Dati aggregati
SESSO
M F
9 11
LOCALITÀ
CAPOGALLO 7
CARINI 4
ISOLA 9
CAPOGALL
O…
CARINI
20%
ISOLA DELLE
FEMMINE
45%
Composizione del campione
I dati aggregati possono essere stati raccolti
già in questa maniera o possono essere stati
elaborati da qualcuno.
Questo formato aiuta la lettura e
l’interpretazione ma implica automaticamente
la perdita di alcune informazioni
M F
CAPOGALL
O 3 4
CARINI 2 2
ISOLA 4 5
Sintetizzare i dati
40. Distribuzioni di frequenze
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
n = FREQUENZE ASSOLUTE numero di volte che una modalità o classe viene osservata
F = FREQUENZE RELATIVE valore percentuale della frequenza assoluta 𝒏𝒊 / TOT
N = FREQUENZE CUMULATE frequenze assolute che si accumulano lungo la variabile
F = FREQUENZE RELATIVE CUMULATE frequenze relative che si accumulano lungo la variab
Sintetizzare i dati
41. Distribuzioni di frequenze doppie
Considerano due variabili per volta, una per riga e una
per colonna, riportando in ogni cella le frequenze
congiunte delle varie classi e/o modalità
PESO/SESSO M F TOT
0 -|100 5 2 7
100-|200 0 4 4
200-|300 4 5 9
TOT 9 11 20
PESO/SESSO M F TOT
0 -|100 0.25 0.10 0.35
100-|200 0.00 0.20 0.20
200-|300 0.20 0.25 0.45
TOT 0.45 0.55 1
Frequenze assolute
Frequenze relative
Sintetizzare i dati
43. Rappresentazioni grafiche
Una rappresentazione grafica è uno
dei migliori metodi per comunicare le
informazioni ricavate dai dati, a patto
che i grafici siano:
• Chiari
• Immediati
• Costruiti in modo adeguato
• Autoesplicativi
Sintetizzare i dati
46. Aerogrammi
L’areogramma è un grafico in cui le
frequenze o le quantità di una variabile sono
rappresentate da superfici di figure piane
È possibile utilizzare più figure dello stesso
tipo aventi superfici proporzionali alle
frequenze o alle quantità, oppure un’unica
figura la cui superficie viene divisa
proporzionalmente
Sintetizzare i dati
47. Grafico a torta – Pie chart
Nei grafici a torta, ogni settore circolare (o fetta)
corrisponde a una modalità o classe di una
variabile ed è caratterizzata dal suo angolo al
centro.
L’ampiezza si ottiene facilmente dalla
proporzione:
𝐴 ∶ 360° = 𝑛 ∶ 𝑁
dalla quale si ottiene:
𝐴 =
𝑛 × 360
𝑁
Sintetizzare i dati
48. Grafico a barre – Bar plot
Generalmente si costruisce su un sistema di
assi cartesiani, in cui si pongono le modalità
o i valori della variabile sull’asse X e le
rispettive frequenze o valori di un’altra
variabile sull’asse Y
Numero di gatti coccolati nei mesi del 2019
Sintetizzare i dati
49. Grafico a barre affiancate
Il ‘’dodged’’ bar plot permette di
aggiungere l’informazione contenuta
in un’altra variabile.
È possibile infatti dividere ogni
colonna secondo la classificazione di
un’altra variabile in colonne
affiancate, utilizzando colori diversi
per facilitare la lettura.
Punteggio ottenuto in tre giochi dai sei amici
Sintetizzare i dati
50. Profitti in migliaia di dollari nei cinque punti vendita
Grafico a barre sovrapposte
Lo ‘’stacked’’ bar plot è un’altra variante
molto utile per lo stesso motivo del
precedente.
Quando la variabile rappresentata
indica una somma di più parti è
possibile suddividere ogni colonna in
‘’sotto-colonne’’ sovrapposte, secondo
la classificazione di un’altra variabile.
Sintetizzare i dati
51. Grafico a barre sovrapposte normalizzato
Spesso può essere utile normalizzare
il grafico «a somma 100», sia per
facilitare la lettura, sia perché potrebbe
esserci una variabile sottintesa che
andrebbe a distorcere l’informazione
del grafico.
Vendite dei diversi dispositivi in diverse aree
Sintetizzare i dati
52. Poligono di frequenze
Quando sull’asse delle X c’è una variabile
che sottintende il tempo può essere più
efficace unire le ‘’teste’’ delle barre,
ottenendo così il poligono di frequenze.
Sintetizzare i dati
Numero di gatti coccolati nei mesi del 2019
53. Serie storiche
Più in generale, quando si misura la
stessa variabile in tempi diversi, sullo
stesso ‘’individuo’’ (o aggregato), si parla
di serie storica.
Quando le rilevazioni sono molto ‘’fitte’’ i
dati si rappresentano disegnando solo
una linea spezzata.
(line chart)
Prezzo giornaliero delle azioni Google negli ultimi 5 anni
Sintetizzare i dati
56. Cartogrammi
Quando la stessa variabile è rilevata in
diversi punti geolocalizzati, è possibile
rappresentarne la distribuzione
spaziale attraverso i cartogrammi.
È importante utilizzare colori adeguati.
Numero di incidenti stradali rilevati nel 2019
*Dati totalmente inventati
Sintetizzare i dati
59. Gli indici di posizione
Indici sintetici, funzioni dei dati risultanti in singoli valori che
descrivano in sintesi la distribuzione dei nostri dati.
• Medie (aritmetica, ponderata, armonica e geometrica)
• Mediana
• Moda
• Minimo e Massimo
• Percentili
Sintetizzare i dati
60. La moda
La moda può essere definita per
qualsiasi tipo di variabile e, in pratica,
non viene neanche calcolata.
Essa infatti è semplicemente la
modalità con la frequenza osservata
più alta.
3
4
1
3
8
1
0 5 10
0-|50
50-|100
100-|150
150-|200
200-|250
250-|300
Frequenza
Classi
di
peso,
g
Classe modale
LOCALITÀ n
CAPOGALLO 7
CARINI 4
ISOLA 9
Moda
Sintetizzare i dati
61. Quantili e percentili
I quantili sono quei valori che frazionano in
più parti un insieme di dati disposti in
ordine progressivo.
Un percentile, ad esempio, Xp è quel
valore che divide la distribuzione dei valori
in due parti, tali che p% dei valori sia
minore di Xp e (1-p)% sia maggiore di Xp.
Sintetizzare i dati
62. La mediana
La mediana è un indice robusto, viene calcolata per
variabili quantitative o per variabili qualitative ordinali ed è il
50esimo percentile.
Viene definita ordinando i dati in ordine crescente
o decrescente e prendendo il valore che sta
esattamente in mezzo alla serie.
10 23 34 40 45 66 89 90 134 145 182
mediana
Sintetizzare i dati
63. La mediana
Nel caso di distribuzione in classi e di variabili
qualitative ordinali, sarà definita classe mediana
la prima classe la cui frequenza relativa
cumulata sia maggiore o uguale a 0,50.
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
classe
mediana
Sintetizzare i dati
64. I quartili
I quartili sono quei tre valori della serie
ordinata di dati che dividono la serie stessa
in quarti, cioè in quattro ‘’parti’’ uguali.
Rappresentano il 25esimo, il 50esimo e il
75esimo percentile.
10 23 34 40 45 66 89 90 134 145 182
Q2
Q1 Q3
37 112
Sintetizzare i dati
65. I quartili
Nel caso di distribuzione di frequenza, saranno
definiti prendendo le prime modalità o classi,
le cui frequenze relative cumulate superano
0,25 e 0,75.
Q 2
Q 1
Q 3
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
Sintetizzare i dati
66. La media aritmetica
Si sommano tutti i valori della
variabile quantitativa e si divide
per il numero dei valori.
60cm 120cm 80cm 100cm
µ =
60 + 120 + 80 + 100
4
= 90 cm
Sintetizzare i dati
67. La media ponderata
Si sommano tutti i valori della variabile
quantitativa, moltiplicati ognuno per i rispettivi
pesi, e si divide il valore ottenuto per la somma
di tutti i pesi.
Nelle distribuzione in classi, si utilizzano come x i
valori centrali di ogni classe e come pesi le
rispettive frequenze assolute
p x
PESO 𝒏𝒋 𝒄𝒋
0 -| 50 3 25
50 -| 100 4 75
100 -| 150 1 125
150 -| 200 3 175
200 -| 250 8 225
250 -| 300 1 275
Mp =
3∗25 + 4∗75 + 1∗125 + 3∗175 + 8∗225 + 1∗275
20
= 155 g
Sintetizzare i dati
68. La media geometrica
La media geometrica di n dati equivale alla
radice n-esima del prodotto fra tutti i dati.
Per dati che rappresentano delle variazioni
di un fenomeno nel tempo, solitamente in
valori percentuali.
Non va utilizzata in presenza di zeri o
valori negativi.
Sintetizzare i dati
69. La media armonica
La media armonica è il reciproco della
media aritmetica dei reciproci dei valori.
L’utilizzo è appropriato quando i dati
rappresentano dei rapporti o delle
velocità.
Sintetizzare i dati
71. Gli indici di posizione spesso non bastano!
Non ci danno informazione sulla variabilità,
su come e quanto si distribuiscono i dati sul
loro dominio o sul loro range
«Se stai con la testa nel freezer
e il sedere nel forno
mediamente stai bene»
Misure di variabilità
Sintetizzare i dati
72. La variabilità di una distribuzione misura
la tendenza delle unità ad assumere
diverse modalità o valori della variabile
Gli indici di variabilità sintetizzano la
diversità tra le unità, in termini di distanza
tra due valori della distribuzione o di
modalità osservate
Permettono così di confrontare tra
loro diverse distribuzioni.
Misure di variabilità
Sintetizzare i dati
73. Le principali misure di variabilità sono:
• Range o intervallo di variazione
• Differenza interquartile o range interquartile
• Varianza
• Deviazione standard o scarto quadratico medio
• Coefficiente di variazione
• Indice di eterogeneità di Gini (per variabili qualitative)
Misure di variabilità
Sintetizzare i dati
74. Il range di una variabile è la semplice
differenza tra il valore più grande e
quello più piccolo registrati
R = Max(x) – Min(x)
NOTA: il range di una variabile non è
l’equivalente del suo intero dominio.
Range o intervallo di variazione
Sintetizzare i dati
75. Differenza (o range) interquartile
È la differenza tra il terzo quartile e il primo
quartile e rappresenta l’intervallo di variazione
del corpo centrale dei dati, il 50% dei dati che sta
tra i due quartili.
IQR = Q3(x) – Q1(x)
Può essere utile perché non risente della
presenza di valori anomali dei dati, i cosiddetti
outliers.
Sintetizzare i dati
76. R = 18,4 – 12,1 = 6,3
R
IQR = 16,3 -14,3 = 2
Esempio – range e range interquartile
IQR
Q1
Q2
Q3
Dati NON
cronologici
ma in ordine
crescente
media
Sintetizzare i dati
77. La varianza
Gli indici di variabilità per variabili quantitative
più diffusi sono quelli che considerano la
diversità delle unità dalla media aritmetica e
una di questi è la varianza
Varianza ponderata o per suddivisione in classi
Sintetizzare i dati
0 +∞
79. Deviazione Standard
La radice quadrata della varianza, nota come
deviazione standard o scarto quadratico
medio, ci fornisce un indice di variabilità
nella stessa unità di misura dei dati
osservati.
=
22−20 + 18−20 + 21−20 + (19−20)
4
= 2,5
=
30−20 + 24−20 + 16−20 + (10−20)
4
= 58
= 1,58
= 7,61
Sintetizzare i dati
80. Deviazione standard
NOTA:
Essa è un indice assoluto e pertanto risente sia
dell’unità di misura della variabile che dell’ordine
di grandezza dei dati.
Se i valori medi sono molto diversi, la deviazione
standard può non essere una misura adatta per
confrontare dati diversi.
Sintetizzare i dati
81. Coefficiente di variazione
Per confrontare le variabilità di un campione
relativamente a due diverse variabili, o la
variabilità di due campioni relativamente alla
stessa variabile
NOTA:
Questo coefficiente risulta problematico se la
variabile ha sia valori positivi che negativi,
oppure in caso di uno zero convenzionale
nella scala di misura.
Sintetizzare i dati
82. Box Plot
Il box plot, chiamato anche "diagramma a
scatola e baffi", permette di rappresentare
contemporaneamente gli indici di
posizione e la variabilità di una serie di
dati.
Esso risulta molto utile sia per descrivere
che per confrontare diverse modalità di
una variabile.
Sintetizzare i dati
83. Box Plot
• Una linea centrale, che solitamente rappresenta la mediana
• Un rettangolo (scatola), che rappresenta il range interquartile
• Altre due linee (baffi), che rappresentano il resto dei valori fino a ‘’Max’’ e ‘’Min’’
• Alcuni punti singoli, che rappresentano gli outliers (valori anomali)
Sintetizzare i dati
84. Outliers
Valori estremi molto grandi o molto
piccoli rispetto al resto dei dati.
Possono essere dati reali perfettamente
accettabili o banali errori di battitura.
Generalmente sono punti isolati esterni
all’intervallo:
[Q1 - 1.5 x IQR ; Q3 + 1.5 x IQR]
Sintetizzare i dati
85. Lunghezza dei sepali per le tre specie di Iris
Box Plot
Quando si fanno dei confronti tra boxplot
si prendono in considerazione
principalmente:
• Posizione
• Variabilità
• Simmetria
Sintetizzare i dati
87. ID LOCALITÀ SESSO LUNGHEZZA cm PESO g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Esempio - Box Plot
Sintetizzare i dati
89. Misura la propensione di una variabile
qualitativa ad assumere le sue diverse
modalità, andando quindi a considerare
la distribuzione di frequenze.
• G’ = 0
Eterogeneità nulla o omogeneità
(Massima concentrazione)
• G’ = 1
Eterogeneità massima
(Equidistribuzione)
Indice di eterogeneità di Gini
Sintetizzare i dati
0 0.25 0.50 0.75 1
Bassa Media Alta
90. Sintetizzare i dati
Indice di eterogeneità di Gini
n1 f f2
Nero 6 1 1
Arancione 0 0 0
Bianco 0 0 0
n2 f f2
Nero 3 0.5 0.25
Arancione 2 0.33 0.11
Bianco 1 0.17 0.03
n3 f f2
Nero 2 0.33 0.11
Arancione 2 0.33 0.11
Bianco 2 0.33 0.11
G’ = 0
G’ = 0,91
G’ = 1
J = 3 modalità
92. Variabile casuale o aleatoria
Una variabile casuale è una variabile che
ancora non è stata osservata, quindi non
conosciamo il suo valore finché l’esperimento
non si svolge, l’evento non si verifica o il
campione è stato estratto.
Calcolo delle Probabilità
93. Conoscendo però i valori o le modalità che
quella variabile potrebbe assumere si
possono fare valutazioni in probabilità,
potendo immaginare o cercare di prevedere
quale sarà l’esito, il valore, la modalità.
Variabile casuale o aleatoria
Calcolo delle Probabilità
94. Calcolare una probabilità
La probabilità di un dato evento o di
una valore di una variabile casuale si
quantifica con un numero compreso
tra 0 e 1 (oppure in percentuale)
Una probabilità si può definire e
calcolare secondo tre accezioni
Calcolo delle Probabilità
95. Se peschi una pallina rossa vinci un premio.
In quale delle due urne pescheresti?
𝑃 =
1
4
= 0,25 𝑃 =
3
10
= 0,3
Calcolare una probabilità
Classica
Numero di casi favorevoli
all’evento fratto il numero di
casi possibili
Calcolo delle Probabilità
96. Calcolare una probabilità
Se peschi una pallina rossa vinci un premio.
In quale delle due urne pescheresti?
Hai 1 giorno di tempo per studiare la situazione e
decidere ma puoi pescare solo una pallina alla volta
Frequentista
Per un infinito numero di
prove, la probabilità
osservata converge al suo
vero valore
Calcolo delle Probabilità
99. S = { 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12}
Funzione di probabilità
Calcolo delle Probabilità
100. Masse di
probabilità
La probabilità di ottenere
determinati esiti è data dalla
somma delle singole probabilità
La sommatoria delle probabilità
di tutti i singoli esiti deve essere
pari a 1, perché c’è il 100% di
probabilità che si verifichi almeno
uno degli esiti.
Funzione di probabilità
Calcolo delle Probabilità
101. Funzione di probabilità
Densità di
probabilità
La probabilità è data
dall’integrale della funzione, è
infatti l’area sottesa alla curva.
Come per l’esempio di prima,
l’integrale dell’intera funzione, da
–∞ a +∞, deve essere pari a 1.
Calcolo delle Probabilità
103. Distribuzioni e modelli
Esistono possibili infinite configurazioni
di distribuzioni di probabilità.
Ce ne sono alcune che hanno delle
proprietà matematiche "comode" che ci
permettono di semplificare i calcoli e di
rappresentare tanti fenomeni e variabili
La distribuzione Normale
104. Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
105. Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
106. Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
108. X ~ N(µ,σ)
La distribuzione Normale o Gaussiana
Può essere definita
completamente avendo solo
media e deviazione standard
La distribuzione Normale
109. La distribuzione Normale o Gaussiana
È un modello per variabili continue
simmetriche e molti fenomeni in
natura si comportano secondo
questa distribuzione
La distribuzione Normale
110. La distribuzione Normale o Gaussiana
Si conosce l’esatto ammontare di
probabilità fino a ogni valore, o per ogni
intervallo di valori, della variabile
Calcolo delle Probabilità
111. La distribuzione Normale o Gaussiana
Il teorema del limite centrale afferma che date n
variabili aleatorie indipendenti fra loro e identicamente
distribuite, per n che tende a infinito la loro somma (o
media) si distribuisce secondo una Normale,
indipendentemente dalla loro distribuzione di partenza
La distribuzione Normale
112. Trasformazione che permette di riportare uno
o più valori estratti da una qualsiasi
distribuzione normale ai valori corrispondenti
di una Normale Standard
Permette sia di considerare soltanto la
Normale Standard per tutte le infinite
distribuzioni normali, sia di confrontare
valori provenienti da distribuzioni con media
e varianza diverse
La standardizzazione
𝑍 =
𝑥 − 𝜇
𝜎
La distribuzione Normale
114. Indici di forma
Questi indici si riferiscono all’asimmetria e
la curtosi, delle caratteristiche della
distribuzione che fanno riferimento
rispettivamente al momento centrale di
ordine tre e quattro di una variabile
aleatoria.
Indici di forma
115. Asimmetria
Una distribuzione si dice simmetrica se è
possibile individuare un asse verticale che
tagli la distribuzione in due parti
specularmente uguali. Ovviamente la
variabile deve essere ordinabile.
• Asimmetria positiva, se sono più
frequenti valori o modalità basse
• Asimmetria negativa, se sono più
frequenti valori o modalità alte
Indici di forma
116. Indice di asimmetria di Fisher
Momento terzo della distribuzione
Indice di asimmetria
• γ1 = 0 , Distribuzione simmetrica
Media = Mediana = Moda
• γ1 > 0 , Distribuzione asimmetrica positiva
Media >Mediana > Moda
• γ1 < 0 , Distribuzione asimmetrica negativa
Media < Mediana < Moda
Indici di forma
118. Curtosi
La curtosi può essere definita come una misura
di schiacciamento/allungamento della forma di
una distribuzione rispetto alla distribuzione
normale.
• Platicurtica se risulta più appiattita rispetto
alla distribuzione normale
• Leptocurtica se risulta più allungata rispetto
alla distribuzione normale
• Mesocurtica altrimenti
Indici di forma
119. Coefficiente di curtosi
Momento quarto della distribuzione
Coefficiente di curtosi
2
- 3
• γ2 = 0 , Distribuzione mesocurtica
• γ2 > 0 , Distribuzione leptocurtica
• γ2 < 0 , Distribuzione platicurtica
Indici di forma