SlideShare a Scribd company logo
1 of 119
Statistica Descrittiva
per Data Scientist
Cosa è la Statistica?
Concetti e definizioni
presentato da
Giuseppe Dejan Lucido
Obbiettivi del corso
• Capire cos’è e a cosa serve la statistica
• Descrivere i dati, sintetizzandoli e rappresentandoli graficamente
• Capire la probabilità e le sue distribuzioni
• Cominciare a programmare in R
Cosa è la Statistica?
Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• IL DISEGNO DI STUDIO
Definizione del fenomeno da studiare, degli
obbiettivi e delle modalità
Cosa è la Statistica?
Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• IL PIANO DI CAMPIONAMENTO
Rilevazione e raccolta dei dati regolata
dalla teoria dei campioni
Cosa è la Statistica?
Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• L’ANALISI DESCRITTIVA
Sintesi, rappresentazione grafica e
interpretazione dei dati
Cosa è la Statistica?
Cosa è la Statistica?
La Statistica è la disciplina che individua i
principi e le metodologie che riguardano:
• L’INFERENZA
Generalizzazione delle evidenze osservate
nei dati del campione all’intera popolazione
oggetto di studio.
Previsioni e/o interpolazioni.
Cosa è la Statistica?
Cosa è la Statistica?
Per mezzo della statistica si analizzano i
fenomeni e la realtà e si cerca di spiegarli
in termini quantitativi.
Lo si fa osservando un insieme di dati,
sintetizzandoli, ispezionando le variabili e
trovando relazioni fra di esse.
Cosa è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
Cosa è la Statistica?
Dov’è la Statistica?
L’unità elementare su cui vengono
osservate le caratteristiche oggetto di
studio prende il nome di unità statistica
Concetti e definizioni di base
Cosa è la Statistica?
Concetti e definizioni di base
L’insieme di unità elementari
accomunate da una o più caratteristiche,
prende il nome di popolazione
Cosa è la Statistica?
Per ragioni di tempo e denaro non si lavora (quasi)
mai sull’intera popolazione, ma su un sottogruppo
di essa, chiamato campione
Concetti e definizioni di base
Cosa è la Statistica?
Concetti e definizioni di base
Le caratteristiche delle unità osservate e
studiate vengono chiamate variabili, e
possono essere di diverso tipo e misura
Cosa è la Statistica?
Statistica Descrittiva
per Data Scientist
Variabili statistiche
Tipi di variabili
presentato da
Giuseppe Dejan Lucido
Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano
i valori e possono essere:
Discrete, quando assumono valori interi
ed esprimono un conteggio
(numero di…)
Variabili Statistiche
Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Continue, quando assumono valori su scala
continua, quelle che possono essere suddivisi
in sottointervalli sempre più piccoli
(tempo, lunghezza, peso ecc.)
Variabili Statistiche
Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Su scala di intervalli, quando nella scala di
misura non esiste uno zero assoluto o esso è
convenzionale
Variabili Statistiche
Tipi di variabili statistiche
Quantitative o numeriche
sono espresse in numeri, se ne osservano i
valori e possono essere:
Su scala di rapporti, quando nella scala di
misura esiste uno zero assoluto, spesso inteso
come ‘’assenza’’
Variabili Statistiche
Qualitative o categoriali
sono espresse in lettere, se ne osservano le
modalità e possono essere:
Su scala nominale: quando le modalità si
possono confrontare solo in termini di
uguaglianza.
Tipi di variabili statistiche
Variabili Statistiche
Qualitative o categoriali
sono espresse in lettere, se ne osservano le
modalità e possono essere:
Su scala ordinale, quando le modalità
hanno un ordinamento, naturale o artificiale
Tipi di variabili statistiche
Variabili Statistiche
NOTA 1:
Alcune variabili possono essere
considerate a volte su scala nominale,
altre volte su scala ordinale, a seconda
dello studio e dell’obbiettivo.
Il colore è una di queste.
Tipi di variabili statistiche
Variabili Statistiche
NOTA 2:
Alcune variabili sono qualitative ma vengono
espresse in numeri solo perché codificate, ma
vanno comunque trattate come qualitative.
Potresti trovarle sotto il nome di fattori o dummy.
Es.
0: gruppo di controllo
1: gruppo trattato
Tipi di variabili statistiche
0 1
Variabili Statistiche
Suddivisione in classi
Quando una variabile presenta un
numero troppo elevato di modalità o
valori, per sintetizzare l’informazione a
volte conviene suddividerla in classi.
È importante trovare un compromesso
tra sintesi e perdita/distorsione
d’informazione.
Variabili Statistiche
Suddivisione in classi
Le classi devono essere:
ESAUSTIVE
tutti i valori devono rientrare IN ALMENO
UNA delle classi
MUTUAMENTE ESCLUSIVE
tutti i valori devono rientrare IN UNA
SOLA classe
Ogni valore quindi deve stare in UNA E
UNA SOLA classe.
Variabili Statistiche
Possibilmente le classi si costruiscono di
uguale ampiezza, tranne in casi
particolari o in base al contesto e
all’obbiettivo dell’analisi
Le classi iniziali e finali possono essere
lasciate aperte per evitare classi vuote o
con pochissime osservazioni
Classi di età
0 – 1
2 – 4
5 – 9
10 – 14
15 – 19
20 – 24
.
.
.
90 – 94
95+
Suddivisione in classi
Variabili Statistiche
Statistica Descrittiva
per Data Scientist
Esempio
Disegno di studio e
campionamento
presentato da
Giuseppe Dejan Lucido
Esempio – Disegno di studio e campionamento
Chi sono io? Ricercatore – pescatore – persona curiosa o appassionata
Cosa voglio studiare? L’intero ecosistema marino o la pescosità delle coste di Palermo
Qual è il mio obbiettivo attuale? Capire la natura – pescare di più – pubblicare un paper
Che tipo di studio voglio fare? Osservazionale sul campo – Sperimentale in laboratorio
Chi mi commissiona il lavoro? L’Università – il Comune – l’Unione Europea – la mia curiosità
Quanti soldi ho? 200 euro - 5 mila euro – 100 mila euro – 1 milione di euro
Quanto tempo ho? 1 anno – 3 mesi – 2 settimane – 1 giorno
Esempio
Esempio - Disegno di Studio e Campionamento
Variabili di interesse:
LUOGO, SESSO, LUNGHEZZA E PESO
Carini Isola delle Femmine Capogallo
Esempio
Rispettare le regole
del campionamento
Esempio - Disegno di Studio e Campionamento
Definire:
popolazione
oggetto di studio
criteri di
esclusione-
inclusione delle
unità
Esempio
Esempio - Disegno di Studio e Campionamento
Definire:
popolazione
oggetto di studio
criteri di
esclusione-
inclusione delle
unità
Esempio
POPOLAZIONE
CAMPIONE
UNITÀ STATISTICA
Esempio - Disegno di Studio e Campionamento
Definire:
popolazione
oggetto di studio
criteri di
esclusione-
inclusione delle
unità
Esempio
ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Distribuzione unitaria o dati grezzi
Spesso e volentieri i dati appena
raccolti (o prelevati da un database) si
presentano così
In questo formato contengono la
massima quantità di informazione
disponibile a discapito della
‘’leggibilità’’ e della sintesi
Esempio
Statistica Descrittiva
per Data Scientist
Sintetizzare i dati
Distribuzioni di frequenze
presentato da
Giuseppe Dejan Lucido
ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Distribuzione unitaria o dati grezzi
Spesso e volentieri i dati appena
raccolti (o prelevati da un database) si
presentano così
In questo formato contengono la
massima quantità di informazione
disponibile a discapito della
‘’leggibilità’’ e della sintesi
Esempio
Dati aggregati
SESSO
M F
9 11
LOCALITÀ
CAPOGALLO 7
CARINI 4
ISOLA 9
CAPOGALL
O…
CARINI
20%
ISOLA DELLE
FEMMINE
45%
Composizione del campione
I dati aggregati possono essere stati raccolti
già in questa maniera o possono essere stati
elaborati da qualcuno.
Questo formato aiuta la lettura e
l’interpretazione ma implica automaticamente
la perdita di alcune informazioni
M F
CAPOGALL
O 3 4
CARINI 2 2
ISOLA 4 5
Sintetizzare i dati
Distribuzioni di frequenze
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
n = FREQUENZE ASSOLUTE numero di volte che una modalità o classe viene osservata
F = FREQUENZE RELATIVE valore percentuale della frequenza assoluta 𝒏𝒊 / TOT
N = FREQUENZE CUMULATE frequenze assolute che si accumulano lungo la variabile
F = FREQUENZE RELATIVE CUMULATE frequenze relative che si accumulano lungo la variab
Sintetizzare i dati
Distribuzioni di frequenze doppie
Considerano due variabili per volta, una per riga e una
per colonna, riportando in ogni cella le frequenze
congiunte delle varie classi e/o modalità
PESO/SESSO M F TOT
0 -|100 5 2 7
100-|200 0 4 4
200-|300 4 5 9
TOT 9 11 20
PESO/SESSO M F TOT
0 -|100 0.25 0.10 0.35
100-|200 0.00 0.20 0.20
200-|300 0.20 0.25 0.45
TOT 0.45 0.55 1
Frequenze assolute
Frequenze relative
Sintetizzare i dati
Statistica Descrittiva
per Data Scientist
Sintetizzare i dati
Rappresentazioni grafiche
presentato da
Giuseppe Dejan Lucido
Rappresentazioni grafiche
Una rappresentazione grafica è uno
dei migliori metodi per comunicare le
informazioni ricavate dai dati, a patto
che i grafici siano:
• Chiari
• Immediati
• Costruiti in modo adeguato
• Autoesplicativi
Sintetizzare i dati
Rappresentazioni grafiche
Sintetizzare i dati
Rappresentazioni grafiche
Sintetizzare i dati
Aerogrammi
L’areogramma è un grafico in cui le
frequenze o le quantità di una variabile sono
rappresentate da superfici di figure piane
È possibile utilizzare più figure dello stesso
tipo aventi superfici proporzionali alle
frequenze o alle quantità, oppure un’unica
figura la cui superficie viene divisa
proporzionalmente
Sintetizzare i dati
Grafico a torta – Pie chart
Nei grafici a torta, ogni settore circolare (o fetta)
corrisponde a una modalità o classe di una
variabile ed è caratterizzata dal suo angolo al
centro.
L’ampiezza si ottiene facilmente dalla
proporzione:
𝐴 ∶ 360° = 𝑛 ∶ 𝑁
dalla quale si ottiene:
𝐴 =
𝑛 × 360
𝑁
Sintetizzare i dati
Grafico a barre – Bar plot
Generalmente si costruisce su un sistema di
assi cartesiani, in cui si pongono le modalità
o i valori della variabile sull’asse X e le
rispettive frequenze o valori di un’altra
variabile sull’asse Y
Numero di gatti coccolati nei mesi del 2019
Sintetizzare i dati
Grafico a barre affiancate
Il ‘’dodged’’ bar plot permette di
aggiungere l’informazione contenuta
in un’altra variabile.
È possibile infatti dividere ogni
colonna secondo la classificazione di
un’altra variabile in colonne
affiancate, utilizzando colori diversi
per facilitare la lettura.
Punteggio ottenuto in tre giochi dai sei amici
Sintetizzare i dati
Profitti in migliaia di dollari nei cinque punti vendita
Grafico a barre sovrapposte
Lo ‘’stacked’’ bar plot è un’altra variante
molto utile per lo stesso motivo del
precedente.
Quando la variabile rappresentata
indica una somma di più parti è
possibile suddividere ogni colonna in
‘’sotto-colonne’’ sovrapposte, secondo
la classificazione di un’altra variabile.
Sintetizzare i dati
Grafico a barre sovrapposte normalizzato
Spesso può essere utile normalizzare
il grafico «a somma 100», sia per
facilitare la lettura, sia perché potrebbe
esserci una variabile sottintesa che
andrebbe a distorcere l’informazione
del grafico.
Vendite dei diversi dispositivi in diverse aree
Sintetizzare i dati
Poligono di frequenze
Quando sull’asse delle X c’è una variabile
che sottintende il tempo può essere più
efficace unire le ‘’teste’’ delle barre,
ottenendo così il poligono di frequenze.
Sintetizzare i dati
Numero di gatti coccolati nei mesi del 2019
Serie storiche
Più in generale, quando si misura la
stessa variabile in tempi diversi, sullo
stesso ‘’individuo’’ (o aggregato), si parla
di serie storica.
Quando le rilevazioni sono molto ‘’fitte’’ i
dati si rappresentano disegnando solo
una linea spezzata.
(line chart)
Prezzo giornaliero delle azioni Google negli ultimi 5 anni
Sintetizzare i dati
Serie storiche
Sintetizzare i dati
Serie storiche
Sintetizzare i dati
Cartogrammi
Quando la stessa variabile è rilevata in
diversi punti geolocalizzati, è possibile
rappresentarne la distribuzione
spaziale attraverso i cartogrammi.
È importante utilizzare colori adeguati.
Numero di incidenti stradali rilevati nel 2019
*Dati totalmente inventati
Sintetizzare i dati
3
4
1
3
8
1
0 2 4 6 8 10
0-|50
50-|100
100-|150
150-|200
200-|250
250-|300
Frequenza
Classi
di
peso,
g
PESO 𝒏𝒊 𝒇𝒊
0 -| 50 3 0.15
50 -| 100 4 0.20
100 -| 150 1 0.05
150 -| 200 3 0.15
200 -| 250 8 0.40
250 -| 300 1 0.05
0-|50
15%
50-|100
20%
100-|150
5%
150-|200
15%
200-|250
40%
250-|300
5%
Rappresentazioni grafiche
Sintetizzare i dati
Statistica Descrittiva
per Data Scientist
Sintetizzare i dati
Gli indici di posizione
presentato da
Giuseppe Dejan Lucido
Gli indici di posizione
Indici sintetici, funzioni dei dati risultanti in singoli valori che
descrivano in sintesi la distribuzione dei nostri dati.
• Medie (aritmetica, ponderata, armonica e geometrica)
• Mediana
• Moda
• Minimo e Massimo
• Percentili
Sintetizzare i dati
La moda
La moda può essere definita per
qualsiasi tipo di variabile e, in pratica,
non viene neanche calcolata.
Essa infatti è semplicemente la
modalità con la frequenza osservata
più alta.
3
4
1
3
8
1
0 5 10
0-|50
50-|100
100-|150
150-|200
200-|250
250-|300
Frequenza
Classi
di
peso,
g
Classe modale
LOCALITÀ n
CAPOGALLO 7
CARINI 4
ISOLA 9
Moda
Sintetizzare i dati
Quantili e percentili
I quantili sono quei valori che frazionano in
più parti un insieme di dati disposti in
ordine progressivo.
Un percentile, ad esempio, Xp è quel
valore che divide la distribuzione dei valori
in due parti, tali che p% dei valori sia
minore di Xp e (1-p)% sia maggiore di Xp.
Sintetizzare i dati
La mediana
La mediana è un indice robusto, viene calcolata per
variabili quantitative o per variabili qualitative ordinali ed è il
50esimo percentile.
Viene definita ordinando i dati in ordine crescente
o decrescente e prendendo il valore che sta
esattamente in mezzo alla serie.
10 23 34 40 45 66 89 90 134 145 182
mediana
Sintetizzare i dati
La mediana
Nel caso di distribuzione in classi e di variabili
qualitative ordinali, sarà definita classe mediana
la prima classe la cui frequenza relativa
cumulata sia maggiore o uguale a 0,50.
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
classe
mediana
Sintetizzare i dati
I quartili
I quartili sono quei tre valori della serie
ordinata di dati che dividono la serie stessa
in quarti, cioè in quattro ‘’parti’’ uguali.
Rappresentano il 25esimo, il 50esimo e il
75esimo percentile.
10 23 34 40 45 66 89 90 134 145 182
Q2
Q1 Q3
37 112
Sintetizzare i dati
I quartili
Nel caso di distribuzione di frequenza, saranno
definiti prendendo le prime modalità o classi,
le cui frequenze relative cumulate superano
0,25 e 0,75.
Q 2
Q 1
Q 3
PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊
0 -| 50 3 0.15 3 0.15
50 -| 100 4 0.20 7 0.35
100 -| 150 1 0.05 8 0.40
150 -| 200 3 0.15 11 0.55
200 -| 250 8 0.40 19 0.95
250 -| 300 1 0.05 20 1.00
TOT 20 1
Sintetizzare i dati
La media aritmetica
Si sommano tutti i valori della
variabile quantitativa e si divide
per il numero dei valori.
60cm 120cm 80cm 100cm
µ =
60 + 120 + 80 + 100
4
= 90 cm
Sintetizzare i dati
La media ponderata
Si sommano tutti i valori della variabile
quantitativa, moltiplicati ognuno per i rispettivi
pesi, e si divide il valore ottenuto per la somma
di tutti i pesi.
Nelle distribuzione in classi, si utilizzano come x i
valori centrali di ogni classe e come pesi le
rispettive frequenze assolute
p x
PESO 𝒏𝒋 𝒄𝒋
0 -| 50 3 25
50 -| 100 4 75
100 -| 150 1 125
150 -| 200 3 175
200 -| 250 8 225
250 -| 300 1 275
Mp =
3∗25 + 4∗75 + 1∗125 + 3∗175 + 8∗225 + 1∗275
20
= 155 g
Sintetizzare i dati
La media geometrica
La media geometrica di n dati equivale alla
radice n-esima del prodotto fra tutti i dati.
Per dati che rappresentano delle variazioni
di un fenomeno nel tempo, solitamente in
valori percentuali.
Non va utilizzata in presenza di zeri o
valori negativi.
Sintetizzare i dati
La media armonica
La media armonica è il reciproco della
media aritmetica dei reciproci dei valori.
L’utilizzo è appropriato quando i dati
rappresentano dei rapporti o delle
velocità.
Sintetizzare i dati
Statistica Descrittiva
per Data Scientist
Sintetizzare i dati
Gli indici di variabilità
presentato da
Giuseppe Dejan Lucido
Gli indici di posizione spesso non bastano!
Non ci danno informazione sulla variabilità,
su come e quanto si distribuiscono i dati sul
loro dominio o sul loro range
«Se stai con la testa nel freezer
e il sedere nel forno
mediamente stai bene»
Misure di variabilità
Sintetizzare i dati
La variabilità di una distribuzione misura
la tendenza delle unità ad assumere
diverse modalità o valori della variabile
Gli indici di variabilità sintetizzano la
diversità tra le unità, in termini di distanza
tra due valori della distribuzione o di
modalità osservate
Permettono così di confrontare tra
loro diverse distribuzioni.
Misure di variabilità
Sintetizzare i dati
Le principali misure di variabilità sono:
• Range o intervallo di variazione
• Differenza interquartile o range interquartile
• Varianza
• Deviazione standard o scarto quadratico medio
• Coefficiente di variazione
• Indice di eterogeneità di Gini (per variabili qualitative)
Misure di variabilità
Sintetizzare i dati
Il range di una variabile è la semplice
differenza tra il valore più grande e
quello più piccolo registrati
R = Max(x) – Min(x)
NOTA: il range di una variabile non è
l’equivalente del suo intero dominio.
Range o intervallo di variazione
Sintetizzare i dati
Differenza (o range) interquartile
È la differenza tra il terzo quartile e il primo
quartile e rappresenta l’intervallo di variazione
del corpo centrale dei dati, il 50% dei dati che sta
tra i due quartili.
IQR = Q3(x) – Q1(x)
Può essere utile perché non risente della
presenza di valori anomali dei dati, i cosiddetti
outliers.
Sintetizzare i dati
R = 18,4 – 12,1 = 6,3
R
IQR = 16,3 -14,3 = 2
Esempio – range e range interquartile
IQR
Q1
Q2
Q3
Dati NON
cronologici
ma in ordine
crescente
media
Sintetizzare i dati
La varianza
Gli indici di variabilità per variabili quantitative
più diffusi sono quelli che considerano la
diversità delle unità dalla media aritmetica e
una di questi è la varianza
Varianza ponderata o per suddivisione in classi
Sintetizzare i dati
0 +∞
X
22
18
21
19
Y
30
24
16
10
µ(x) = 20
µ(y) = 20
=
22−20 + 18−20 + 21−20 + (19−20)
4
= 2,5
=
30−20 + 24−20 + 16−20 + (10−20)
4
= 58
0 5 10 15 20 25 30
0 5 10 15 20 25 30
La varianza
Sintetizzare i dati
Deviazione Standard
La radice quadrata della varianza, nota come
deviazione standard o scarto quadratico
medio, ci fornisce un indice di variabilità
nella stessa unità di misura dei dati
osservati.
=
22−20 + 18−20 + 21−20 + (19−20)
4
= 2,5
=
30−20 + 24−20 + 16−20 + (10−20)
4
= 58
= 1,58
= 7,61
Sintetizzare i dati
Deviazione standard
NOTA:
Essa è un indice assoluto e pertanto risente sia
dell’unità di misura della variabile che dell’ordine
di grandezza dei dati.
Se i valori medi sono molto diversi, la deviazione
standard può non essere una misura adatta per
confrontare dati diversi.
Sintetizzare i dati
Coefficiente di variazione
Per confrontare le variabilità di un campione
relativamente a due diverse variabili, o la
variabilità di due campioni relativamente alla
stessa variabile
NOTA:
Questo coefficiente risulta problematico se la
variabile ha sia valori positivi che negativi,
oppure in caso di uno zero convenzionale
nella scala di misura.
Sintetizzare i dati
Box Plot
Il box plot, chiamato anche "diagramma a
scatola e baffi", permette di rappresentare
contemporaneamente gli indici di
posizione e la variabilità di una serie di
dati.
Esso risulta molto utile sia per descrivere
che per confrontare diverse modalità di
una variabile.
Sintetizzare i dati
Box Plot
• Una linea centrale, che solitamente rappresenta la mediana
• Un rettangolo (scatola), che rappresenta il range interquartile
• Altre due linee (baffi), che rappresentano il resto dei valori fino a ‘’Max’’ e ‘’Min’’
• Alcuni punti singoli, che rappresentano gli outliers (valori anomali)
Sintetizzare i dati
Outliers
Valori estremi molto grandi o molto
piccoli rispetto al resto dei dati.
Possono essere dati reali perfettamente
accettabili o banali errori di battitura.
Generalmente sono punti isolati esterni
all’intervallo:
[Q1 - 1.5 x IQR ; Q3 + 1.5 x IQR]
Sintetizzare i dati
Lunghezza dei sepali per le tre specie di Iris
Box Plot
Quando si fanno dei confronti tra boxplot
si prendono in considerazione
principalmente:
• Posizione
• Variabilità
• Simmetria
Sintetizzare i dati
Box Plot
Sintetizzare i dati
ID LOCALITÀ SESSO LUNGHEZZA cm PESO g
1 CAPOGALLO F 15 180
2 CAPOGALLO M 30 350
3 CAPOGALLO F 22 240
4 CAPOGALLO M 20 220
5 CAPOGALLO F 17 171
6 CAPOGALLO M 20 240
7 CAPOGALLO F 17 180
8 CARINI F 21 230
9 CARINI M 15 100
10 CARINI M 11 87
11 CARINI F 12 78
12 ISOLA DELLE FEMMINE M 16 25
13 ISOLA DELLE FEMMINE M 20 241
14 ISOLA DELLE FEMMINE M 16 205
15 ISOLA DELLE FEMMINE F 21 222
16 ISOLA DELLE FEMMINE F 12 90
17 ISOLA DELLE FEMMINE M 11 110
18 ISOLA DELLE FEMMINE F 19 201
19 ISOLA DELLE FEMMINE F 24 250
20 ISOLA DELLE FEMMINE F 12 100
Esempio - Box Plot
Sintetizzare i dati
Esempio - Box Plot
Sintetizzare i dati
Misura la propensione di una variabile
qualitativa ad assumere le sue diverse
modalità, andando quindi a considerare
la distribuzione di frequenze.
• G’ = 0
Eterogeneità nulla o omogeneità
(Massima concentrazione)
• G’ = 1
Eterogeneità massima
(Equidistribuzione)
Indice di eterogeneità di Gini
Sintetizzare i dati
0 0.25 0.50 0.75 1
Bassa Media Alta
Sintetizzare i dati
Indice di eterogeneità di Gini
n1 f f2
Nero 6 1 1
Arancione 0 0 0
Bianco 0 0 0
n2 f f2
Nero 3 0.5 0.25
Arancione 2 0.33 0.11
Bianco 1 0.17 0.03
n3 f f2
Nero 2 0.33 0.11
Arancione 2 0.33 0.11
Bianco 2 0.33 0.11
G’ = 0
G’ = 0,91
G’ = 1
J = 3 modalità
Statistica Descrittiva
per Data Scientist
Calcolo delle Probabilità
Fondamenti
presentato da
Giuseppe Dejan Lucido
Variabile casuale o aleatoria
Una variabile casuale è una variabile che
ancora non è stata osservata, quindi non
conosciamo il suo valore finché l’esperimento
non si svolge, l’evento non si verifica o il
campione è stato estratto.
Calcolo delle Probabilità
Conoscendo però i valori o le modalità che
quella variabile potrebbe assumere si
possono fare valutazioni in probabilità,
potendo immaginare o cercare di prevedere
quale sarà l’esito, il valore, la modalità.
Variabile casuale o aleatoria
Calcolo delle Probabilità
Calcolare una probabilità
La probabilità di un dato evento o di
una valore di una variabile casuale si
quantifica con un numero compreso
tra 0 e 1 (oppure in percentuale)
Una probabilità si può definire e
calcolare secondo tre accezioni
Calcolo delle Probabilità
Se peschi una pallina rossa vinci un premio.
In quale delle due urne pescheresti?
𝑃 =
1
4
= 0,25 𝑃 =
3
10
= 0,3
Calcolare una probabilità
Classica
Numero di casi favorevoli
all’evento fratto il numero di
casi possibili
Calcolo delle Probabilità
Calcolare una probabilità
Se peschi una pallina rossa vinci un premio.
In quale delle due urne pescheresti?
Hai 1 giorno di tempo per studiare la situazione e
decidere ma puoi pescare solo una pallina alla volta
Frequentista
Per un infinito numero di
prove, la probabilità
osservata converge al suo
vero valore
Calcolo delle Probabilità
Calcolare una probabilità
Soggettiva
Valutazioni date dall’esperienza.
Quanto saresti disposto a scommettere per
ottenere un dato premio
Calcolo delle Probabilità
Funzione di probabilità
X = {1 , 2 , 3 , 4 , 5 , 6}
Calcolo delle Probabilità
S = { 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12}
Funzione di probabilità
Calcolo delle Probabilità
Masse di
probabilità
La probabilità di ottenere
determinati esiti è data dalla
somma delle singole probabilità
La sommatoria delle probabilità
di tutti i singoli esiti deve essere
pari a 1, perché c’è il 100% di
probabilità che si verifichi almeno
uno degli esiti.
Funzione di probabilità
Calcolo delle Probabilità
Funzione di probabilità
Densità di
probabilità
La probabilità è data
dall’integrale della funzione, è
infatti l’area sottesa alla curva.
Come per l’esempio di prima,
l’integrale dell’intera funzione, da
–∞ a +∞, deve essere pari a 1.
Calcolo delle Probabilità
Statistica Descrittiva
per Data Scientist
La distribuzione Normale
Modello e proprietà
presentato da
Giuseppe Dejan Lucido
Distribuzioni e modelli
Esistono possibili infinite configurazioni
di distribuzioni di probabilità.
Ce ne sono alcune che hanno delle
proprietà matematiche "comode" che ci
permettono di semplificare i calcoli e di
rappresentare tanti fenomeni e variabili
La distribuzione Normale
Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
Un modello è una
rappresentazione più o meno
semplificata della realtà
Distribuzioni e modelli
La distribuzione Normale
La distribuzione Normale o Gaussiana
Normale Standard
X ~ N(0,1)
La distribuzione Normale
X ~ N(µ,σ)
La distribuzione Normale o Gaussiana
Può essere definita
completamente avendo solo
media e deviazione standard
La distribuzione Normale
La distribuzione Normale o Gaussiana
È un modello per variabili continue
simmetriche e molti fenomeni in
natura si comportano secondo
questa distribuzione
La distribuzione Normale
La distribuzione Normale o Gaussiana
Si conosce l’esatto ammontare di
probabilità fino a ogni valore, o per ogni
intervallo di valori, della variabile
Calcolo delle Probabilità
La distribuzione Normale o Gaussiana
Il teorema del limite centrale afferma che date n
variabili aleatorie indipendenti fra loro e identicamente
distribuite, per n che tende a infinito la loro somma (o
media) si distribuisce secondo una Normale,
indipendentemente dalla loro distribuzione di partenza
La distribuzione Normale
Trasformazione che permette di riportare uno
o più valori estratti da una qualsiasi
distribuzione normale ai valori corrispondenti
di una Normale Standard
Permette sia di considerare soltanto la
Normale Standard per tutte le infinite
distribuzioni normali, sia di confrontare
valori provenienti da distribuzioni con media
e varianza diverse
La standardizzazione
𝑍 =
𝑥 − 𝜇
𝜎
La distribuzione Normale
Statistica Descrittiva
per Data Scientist
Indici di Forma
Asimmetria e Curtosi
presentato da
Giuseppe Dejan Lucido
Indici di forma
Questi indici si riferiscono all’asimmetria e
la curtosi, delle caratteristiche della
distribuzione che fanno riferimento
rispettivamente al momento centrale di
ordine tre e quattro di una variabile
aleatoria.
Indici di forma
Asimmetria
Una distribuzione si dice simmetrica se è
possibile individuare un asse verticale che
tagli la distribuzione in due parti
specularmente uguali. Ovviamente la
variabile deve essere ordinabile.
• Asimmetria positiva, se sono più
frequenti valori o modalità basse
• Asimmetria negativa, se sono più
frequenti valori o modalità alte
Indici di forma
Indice di asimmetria di Fisher
Momento terzo della distribuzione
Indice di asimmetria
• γ1 = 0 , Distribuzione simmetrica
Media = Mediana = Moda
• γ1 > 0 , Distribuzione asimmetrica positiva
Media >Mediana > Moda
• γ1 < 0 , Distribuzione asimmetrica negativa
Media < Mediana < Moda
Indici di forma
Indice di asimmetria di Fisher
Indici di forma
Curtosi
La curtosi può essere definita come una misura
di schiacciamento/allungamento della forma di
una distribuzione rispetto alla distribuzione
normale.
• Platicurtica se risulta più appiattita rispetto
alla distribuzione normale
• Leptocurtica se risulta più allungata rispetto
alla distribuzione normale
• Mesocurtica altrimenti
Indici di forma
Coefficiente di curtosi
Momento quarto della distribuzione
Coefficiente di curtosi
2
- 3
• γ2 = 0 , Distribuzione mesocurtica
• γ2 > 0 , Distribuzione leptocurtica
• γ2 < 0 , Distribuzione platicurtica
Indici di forma

More Related Content

What's hot

Yersenia
YerseniaYersenia
YerseniaArooosa
 
Streptococci With Pics (1)
Streptococci With Pics (1)Streptococci With Pics (1)
Streptococci With Pics (1)MD Specialclass
 
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...SOMESHWARAN R
 
Le Grand Récit - du Big Bang à nos jours
Le Grand Récit - du Big Bang à nos joursLe Grand Récit - du Big Bang à nos jours
Le Grand Récit - du Big Bang à nos joursSbastienCarassou
 

What's hot (9)

Opportunisticmycoses
OpportunisticmycosesOpportunisticmycoses
Opportunisticmycoses
 
Vaccination
VaccinationVaccination
Vaccination
 
Yersenia
YerseniaYersenia
Yersenia
 
Rickettsia
RickettsiaRickettsia
Rickettsia
 
Streptococci With Pics (1)
Streptococci With Pics (1)Streptococci With Pics (1)
Streptococci With Pics (1)
 
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...
Staphylococci - Staphylococcus aureus - dr.somesh 2015 - Bacteriology - Micro...
 
Le Grand Récit - du Big Bang à nos jours
Le Grand Récit - du Big Bang à nos joursLe Grand Récit - du Big Bang à nos jours
Le Grand Récit - du Big Bang à nos jours
 
Toxoplasmosis
Toxoplasmosis Toxoplasmosis
Toxoplasmosis
 
Rickettsiaceae
RickettsiaceaeRickettsiaceae
Rickettsiaceae
 

Similar to Corso di Statistica Inferenziale per Data Scientist

[Tema 1] estadística descriptiva
[Tema 1] estadística descriptiva[Tema 1] estadística descriptiva
[Tema 1] estadística descriptiva7158AS
 
Texto estudiante etad01
Texto estudiante etad01Texto estudiante etad01
Texto estudiante etad01leoscarmillan
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of StatisticsFlipped Channel
 
Data analysis &amp; interpretation
Data analysis &amp; interpretationData analysis &amp; interpretation
Data analysis &amp; interpretationavid
 
General Statistics boa
General Statistics boaGeneral Statistics boa
General Statistics boaraileeanne
 
Statistics - Presentation
Statistics - PresentationStatistics - Presentation
Statistics - PresentationROCIO YUSTE
 
4. six sigma descriptive statistics
4. six sigma descriptive statistics4. six sigma descriptive statistics
4. six sigma descriptive statisticsHakeem-Ur- Rehman
 
data analysis in Statistics-2023 guide 2023
data analysis in Statistics-2023 guide 2023data analysis in Statistics-2023 guide 2023
data analysis in Statistics-2023 guide 2023ayesha455941
 
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)台灣資料科學年會
 
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdf
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdfSTATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdf
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdfMariaCatherineErfeLa
 
Statistics for management
Statistics for managementStatistics for management
Statistics for managementJohn Prarthan
 
Ppt for 1.1 introduction to statistical inference
Ppt for 1.1 introduction to statistical inferencePpt for 1.1 introduction to statistical inference
Ppt for 1.1 introduction to statistical inferencevasu Chemistry
 
Assigment 1
Assigment 1Assigment 1
Assigment 1Shaf Fik
 

Similar to Corso di Statistica Inferenziale per Data Scientist (20)

[Tema 1] estadística descriptiva
[Tema 1] estadística descriptiva[Tema 1] estadística descriptiva
[Tema 1] estadística descriptiva
 
Texto estudiante etad01
Texto estudiante etad01Texto estudiante etad01
Texto estudiante etad01
 
Meaning and Importance of Statistics
Meaning and Importance of StatisticsMeaning and Importance of Statistics
Meaning and Importance of Statistics
 
Bio stat
Bio statBio stat
Bio stat
 
Statistics
StatisticsStatistics
Statistics
 
Data analysis &amp; interpretation
Data analysis &amp; interpretationData analysis &amp; interpretation
Data analysis &amp; interpretation
 
General Statistics boa
General Statistics boaGeneral Statistics boa
General Statistics boa
 
Statistics - Presentation
Statistics - PresentationStatistics - Presentation
Statistics - Presentation
 
4. six sigma descriptive statistics
4. six sigma descriptive statistics4. six sigma descriptive statistics
4. six sigma descriptive statistics
 
Basic concepts of statistics
Basic concepts of statistics Basic concepts of statistics
Basic concepts of statistics
 
Basic concepts of statistics
Basic concepts of statistics Basic concepts of statistics
Basic concepts of statistics
 
Basic concepts of statistics
Basic concepts of statistics Basic concepts of statistics
Basic concepts of statistics
 
data analysis in Statistics-2023 guide 2023
data analysis in Statistics-2023 guide 2023data analysis in Statistics-2023 guide 2023
data analysis in Statistics-2023 guide 2023
 
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
孔令傑 / 給工程師的統計學及資料分析 123 (2016/9/4)
 
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdf
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdfSTATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdf
STATISTICS-AND-PROBABLITY-A-REVIEW-FOR-SHS.pdf
 
Statistics for management
Statistics for managementStatistics for management
Statistics for management
 
Ppt for 1.1 introduction to statistical inference
Ppt for 1.1 introduction to statistical inferencePpt for 1.1 introduction to statistical inference
Ppt for 1.1 introduction to statistical inference
 
Data Mining - Exploring Data
Data Mining - Exploring DataData Mining - Exploring Data
Data Mining - Exploring Data
 
Assigment 1
Assigment 1Assigment 1
Assigment 1
 
STATISTICS
STATISTICSSTATISTICS
STATISTICS
 

Recently uploaded

Smarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptxSmarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptxolyaivanovalion
 
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...amitlee9823
 
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Callshivangimorya083
 
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptxBPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptxMohammedJunaid861692
 
Capstone Project on IBM Data Analytics Program
Capstone Project on IBM Data Analytics ProgramCapstone Project on IBM Data Analytics Program
Capstone Project on IBM Data Analytics ProgramMoniSankarHazra
 
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girl
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girlCall Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girl
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girlkumarajju5765
 
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptxRavak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptxolyaivanovalion
 
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779Delhi Call girls
 
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Callshivangimorya083
 
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFxEdukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFxolyaivanovalion
 
Determinants of health, dimensions of health, positive health and spectrum of...
Determinants of health, dimensions of health, positive health and spectrum of...Determinants of health, dimensions of health, positive health and spectrum of...
Determinants of health, dimensions of health, positive health and spectrum of...shambhavirathore45
 
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Delhi Call girls
 
Data-Analysis for Chicago Crime Data 2023
Data-Analysis for Chicago Crime Data  2023Data-Analysis for Chicago Crime Data  2023
Data-Analysis for Chicago Crime Data 2023ymrp368
 
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptxLog Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptxJohnnyPlasten
 
Halmar dropshipping via API with DroFx
Halmar  dropshipping  via API with DroFxHalmar  dropshipping  via API with DroFx
Halmar dropshipping via API with DroFxolyaivanovalion
 
{Pooja: 9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...
{Pooja:  9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...{Pooja:  9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...
{Pooja: 9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...Pooja Nehwal
 
CebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptxCebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptxolyaivanovalion
 
ALSO dropshipping via API with DroFx.pptx
ALSO dropshipping via API with DroFx.pptxALSO dropshipping via API with DroFx.pptx
ALSO dropshipping via API with DroFx.pptxolyaivanovalion
 

Recently uploaded (20)

Smarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptxSmarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptx
 
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...
Junnasandra Call Girls: 🍓 7737669865 🍓 High Profile Model Escorts | Bangalore...
 
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
 
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptxBPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
 
Capstone Project on IBM Data Analytics Program
Capstone Project on IBM Data Analytics ProgramCapstone Project on IBM Data Analytics Program
Capstone Project on IBM Data Analytics Program
 
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girl
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girlCall Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girl
Call Girls 🫤 Dwarka ➡️ 9711199171 ➡️ Delhi 🫦 Two shot with one girl
 
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptxRavak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
 
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
Best VIP Call Girls Noida Sector 22 Call Me: 8448380779
 
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
 
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFxEdukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFx
 
Determinants of health, dimensions of health, positive health and spectrum of...
Determinants of health, dimensions of health, positive health and spectrum of...Determinants of health, dimensions of health, positive health and spectrum of...
Determinants of health, dimensions of health, positive health and spectrum of...
 
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
Best VIP Call Girls Noida Sector 39 Call Me: 8448380779
 
Data-Analysis for Chicago Crime Data 2023
Data-Analysis for Chicago Crime Data  2023Data-Analysis for Chicago Crime Data  2023
Data-Analysis for Chicago Crime Data 2023
 
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptxLog Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
 
Halmar dropshipping via API with DroFx
Halmar  dropshipping  via API with DroFxHalmar  dropshipping  via API with DroFx
Halmar dropshipping via API with DroFx
 
Sampling (random) method and Non random.ppt
Sampling (random) method and Non random.pptSampling (random) method and Non random.ppt
Sampling (random) method and Non random.ppt
 
{Pooja: 9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...
{Pooja:  9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...{Pooja:  9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...
{Pooja: 9892124323 } Call Girl in Mumbai | Jas Kaur Rate 4500 Free Hotel Del...
 
CebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptxCebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptx
 
ALSO dropshipping via API with DroFx.pptx
ALSO dropshipping via API with DroFx.pptxALSO dropshipping via API with DroFx.pptx
ALSO dropshipping via API with DroFx.pptx
 
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in  KishangarhDelhi 99530 vip 56974 Genuine Escort Service Call Girls in  Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
 

Corso di Statistica Inferenziale per Data Scientist

  • 1. Statistica Descrittiva per Data Scientist Cosa è la Statistica? Concetti e definizioni presentato da Giuseppe Dejan Lucido
  • 2. Obbiettivi del corso • Capire cos’è e a cosa serve la statistica • Descrivere i dati, sintetizzandoli e rappresentandoli graficamente • Capire la probabilità e le sue distribuzioni • Cominciare a programmare in R Cosa è la Statistica?
  • 3. Cosa è la Statistica? La Statistica è la disciplina che individua i principi e le metodologie che riguardano: • IL DISEGNO DI STUDIO Definizione del fenomeno da studiare, degli obbiettivi e delle modalità Cosa è la Statistica?
  • 4. Cosa è la Statistica? La Statistica è la disciplina che individua i principi e le metodologie che riguardano: • IL PIANO DI CAMPIONAMENTO Rilevazione e raccolta dei dati regolata dalla teoria dei campioni Cosa è la Statistica?
  • 5. Cosa è la Statistica? La Statistica è la disciplina che individua i principi e le metodologie che riguardano: • L’ANALISI DESCRITTIVA Sintesi, rappresentazione grafica e interpretazione dei dati Cosa è la Statistica?
  • 6. Cosa è la Statistica? La Statistica è la disciplina che individua i principi e le metodologie che riguardano: • L’INFERENZA Generalizzazione delle evidenze osservate nei dati del campione all’intera popolazione oggetto di studio. Previsioni e/o interpolazioni. Cosa è la Statistica?
  • 7. Cosa è la Statistica? Per mezzo della statistica si analizzano i fenomeni e la realtà e si cerca di spiegarli in termini quantitativi. Lo si fa osservando un insieme di dati, sintetizzandoli, ispezionando le variabili e trovando relazioni fra di esse. Cosa è la Statistica?
  • 8. Cosa è la Statistica? Dov’è la Statistica?
  • 9. Cosa è la Statistica? Dov’è la Statistica?
  • 10. Cosa è la Statistica? Dov’è la Statistica?
  • 11. Cosa è la Statistica? Dov’è la Statistica?
  • 12. Cosa è la Statistica? Dov’è la Statistica?
  • 13. Cosa è la Statistica? Dov’è la Statistica?
  • 14. L’unità elementare su cui vengono osservate le caratteristiche oggetto di studio prende il nome di unità statistica Concetti e definizioni di base Cosa è la Statistica?
  • 15. Concetti e definizioni di base L’insieme di unità elementari accomunate da una o più caratteristiche, prende il nome di popolazione Cosa è la Statistica?
  • 16. Per ragioni di tempo e denaro non si lavora (quasi) mai sull’intera popolazione, ma su un sottogruppo di essa, chiamato campione Concetti e definizioni di base Cosa è la Statistica?
  • 17. Concetti e definizioni di base Le caratteristiche delle unità osservate e studiate vengono chiamate variabili, e possono essere di diverso tipo e misura Cosa è la Statistica?
  • 18. Statistica Descrittiva per Data Scientist Variabili statistiche Tipi di variabili presentato da Giuseppe Dejan Lucido
  • 19. Tipi di variabili statistiche Quantitative o numeriche sono espresse in numeri, se ne osservano i valori e possono essere: Discrete, quando assumono valori interi ed esprimono un conteggio (numero di…) Variabili Statistiche
  • 20. Tipi di variabili statistiche Quantitative o numeriche sono espresse in numeri, se ne osservano i valori e possono essere: Continue, quando assumono valori su scala continua, quelle che possono essere suddivisi in sottointervalli sempre più piccoli (tempo, lunghezza, peso ecc.) Variabili Statistiche
  • 21. Tipi di variabili statistiche Quantitative o numeriche sono espresse in numeri, se ne osservano i valori e possono essere: Su scala di intervalli, quando nella scala di misura non esiste uno zero assoluto o esso è convenzionale Variabili Statistiche
  • 22. Tipi di variabili statistiche Quantitative o numeriche sono espresse in numeri, se ne osservano i valori e possono essere: Su scala di rapporti, quando nella scala di misura esiste uno zero assoluto, spesso inteso come ‘’assenza’’ Variabili Statistiche
  • 23. Qualitative o categoriali sono espresse in lettere, se ne osservano le modalità e possono essere: Su scala nominale: quando le modalità si possono confrontare solo in termini di uguaglianza. Tipi di variabili statistiche Variabili Statistiche
  • 24. Qualitative o categoriali sono espresse in lettere, se ne osservano le modalità e possono essere: Su scala ordinale, quando le modalità hanno un ordinamento, naturale o artificiale Tipi di variabili statistiche Variabili Statistiche
  • 25. NOTA 1: Alcune variabili possono essere considerate a volte su scala nominale, altre volte su scala ordinale, a seconda dello studio e dell’obbiettivo. Il colore è una di queste. Tipi di variabili statistiche Variabili Statistiche
  • 26. NOTA 2: Alcune variabili sono qualitative ma vengono espresse in numeri solo perché codificate, ma vanno comunque trattate come qualitative. Potresti trovarle sotto il nome di fattori o dummy. Es. 0: gruppo di controllo 1: gruppo trattato Tipi di variabili statistiche 0 1 Variabili Statistiche
  • 27. Suddivisione in classi Quando una variabile presenta un numero troppo elevato di modalità o valori, per sintetizzare l’informazione a volte conviene suddividerla in classi. È importante trovare un compromesso tra sintesi e perdita/distorsione d’informazione. Variabili Statistiche
  • 28. Suddivisione in classi Le classi devono essere: ESAUSTIVE tutti i valori devono rientrare IN ALMENO UNA delle classi MUTUAMENTE ESCLUSIVE tutti i valori devono rientrare IN UNA SOLA classe Ogni valore quindi deve stare in UNA E UNA SOLA classe. Variabili Statistiche
  • 29. Possibilmente le classi si costruiscono di uguale ampiezza, tranne in casi particolari o in base al contesto e all’obbiettivo dell’analisi Le classi iniziali e finali possono essere lasciate aperte per evitare classi vuote o con pochissime osservazioni Classi di età 0 – 1 2 – 4 5 – 9 10 – 14 15 – 19 20 – 24 . . . 90 – 94 95+ Suddivisione in classi Variabili Statistiche
  • 30. Statistica Descrittiva per Data Scientist Esempio Disegno di studio e campionamento presentato da Giuseppe Dejan Lucido
  • 31. Esempio – Disegno di studio e campionamento Chi sono io? Ricercatore – pescatore – persona curiosa o appassionata Cosa voglio studiare? L’intero ecosistema marino o la pescosità delle coste di Palermo Qual è il mio obbiettivo attuale? Capire la natura – pescare di più – pubblicare un paper Che tipo di studio voglio fare? Osservazionale sul campo – Sperimentale in laboratorio Chi mi commissiona il lavoro? L’Università – il Comune – l’Unione Europea – la mia curiosità Quanti soldi ho? 200 euro - 5 mila euro – 100 mila euro – 1 milione di euro Quanto tempo ho? 1 anno – 3 mesi – 2 settimane – 1 giorno Esempio
  • 32. Esempio - Disegno di Studio e Campionamento Variabili di interesse: LUOGO, SESSO, LUNGHEZZA E PESO Carini Isola delle Femmine Capogallo Esempio Rispettare le regole del campionamento
  • 33. Esempio - Disegno di Studio e Campionamento Definire: popolazione oggetto di studio criteri di esclusione- inclusione delle unità Esempio
  • 34. Esempio - Disegno di Studio e Campionamento Definire: popolazione oggetto di studio criteri di esclusione- inclusione delle unità Esempio
  • 35. POPOLAZIONE CAMPIONE UNITÀ STATISTICA Esempio - Disegno di Studio e Campionamento Definire: popolazione oggetto di studio criteri di esclusione- inclusione delle unità Esempio
  • 36. ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g 1 CAPOGALLO F 15 180 2 CAPOGALLO M 30 350 3 CAPOGALLO F 22 240 4 CAPOGALLO M 20 220 5 CAPOGALLO F 17 171 6 CAPOGALLO M 20 240 7 CAPOGALLO F 17 180 8 CARINI F 21 230 9 CARINI M 15 100 10 CARINI M 11 87 11 CARINI F 12 78 12 ISOLA DELLE FEMMINE M 16 25 13 ISOLA DELLE FEMMINE M 20 241 14 ISOLA DELLE FEMMINE M 16 205 15 ISOLA DELLE FEMMINE F 21 222 16 ISOLA DELLE FEMMINE F 12 90 17 ISOLA DELLE FEMMINE M 11 110 18 ISOLA DELLE FEMMINE F 19 201 19 ISOLA DELLE FEMMINE F 24 250 20 ISOLA DELLE FEMMINE F 12 100 Distribuzione unitaria o dati grezzi Spesso e volentieri i dati appena raccolti (o prelevati da un database) si presentano così In questo formato contengono la massima quantità di informazione disponibile a discapito della ‘’leggibilità’’ e della sintesi Esempio
  • 37. Statistica Descrittiva per Data Scientist Sintetizzare i dati Distribuzioni di frequenze presentato da Giuseppe Dejan Lucido
  • 38. ID LOCALITÀ SESSO LUNGHEZZA, cm PESO, g 1 CAPOGALLO F 15 180 2 CAPOGALLO M 30 350 3 CAPOGALLO F 22 240 4 CAPOGALLO M 20 220 5 CAPOGALLO F 17 171 6 CAPOGALLO M 20 240 7 CAPOGALLO F 17 180 8 CARINI F 21 230 9 CARINI M 15 100 10 CARINI M 11 87 11 CARINI F 12 78 12 ISOLA DELLE FEMMINE M 16 25 13 ISOLA DELLE FEMMINE M 20 241 14 ISOLA DELLE FEMMINE M 16 205 15 ISOLA DELLE FEMMINE F 21 222 16 ISOLA DELLE FEMMINE F 12 90 17 ISOLA DELLE FEMMINE M 11 110 18 ISOLA DELLE FEMMINE F 19 201 19 ISOLA DELLE FEMMINE F 24 250 20 ISOLA DELLE FEMMINE F 12 100 Distribuzione unitaria o dati grezzi Spesso e volentieri i dati appena raccolti (o prelevati da un database) si presentano così In questo formato contengono la massima quantità di informazione disponibile a discapito della ‘’leggibilità’’ e della sintesi Esempio
  • 39. Dati aggregati SESSO M F 9 11 LOCALITÀ CAPOGALLO 7 CARINI 4 ISOLA 9 CAPOGALL O… CARINI 20% ISOLA DELLE FEMMINE 45% Composizione del campione I dati aggregati possono essere stati raccolti già in questa maniera o possono essere stati elaborati da qualcuno. Questo formato aiuta la lettura e l’interpretazione ma implica automaticamente la perdita di alcune informazioni M F CAPOGALL O 3 4 CARINI 2 2 ISOLA 4 5 Sintetizzare i dati
  • 40. Distribuzioni di frequenze PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊 0 -| 50 3 0.15 3 0.15 50 -| 100 4 0.20 7 0.35 100 -| 150 1 0.05 8 0.40 150 -| 200 3 0.15 11 0.55 200 -| 250 8 0.40 19 0.95 250 -| 300 1 0.05 20 1.00 TOT 20 1 n = FREQUENZE ASSOLUTE numero di volte che una modalità o classe viene osservata F = FREQUENZE RELATIVE valore percentuale della frequenza assoluta 𝒏𝒊 / TOT N = FREQUENZE CUMULATE frequenze assolute che si accumulano lungo la variabile F = FREQUENZE RELATIVE CUMULATE frequenze relative che si accumulano lungo la variab Sintetizzare i dati
  • 41. Distribuzioni di frequenze doppie Considerano due variabili per volta, una per riga e una per colonna, riportando in ogni cella le frequenze congiunte delle varie classi e/o modalità PESO/SESSO M F TOT 0 -|100 5 2 7 100-|200 0 4 4 200-|300 4 5 9 TOT 9 11 20 PESO/SESSO M F TOT 0 -|100 0.25 0.10 0.35 100-|200 0.00 0.20 0.20 200-|300 0.20 0.25 0.45 TOT 0.45 0.55 1 Frequenze assolute Frequenze relative Sintetizzare i dati
  • 42. Statistica Descrittiva per Data Scientist Sintetizzare i dati Rappresentazioni grafiche presentato da Giuseppe Dejan Lucido
  • 43. Rappresentazioni grafiche Una rappresentazione grafica è uno dei migliori metodi per comunicare le informazioni ricavate dai dati, a patto che i grafici siano: • Chiari • Immediati • Costruiti in modo adeguato • Autoesplicativi Sintetizzare i dati
  • 46. Aerogrammi L’areogramma è un grafico in cui le frequenze o le quantità di una variabile sono rappresentate da superfici di figure piane È possibile utilizzare più figure dello stesso tipo aventi superfici proporzionali alle frequenze o alle quantità, oppure un’unica figura la cui superficie viene divisa proporzionalmente Sintetizzare i dati
  • 47. Grafico a torta – Pie chart Nei grafici a torta, ogni settore circolare (o fetta) corrisponde a una modalità o classe di una variabile ed è caratterizzata dal suo angolo al centro. L’ampiezza si ottiene facilmente dalla proporzione: 𝐴 ∶ 360° = 𝑛 ∶ 𝑁 dalla quale si ottiene: 𝐴 = 𝑛 × 360 𝑁 Sintetizzare i dati
  • 48. Grafico a barre – Bar plot Generalmente si costruisce su un sistema di assi cartesiani, in cui si pongono le modalità o i valori della variabile sull’asse X e le rispettive frequenze o valori di un’altra variabile sull’asse Y Numero di gatti coccolati nei mesi del 2019 Sintetizzare i dati
  • 49. Grafico a barre affiancate Il ‘’dodged’’ bar plot permette di aggiungere l’informazione contenuta in un’altra variabile. È possibile infatti dividere ogni colonna secondo la classificazione di un’altra variabile in colonne affiancate, utilizzando colori diversi per facilitare la lettura. Punteggio ottenuto in tre giochi dai sei amici Sintetizzare i dati
  • 50. Profitti in migliaia di dollari nei cinque punti vendita Grafico a barre sovrapposte Lo ‘’stacked’’ bar plot è un’altra variante molto utile per lo stesso motivo del precedente. Quando la variabile rappresentata indica una somma di più parti è possibile suddividere ogni colonna in ‘’sotto-colonne’’ sovrapposte, secondo la classificazione di un’altra variabile. Sintetizzare i dati
  • 51. Grafico a barre sovrapposte normalizzato Spesso può essere utile normalizzare il grafico «a somma 100», sia per facilitare la lettura, sia perché potrebbe esserci una variabile sottintesa che andrebbe a distorcere l’informazione del grafico. Vendite dei diversi dispositivi in diverse aree Sintetizzare i dati
  • 52. Poligono di frequenze Quando sull’asse delle X c’è una variabile che sottintende il tempo può essere più efficace unire le ‘’teste’’ delle barre, ottenendo così il poligono di frequenze. Sintetizzare i dati Numero di gatti coccolati nei mesi del 2019
  • 53. Serie storiche Più in generale, quando si misura la stessa variabile in tempi diversi, sullo stesso ‘’individuo’’ (o aggregato), si parla di serie storica. Quando le rilevazioni sono molto ‘’fitte’’ i dati si rappresentano disegnando solo una linea spezzata. (line chart) Prezzo giornaliero delle azioni Google negli ultimi 5 anni Sintetizzare i dati
  • 56. Cartogrammi Quando la stessa variabile è rilevata in diversi punti geolocalizzati, è possibile rappresentarne la distribuzione spaziale attraverso i cartogrammi. È importante utilizzare colori adeguati. Numero di incidenti stradali rilevati nel 2019 *Dati totalmente inventati Sintetizzare i dati
  • 57. 3 4 1 3 8 1 0 2 4 6 8 10 0-|50 50-|100 100-|150 150-|200 200-|250 250-|300 Frequenza Classi di peso, g PESO 𝒏𝒊 𝒇𝒊 0 -| 50 3 0.15 50 -| 100 4 0.20 100 -| 150 1 0.05 150 -| 200 3 0.15 200 -| 250 8 0.40 250 -| 300 1 0.05 0-|50 15% 50-|100 20% 100-|150 5% 150-|200 15% 200-|250 40% 250-|300 5% Rappresentazioni grafiche Sintetizzare i dati
  • 58. Statistica Descrittiva per Data Scientist Sintetizzare i dati Gli indici di posizione presentato da Giuseppe Dejan Lucido
  • 59. Gli indici di posizione Indici sintetici, funzioni dei dati risultanti in singoli valori che descrivano in sintesi la distribuzione dei nostri dati. • Medie (aritmetica, ponderata, armonica e geometrica) • Mediana • Moda • Minimo e Massimo • Percentili Sintetizzare i dati
  • 60. La moda La moda può essere definita per qualsiasi tipo di variabile e, in pratica, non viene neanche calcolata. Essa infatti è semplicemente la modalità con la frequenza osservata più alta. 3 4 1 3 8 1 0 5 10 0-|50 50-|100 100-|150 150-|200 200-|250 250-|300 Frequenza Classi di peso, g Classe modale LOCALITÀ n CAPOGALLO 7 CARINI 4 ISOLA 9 Moda Sintetizzare i dati
  • 61. Quantili e percentili I quantili sono quei valori che frazionano in più parti un insieme di dati disposti in ordine progressivo. Un percentile, ad esempio, Xp è quel valore che divide la distribuzione dei valori in due parti, tali che p% dei valori sia minore di Xp e (1-p)% sia maggiore di Xp. Sintetizzare i dati
  • 62. La mediana La mediana è un indice robusto, viene calcolata per variabili quantitative o per variabili qualitative ordinali ed è il 50esimo percentile. Viene definita ordinando i dati in ordine crescente o decrescente e prendendo il valore che sta esattamente in mezzo alla serie. 10 23 34 40 45 66 89 90 134 145 182 mediana Sintetizzare i dati
  • 63. La mediana Nel caso di distribuzione in classi e di variabili qualitative ordinali, sarà definita classe mediana la prima classe la cui frequenza relativa cumulata sia maggiore o uguale a 0,50. PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊 0 -| 50 3 0.15 3 0.15 50 -| 100 4 0.20 7 0.35 100 -| 150 1 0.05 8 0.40 150 -| 200 3 0.15 11 0.55 200 -| 250 8 0.40 19 0.95 250 -| 300 1 0.05 20 1.00 TOT 20 1 classe mediana Sintetizzare i dati
  • 64. I quartili I quartili sono quei tre valori della serie ordinata di dati che dividono la serie stessa in quarti, cioè in quattro ‘’parti’’ uguali. Rappresentano il 25esimo, il 50esimo e il 75esimo percentile. 10 23 34 40 45 66 89 90 134 145 182 Q2 Q1 Q3 37 112 Sintetizzare i dati
  • 65. I quartili Nel caso di distribuzione di frequenza, saranno definiti prendendo le prime modalità o classi, le cui frequenze relative cumulate superano 0,25 e 0,75. Q 2 Q 1 Q 3 PESO 𝒏𝒊 𝒇𝒊 𝑵𝒊 𝑭𝒊 0 -| 50 3 0.15 3 0.15 50 -| 100 4 0.20 7 0.35 100 -| 150 1 0.05 8 0.40 150 -| 200 3 0.15 11 0.55 200 -| 250 8 0.40 19 0.95 250 -| 300 1 0.05 20 1.00 TOT 20 1 Sintetizzare i dati
  • 66. La media aritmetica Si sommano tutti i valori della variabile quantitativa e si divide per il numero dei valori. 60cm 120cm 80cm 100cm µ = 60 + 120 + 80 + 100 4 = 90 cm Sintetizzare i dati
  • 67. La media ponderata Si sommano tutti i valori della variabile quantitativa, moltiplicati ognuno per i rispettivi pesi, e si divide il valore ottenuto per la somma di tutti i pesi. Nelle distribuzione in classi, si utilizzano come x i valori centrali di ogni classe e come pesi le rispettive frequenze assolute p x PESO 𝒏𝒋 𝒄𝒋 0 -| 50 3 25 50 -| 100 4 75 100 -| 150 1 125 150 -| 200 3 175 200 -| 250 8 225 250 -| 300 1 275 Mp = 3∗25 + 4∗75 + 1∗125 + 3∗175 + 8∗225 + 1∗275 20 = 155 g Sintetizzare i dati
  • 68. La media geometrica La media geometrica di n dati equivale alla radice n-esima del prodotto fra tutti i dati. Per dati che rappresentano delle variazioni di un fenomeno nel tempo, solitamente in valori percentuali. Non va utilizzata in presenza di zeri o valori negativi. Sintetizzare i dati
  • 69. La media armonica La media armonica è il reciproco della media aritmetica dei reciproci dei valori. L’utilizzo è appropriato quando i dati rappresentano dei rapporti o delle velocità. Sintetizzare i dati
  • 70. Statistica Descrittiva per Data Scientist Sintetizzare i dati Gli indici di variabilità presentato da Giuseppe Dejan Lucido
  • 71. Gli indici di posizione spesso non bastano! Non ci danno informazione sulla variabilità, su come e quanto si distribuiscono i dati sul loro dominio o sul loro range «Se stai con la testa nel freezer e il sedere nel forno mediamente stai bene» Misure di variabilità Sintetizzare i dati
  • 72. La variabilità di una distribuzione misura la tendenza delle unità ad assumere diverse modalità o valori della variabile Gli indici di variabilità sintetizzano la diversità tra le unità, in termini di distanza tra due valori della distribuzione o di modalità osservate Permettono così di confrontare tra loro diverse distribuzioni. Misure di variabilità Sintetizzare i dati
  • 73. Le principali misure di variabilità sono: • Range o intervallo di variazione • Differenza interquartile o range interquartile • Varianza • Deviazione standard o scarto quadratico medio • Coefficiente di variazione • Indice di eterogeneità di Gini (per variabili qualitative) Misure di variabilità Sintetizzare i dati
  • 74. Il range di una variabile è la semplice differenza tra il valore più grande e quello più piccolo registrati R = Max(x) – Min(x) NOTA: il range di una variabile non è l’equivalente del suo intero dominio. Range o intervallo di variazione Sintetizzare i dati
  • 75. Differenza (o range) interquartile È la differenza tra il terzo quartile e il primo quartile e rappresenta l’intervallo di variazione del corpo centrale dei dati, il 50% dei dati che sta tra i due quartili. IQR = Q3(x) – Q1(x) Può essere utile perché non risente della presenza di valori anomali dei dati, i cosiddetti outliers. Sintetizzare i dati
  • 76. R = 18,4 – 12,1 = 6,3 R IQR = 16,3 -14,3 = 2 Esempio – range e range interquartile IQR Q1 Q2 Q3 Dati NON cronologici ma in ordine crescente media Sintetizzare i dati
  • 77. La varianza Gli indici di variabilità per variabili quantitative più diffusi sono quelli che considerano la diversità delle unità dalla media aritmetica e una di questi è la varianza Varianza ponderata o per suddivisione in classi Sintetizzare i dati 0 +∞
  • 78. X 22 18 21 19 Y 30 24 16 10 µ(x) = 20 µ(y) = 20 = 22−20 + 18−20 + 21−20 + (19−20) 4 = 2,5 = 30−20 + 24−20 + 16−20 + (10−20) 4 = 58 0 5 10 15 20 25 30 0 5 10 15 20 25 30 La varianza Sintetizzare i dati
  • 79. Deviazione Standard La radice quadrata della varianza, nota come deviazione standard o scarto quadratico medio, ci fornisce un indice di variabilità nella stessa unità di misura dei dati osservati. = 22−20 + 18−20 + 21−20 + (19−20) 4 = 2,5 = 30−20 + 24−20 + 16−20 + (10−20) 4 = 58 = 1,58 = 7,61 Sintetizzare i dati
  • 80. Deviazione standard NOTA: Essa è un indice assoluto e pertanto risente sia dell’unità di misura della variabile che dell’ordine di grandezza dei dati. Se i valori medi sono molto diversi, la deviazione standard può non essere una misura adatta per confrontare dati diversi. Sintetizzare i dati
  • 81. Coefficiente di variazione Per confrontare le variabilità di un campione relativamente a due diverse variabili, o la variabilità di due campioni relativamente alla stessa variabile NOTA: Questo coefficiente risulta problematico se la variabile ha sia valori positivi che negativi, oppure in caso di uno zero convenzionale nella scala di misura. Sintetizzare i dati
  • 82. Box Plot Il box plot, chiamato anche "diagramma a scatola e baffi", permette di rappresentare contemporaneamente gli indici di posizione e la variabilità di una serie di dati. Esso risulta molto utile sia per descrivere che per confrontare diverse modalità di una variabile. Sintetizzare i dati
  • 83. Box Plot • Una linea centrale, che solitamente rappresenta la mediana • Un rettangolo (scatola), che rappresenta il range interquartile • Altre due linee (baffi), che rappresentano il resto dei valori fino a ‘’Max’’ e ‘’Min’’ • Alcuni punti singoli, che rappresentano gli outliers (valori anomali) Sintetizzare i dati
  • 84. Outliers Valori estremi molto grandi o molto piccoli rispetto al resto dei dati. Possono essere dati reali perfettamente accettabili o banali errori di battitura. Generalmente sono punti isolati esterni all’intervallo: [Q1 - 1.5 x IQR ; Q3 + 1.5 x IQR] Sintetizzare i dati
  • 85. Lunghezza dei sepali per le tre specie di Iris Box Plot Quando si fanno dei confronti tra boxplot si prendono in considerazione principalmente: • Posizione • Variabilità • Simmetria Sintetizzare i dati
  • 87. ID LOCALITÀ SESSO LUNGHEZZA cm PESO g 1 CAPOGALLO F 15 180 2 CAPOGALLO M 30 350 3 CAPOGALLO F 22 240 4 CAPOGALLO M 20 220 5 CAPOGALLO F 17 171 6 CAPOGALLO M 20 240 7 CAPOGALLO F 17 180 8 CARINI F 21 230 9 CARINI M 15 100 10 CARINI M 11 87 11 CARINI F 12 78 12 ISOLA DELLE FEMMINE M 16 25 13 ISOLA DELLE FEMMINE M 20 241 14 ISOLA DELLE FEMMINE M 16 205 15 ISOLA DELLE FEMMINE F 21 222 16 ISOLA DELLE FEMMINE F 12 90 17 ISOLA DELLE FEMMINE M 11 110 18 ISOLA DELLE FEMMINE F 19 201 19 ISOLA DELLE FEMMINE F 24 250 20 ISOLA DELLE FEMMINE F 12 100 Esempio - Box Plot Sintetizzare i dati
  • 88. Esempio - Box Plot Sintetizzare i dati
  • 89. Misura la propensione di una variabile qualitativa ad assumere le sue diverse modalità, andando quindi a considerare la distribuzione di frequenze. • G’ = 0 Eterogeneità nulla o omogeneità (Massima concentrazione) • G’ = 1 Eterogeneità massima (Equidistribuzione) Indice di eterogeneità di Gini Sintetizzare i dati 0 0.25 0.50 0.75 1 Bassa Media Alta
  • 90. Sintetizzare i dati Indice di eterogeneità di Gini n1 f f2 Nero 6 1 1 Arancione 0 0 0 Bianco 0 0 0 n2 f f2 Nero 3 0.5 0.25 Arancione 2 0.33 0.11 Bianco 1 0.17 0.03 n3 f f2 Nero 2 0.33 0.11 Arancione 2 0.33 0.11 Bianco 2 0.33 0.11 G’ = 0 G’ = 0,91 G’ = 1 J = 3 modalità
  • 91. Statistica Descrittiva per Data Scientist Calcolo delle Probabilità Fondamenti presentato da Giuseppe Dejan Lucido
  • 92. Variabile casuale o aleatoria Una variabile casuale è una variabile che ancora non è stata osservata, quindi non conosciamo il suo valore finché l’esperimento non si svolge, l’evento non si verifica o il campione è stato estratto. Calcolo delle Probabilità
  • 93. Conoscendo però i valori o le modalità che quella variabile potrebbe assumere si possono fare valutazioni in probabilità, potendo immaginare o cercare di prevedere quale sarà l’esito, il valore, la modalità. Variabile casuale o aleatoria Calcolo delle Probabilità
  • 94. Calcolare una probabilità La probabilità di un dato evento o di una valore di una variabile casuale si quantifica con un numero compreso tra 0 e 1 (oppure in percentuale) Una probabilità si può definire e calcolare secondo tre accezioni Calcolo delle Probabilità
  • 95. Se peschi una pallina rossa vinci un premio. In quale delle due urne pescheresti? 𝑃 = 1 4 = 0,25 𝑃 = 3 10 = 0,3 Calcolare una probabilità Classica Numero di casi favorevoli all’evento fratto il numero di casi possibili Calcolo delle Probabilità
  • 96. Calcolare una probabilità Se peschi una pallina rossa vinci un premio. In quale delle due urne pescheresti? Hai 1 giorno di tempo per studiare la situazione e decidere ma puoi pescare solo una pallina alla volta Frequentista Per un infinito numero di prove, la probabilità osservata converge al suo vero valore Calcolo delle Probabilità
  • 97. Calcolare una probabilità Soggettiva Valutazioni date dall’esperienza. Quanto saresti disposto a scommettere per ottenere un dato premio Calcolo delle Probabilità
  • 98. Funzione di probabilità X = {1 , 2 , 3 , 4 , 5 , 6} Calcolo delle Probabilità
  • 99. S = { 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12} Funzione di probabilità Calcolo delle Probabilità
  • 100. Masse di probabilità La probabilità di ottenere determinati esiti è data dalla somma delle singole probabilità La sommatoria delle probabilità di tutti i singoli esiti deve essere pari a 1, perché c’è il 100% di probabilità che si verifichi almeno uno degli esiti. Funzione di probabilità Calcolo delle Probabilità
  • 101. Funzione di probabilità Densità di probabilità La probabilità è data dall’integrale della funzione, è infatti l’area sottesa alla curva. Come per l’esempio di prima, l’integrale dell’intera funzione, da –∞ a +∞, deve essere pari a 1. Calcolo delle Probabilità
  • 102. Statistica Descrittiva per Data Scientist La distribuzione Normale Modello e proprietà presentato da Giuseppe Dejan Lucido
  • 103. Distribuzioni e modelli Esistono possibili infinite configurazioni di distribuzioni di probabilità. Ce ne sono alcune che hanno delle proprietà matematiche "comode" che ci permettono di semplificare i calcoli e di rappresentare tanti fenomeni e variabili La distribuzione Normale
  • 104. Un modello è una rappresentazione più o meno semplificata della realtà Distribuzioni e modelli La distribuzione Normale
  • 105. Un modello è una rappresentazione più o meno semplificata della realtà Distribuzioni e modelli La distribuzione Normale
  • 106. Un modello è una rappresentazione più o meno semplificata della realtà Distribuzioni e modelli La distribuzione Normale
  • 107. La distribuzione Normale o Gaussiana Normale Standard X ~ N(0,1) La distribuzione Normale
  • 108. X ~ N(µ,σ) La distribuzione Normale o Gaussiana Può essere definita completamente avendo solo media e deviazione standard La distribuzione Normale
  • 109. La distribuzione Normale o Gaussiana È un modello per variabili continue simmetriche e molti fenomeni in natura si comportano secondo questa distribuzione La distribuzione Normale
  • 110. La distribuzione Normale o Gaussiana Si conosce l’esatto ammontare di probabilità fino a ogni valore, o per ogni intervallo di valori, della variabile Calcolo delle Probabilità
  • 111. La distribuzione Normale o Gaussiana Il teorema del limite centrale afferma che date n variabili aleatorie indipendenti fra loro e identicamente distribuite, per n che tende a infinito la loro somma (o media) si distribuisce secondo una Normale, indipendentemente dalla loro distribuzione di partenza La distribuzione Normale
  • 112. Trasformazione che permette di riportare uno o più valori estratti da una qualsiasi distribuzione normale ai valori corrispondenti di una Normale Standard Permette sia di considerare soltanto la Normale Standard per tutte le infinite distribuzioni normali, sia di confrontare valori provenienti da distribuzioni con media e varianza diverse La standardizzazione 𝑍 = 𝑥 − 𝜇 𝜎 La distribuzione Normale
  • 113. Statistica Descrittiva per Data Scientist Indici di Forma Asimmetria e Curtosi presentato da Giuseppe Dejan Lucido
  • 114. Indici di forma Questi indici si riferiscono all’asimmetria e la curtosi, delle caratteristiche della distribuzione che fanno riferimento rispettivamente al momento centrale di ordine tre e quattro di una variabile aleatoria. Indici di forma
  • 115. Asimmetria Una distribuzione si dice simmetrica se è possibile individuare un asse verticale che tagli la distribuzione in due parti specularmente uguali. Ovviamente la variabile deve essere ordinabile. • Asimmetria positiva, se sono più frequenti valori o modalità basse • Asimmetria negativa, se sono più frequenti valori o modalità alte Indici di forma
  • 116. Indice di asimmetria di Fisher Momento terzo della distribuzione Indice di asimmetria • γ1 = 0 , Distribuzione simmetrica Media = Mediana = Moda • γ1 > 0 , Distribuzione asimmetrica positiva Media >Mediana > Moda • γ1 < 0 , Distribuzione asimmetrica negativa Media < Mediana < Moda Indici di forma
  • 117. Indice di asimmetria di Fisher Indici di forma
  • 118. Curtosi La curtosi può essere definita come una misura di schiacciamento/allungamento della forma di una distribuzione rispetto alla distribuzione normale. • Platicurtica se risulta più appiattita rispetto alla distribuzione normale • Leptocurtica se risulta più allungata rispetto alla distribuzione normale • Mesocurtica altrimenti Indici di forma
  • 119. Coefficiente di curtosi Momento quarto della distribuzione Coefficiente di curtosi 2 - 3 • γ2 = 0 , Distribuzione mesocurtica • γ2 > 0 , Distribuzione leptocurtica • γ2 < 0 , Distribuzione platicurtica Indici di forma