SlideShare a Scribd company logo
Open data e data science
Dati per capire e comunicare
11 Febbraio 2017
Ghirardi Nicola
Master “Web communication e social media”
Intervista ai
dati:
Descrizione
del dataset
Dove li ho trovati?
Chi li ha collezionati? Chi è il proprietario?
Come sono stati collezionati: è un campione?
Come sono distribuiti:
in che forma (dati, grafici, tabelle, testo)?
con che licenza (cosa posso farci)?
Perchè sono stati originariamente collezionati?
Quando sono stati collezionati? A quale periodo si
riferiscono ? (cosa stava succedendo?)
Cosa descrivono? Per cosa sono aggregati? (Oggetto)
Analisi
argomento
Interesse per pubblico:
Angolo comune di descrivere quel fenomeno?
Qual’è l’opinione comune?
Come viene trattato l’argomento normalmente?
A quali domande sull’argomento vorrei rispondere?
Quali sono le domande a cui potrebbe rispondere il
dataset? Quali altre domande fa nascere (si ma..)?
Esplorazione
dati
Singola
variabile
Apertura
dataset
● File -> Import ->upload
● Settare il delimitatore corretto
● Non trasformare in campi numerici
automaticamente
● Copiare i dati in un altro foglio (per lasciare
l’originale accessibile)
● Impostazioni per migliore visibilità
○ Nascondere colonne non interessanti
○ Ridimensionare colonne (doppio click su bordo in alto)
○ Altro
● Impostare i tipi di dato corretti
○ Secondo gruppo di icone nel menu
Tutorial google sheet
Analisi
tipi di
variabili
Continue (numeriche)
Categorie
Tempo
Geografiche
Testo (libero)
Pulizia dei dati
● Importazione corretta (e.g. formato dati)
● Rimuovere metadati dal foglio principale
● Togliere unità di misura e uniformare
● Valori mancanti
○ CountBlank
○ IsBlank e conditional formatting
● Filtrare dati (e.g. totali)
○ Selezionare colonna
○ Filtra da menu data o da icona
imbuto
● Normalizzare dati (da matrice a colonna,
unpivot)
○ Excel
○ Not easy with Sheet
Variabili
numeriche:
Statistiche
riassuntive
● Ordinare (classifica)
○ Selezionare tutto (all’intersezione tra righe e colonne)
○ Tasto destro - sort range (o menu data)
○ Check”dati con intestazione”
○ Selezione colonna e orientamento
○ Attenzione! Senza selezionare tutti i dati, le righe non
avranno più senso
● Media e mediana
○ Avarage
○ Median (valore che ha lo stesso numero di misurazioni
meaggiori e minori)
● La trappola della media (e della
generalizzazione)
● Distribuzioni: Istogramma
○ Formato dati (numeri)
○ Aggiungi grafico a barre (google sheet)
○ Manuale con LibreOffice (usando frequency)
Distribuzioni e outliers
Errori di data entry
Errori di misura
Errori sperimentali
Errori di processamento
o
Outlier naturali
Strumenti di
esplorazione
dei dati Fogli di calcolo: Google Sheet, Excel, LibreOffice
Strumenti di reportistica: Tableau, PowerBI, ...
Strumenti di programmazione: R, Python
Databases: SQL
Variabili
categoriche
(conteggi)
● Conteggi
○ Totale (righe)
● Conteggio raggruppato (manuale)
○ Estrarre valori univoci
○ Per ogni valore filtrare e contare
● Visualizzazione: Explore
○ Selezionare le colonne da analizzare
○ Icona in basso a destra
○ Importare il grafico e/o la formula (icone a destra)
○ Leggere Count, min, max
● Visualizzazione semplificata (google sheet)
○ Istogramma per variabili continue
○ Diagramma a barre per conteggi
○ Selezionare colonna
○ Inserire grafico
○ Aggrega
● Visualizzazione: box plot
Variabili
Interessanti
...
E possibili
domande
Distribuzioni e conteggi diverse da
quelle aspettate
Distribuzioni e conteggi non
uniformi (picchi)
Distribuzioni e conteggi con
outliers
Quali sono le domande a cui
potrebbe rispondere il dataset?
Quali altre domande fa nascere (si
ma..)?
Trasformazione dati
Aka data wrangling
● Normalizzazione rispetto ad
un’altra variabile (divisione)
● Se contiene parola
=if(iserror(FIND("bla",A1))
,"NO","YES")
● Lowercase
● Trovare i duplicati
○ Fuzzy matching (e.g. add-on1,
add-on2)
● ….
Esplorazione dati:
raggruppamenti
usando due variabili
(categorie)
TABELLE
PIVOT
Tabelle riassuntive
Come si fanno usando google sheet
● Seleziona i dati
● Data -> Pivot table
● Inserisci le grandezze da analizzare
○ Colonna = grandezza da analizzare
○ Righe: dati o colonna indice
○ Valore = CountA per categorie, somma, medie etc per
numeri
● Seleziona la tabella pivot escludendo i totali
● Aggiungi grafico (a torta o a barre)
Esplorazione dati:
variazione nel
tempo
Grafici: Line, Area, Barre,...
Una dimensione nel tempo
Più variabili (e.g. un raggruppamento)
Alcuni esempi
E’ un campo complesso
● cambiamenti assoluti e/o relativi
● Pattern ricorrenti (stagionalità)
● Confronto con eventi del periodo
Attenzione alla lunghezza dei trend
Costruire una
timeline
Con Google
Sheet
Controllare formati
(date e numeri)
Ordinare per campo data
Selezionare colonne
(prima date e poi numeri)
Nuovo grafico di tipo
timeline
Correlazione e Scatter Plot
Storie di
Scatter Plot
Hans Rosling: The best
stats you've ever seen
Gapminder
Multidimensional explorer

More Related Content

Similar to Dati per capire: esplorazione

DATI: Comprendere e raffinare
DATI: Comprendere e raffinareDATI: Comprendere e raffinare
DATI: Comprendere e raffinare
A Scuola di OpenCoesione
 
3.4 Comprendere i dati: raffinare
3.4 Comprendere i dati: raffinare3.4 Comprendere i dati: raffinare
3.4 Comprendere i dati: raffinare
A Scuola di OpenCoesione
 
3.9 Cos'è il Data Journalism - Slide - ASOC1617
3.9 Cos'è  il Data Journalism - Slide - ASOC16173.9 Cos'è  il Data Journalism - Slide - ASOC1617
3.9 Cos'è il Data Journalism - Slide - ASOC1617
A Scuola di OpenCoesione
 
Open data Cul.T.A. Data Visualization
Open data Cul.T.A. Data VisualizationOpen data Cul.T.A. Data Visualization
Open data Cul.T.A. Data Visualization
Matteo Fortini
 
Medie2223_Comprendere i dati_raffinare
Medie2223_Comprendere i dati_raffinareMedie2223_Comprendere i dati_raffinare
Medie2223_Comprendere i dati_raffinare
A Scuola di OpenCoesione
 
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.statASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
A Scuola di OpenCoesione
 

Similar to Dati per capire: esplorazione (7)

DATI: Comprendere e raffinare
DATI: Comprendere e raffinareDATI: Comprendere e raffinare
DATI: Comprendere e raffinare
 
3.4 Comprendere i dati: raffinare
3.4 Comprendere i dati: raffinare3.4 Comprendere i dati: raffinare
3.4 Comprendere i dati: raffinare
 
3.9 Cos'è il Data Journalism - Slide - ASOC1617
3.9 Cos'è  il Data Journalism - Slide - ASOC16173.9 Cos'è  il Data Journalism - Slide - ASOC1617
3.9 Cos'è il Data Journalism - Slide - ASOC1617
 
Open data Cul.T.A. Data Visualization
Open data Cul.T.A. Data VisualizationOpen data Cul.T.A. Data Visualization
Open data Cul.T.A. Data Visualization
 
Medie2223_Comprendere i dati_raffinare
Medie2223_Comprendere i dati_raffinareMedie2223_Comprendere i dati_raffinare
Medie2223_Comprendere i dati_raffinare
 
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.statASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
ASOC1920 Webinar Lezione 4 - Navigare ed estrarre i dati da I.stat
 
3.6 analizzare dati_slide
3.6 analizzare dati_slide3.6 analizzare dati_slide
3.6 analizzare dati_slide
 

More from Nicola Ghirardi

Introduction to open data
Introduction to open dataIntroduction to open data
Introduction to open data
Nicola Ghirardi
 
Civic hacking, emergenze e rischio ambientale
Civic hacking, emergenze e rischio ambientaleCivic hacking, emergenze e rischio ambientale
Civic hacking, emergenze e rischio ambientale
Nicola Ghirardi
 
Cinema open data
Cinema open data Cinema open data
Cinema open data
Nicola Ghirardi
 
R-Link : Research Content Linked Data Cloud
R-Link : Research Content Linked Data CloudR-Link : Research Content Linked Data Cloud
R-Link : Research Content Linked Data Cloud
Nicola Ghirardi
 
Linked (Open) Data in Digital Library Management System by CINECA
Linked (Open) Data in Digital Library Management System by CINECALinked (Open) Data in Digital Library Management System by CINECA
Linked (Open) Data in Digital Library Management System by CINECA
Nicola Ghirardi
 
Voa3r Project content population - CINECA
Voa3r Project content population - CINECAVoa3r Project content population - CINECA
Voa3r Project content population - CINECA
Nicola Ghirardi
 
Presentazione R-Link - Corso diritti
Presentazione R-Link - Corso diritti Presentazione R-Link - Corso diritti
Presentazione R-Link - Corso diritti Nicola Ghirardi
 

More from Nicola Ghirardi (7)

Introduction to open data
Introduction to open dataIntroduction to open data
Introduction to open data
 
Civic hacking, emergenze e rischio ambientale
Civic hacking, emergenze e rischio ambientaleCivic hacking, emergenze e rischio ambientale
Civic hacking, emergenze e rischio ambientale
 
Cinema open data
Cinema open data Cinema open data
Cinema open data
 
R-Link : Research Content Linked Data Cloud
R-Link : Research Content Linked Data CloudR-Link : Research Content Linked Data Cloud
R-Link : Research Content Linked Data Cloud
 
Linked (Open) Data in Digital Library Management System by CINECA
Linked (Open) Data in Digital Library Management System by CINECALinked (Open) Data in Digital Library Management System by CINECA
Linked (Open) Data in Digital Library Management System by CINECA
 
Voa3r Project content population - CINECA
Voa3r Project content population - CINECAVoa3r Project content population - CINECA
Voa3r Project content population - CINECA
 
Presentazione R-Link - Corso diritti
Presentazione R-Link - Corso diritti Presentazione R-Link - Corso diritti
Presentazione R-Link - Corso diritti
 

Dati per capire: esplorazione

  • 1. Open data e data science Dati per capire e comunicare 11 Febbraio 2017 Ghirardi Nicola Master “Web communication e social media”
  • 2. Intervista ai dati: Descrizione del dataset Dove li ho trovati? Chi li ha collezionati? Chi è il proprietario? Come sono stati collezionati: è un campione? Come sono distribuiti: in che forma (dati, grafici, tabelle, testo)? con che licenza (cosa posso farci)? Perchè sono stati originariamente collezionati? Quando sono stati collezionati? A quale periodo si riferiscono ? (cosa stava succedendo?) Cosa descrivono? Per cosa sono aggregati? (Oggetto)
  • 3. Analisi argomento Interesse per pubblico: Angolo comune di descrivere quel fenomeno? Qual’è l’opinione comune? Come viene trattato l’argomento normalmente? A quali domande sull’argomento vorrei rispondere? Quali sono le domande a cui potrebbe rispondere il dataset? Quali altre domande fa nascere (si ma..)?
  • 5. Apertura dataset ● File -> Import ->upload ● Settare il delimitatore corretto ● Non trasformare in campi numerici automaticamente ● Copiare i dati in un altro foglio (per lasciare l’originale accessibile) ● Impostazioni per migliore visibilità ○ Nascondere colonne non interessanti ○ Ridimensionare colonne (doppio click su bordo in alto) ○ Altro ● Impostare i tipi di dato corretti ○ Secondo gruppo di icone nel menu Tutorial google sheet
  • 7. Pulizia dei dati ● Importazione corretta (e.g. formato dati) ● Rimuovere metadati dal foglio principale ● Togliere unità di misura e uniformare ● Valori mancanti ○ CountBlank ○ IsBlank e conditional formatting ● Filtrare dati (e.g. totali) ○ Selezionare colonna ○ Filtra da menu data o da icona imbuto ● Normalizzare dati (da matrice a colonna, unpivot) ○ Excel ○ Not easy with Sheet
  • 8. Variabili numeriche: Statistiche riassuntive ● Ordinare (classifica) ○ Selezionare tutto (all’intersezione tra righe e colonne) ○ Tasto destro - sort range (o menu data) ○ Check”dati con intestazione” ○ Selezione colonna e orientamento ○ Attenzione! Senza selezionare tutti i dati, le righe non avranno più senso ● Media e mediana ○ Avarage ○ Median (valore che ha lo stesso numero di misurazioni meaggiori e minori) ● La trappola della media (e della generalizzazione) ● Distribuzioni: Istogramma ○ Formato dati (numeri) ○ Aggiungi grafico a barre (google sheet) ○ Manuale con LibreOffice (usando frequency)
  • 9. Distribuzioni e outliers Errori di data entry Errori di misura Errori sperimentali Errori di processamento o Outlier naturali
  • 10. Strumenti di esplorazione dei dati Fogli di calcolo: Google Sheet, Excel, LibreOffice Strumenti di reportistica: Tableau, PowerBI, ... Strumenti di programmazione: R, Python Databases: SQL
  • 11. Variabili categoriche (conteggi) ● Conteggi ○ Totale (righe) ● Conteggio raggruppato (manuale) ○ Estrarre valori univoci ○ Per ogni valore filtrare e contare ● Visualizzazione: Explore ○ Selezionare le colonne da analizzare ○ Icona in basso a destra ○ Importare il grafico e/o la formula (icone a destra) ○ Leggere Count, min, max ● Visualizzazione semplificata (google sheet) ○ Istogramma per variabili continue ○ Diagramma a barre per conteggi ○ Selezionare colonna ○ Inserire grafico ○ Aggrega ● Visualizzazione: box plot
  • 12. Variabili Interessanti ... E possibili domande Distribuzioni e conteggi diverse da quelle aspettate Distribuzioni e conteggi non uniformi (picchi) Distribuzioni e conteggi con outliers Quali sono le domande a cui potrebbe rispondere il dataset? Quali altre domande fa nascere (si ma..)?
  • 13. Trasformazione dati Aka data wrangling ● Normalizzazione rispetto ad un’altra variabile (divisione) ● Se contiene parola =if(iserror(FIND("bla",A1)) ,"NO","YES") ● Lowercase ● Trovare i duplicati ○ Fuzzy matching (e.g. add-on1, add-on2) ● ….
  • 15. TABELLE PIVOT Tabelle riassuntive Come si fanno usando google sheet ● Seleziona i dati ● Data -> Pivot table ● Inserisci le grandezze da analizzare ○ Colonna = grandezza da analizzare ○ Righe: dati o colonna indice ○ Valore = CountA per categorie, somma, medie etc per numeri ● Seleziona la tabella pivot escludendo i totali ● Aggiungi grafico (a torta o a barre)
  • 16. Esplorazione dati: variazione nel tempo Grafici: Line, Area, Barre,... Una dimensione nel tempo Più variabili (e.g. un raggruppamento) Alcuni esempi E’ un campo complesso ● cambiamenti assoluti e/o relativi ● Pattern ricorrenti (stagionalità) ● Confronto con eventi del periodo Attenzione alla lunghezza dei trend
  • 17. Costruire una timeline Con Google Sheet Controllare formati (date e numeri) Ordinare per campo data Selezionare colonne (prima date e poi numeri) Nuovo grafico di tipo timeline
  • 19. Storie di Scatter Plot Hans Rosling: The best stats you've ever seen Gapminder Multidimensional explorer