Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Dataninja
Open Data & Data Visualization. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati. Lezione in due giorni nell'ambito di un progetto di formazione interna del Comune di Bologna - 16 e 17 giugno 2014.
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Dataninja
Open Data & Data Visualization. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati. Lezione in due giorni nell'ambito di un progetto di formazione interna del Comune di Bologna - 16 e 17 giugno 2014.
Civic hacking, emergenze e rischio ambientaleNicola Ghirardi
Presentazione per Smart City Exibition 2014, si parla di Hacker Civici, di progetti riguardanti l'ambiente, di social network, di sensori civici e di rapporto con le istituzioni. E di pioveGovernoLadro
This slides were presented at the CRIS2014 conference. We talked about Research Link, a service offered by CINECA created to expose Research Outputs of Italian Universities in Linked Open Data
Report on our contribution as content aggregator in the voa3r platform.
Thanks to:
Università di Messina
Università di Napoli "Federico II"
Università di Roma "Sapienza"
Università di Verona
Civic hacking, emergenze e rischio ambientaleNicola Ghirardi
Presentazione per Smart City Exibition 2014, si parla di Hacker Civici, di progetti riguardanti l'ambiente, di social network, di sensori civici e di rapporto con le istituzioni. E di pioveGovernoLadro
This slides were presented at the CRIS2014 conference. We talked about Research Link, a service offered by CINECA created to expose Research Outputs of Italian Universities in Linked Open Data
Report on our contribution as content aggregator in the voa3r platform.
Thanks to:
Università di Messina
Università di Napoli "Federico II"
Università di Roma "Sapienza"
Università di Verona
1. Open data e data science
Dati per capire e comunicare
11 Febbraio 2017
Ghirardi Nicola
Master “Web communication e social media”
2. Intervista ai
dati:
Descrizione
del dataset
Dove li ho trovati?
Chi li ha collezionati? Chi è il proprietario?
Come sono stati collezionati: è un campione?
Come sono distribuiti:
in che forma (dati, grafici, tabelle, testo)?
con che licenza (cosa posso farci)?
Perchè sono stati originariamente collezionati?
Quando sono stati collezionati? A quale periodo si
riferiscono ? (cosa stava succedendo?)
Cosa descrivono? Per cosa sono aggregati? (Oggetto)
3. Analisi
argomento
Interesse per pubblico:
Angolo comune di descrivere quel fenomeno?
Qual’è l’opinione comune?
Come viene trattato l’argomento normalmente?
A quali domande sull’argomento vorrei rispondere?
Quali sono le domande a cui potrebbe rispondere il
dataset? Quali altre domande fa nascere (si ma..)?
5. Apertura
dataset
● File -> Import ->upload
● Settare il delimitatore corretto
● Non trasformare in campi numerici
automaticamente
● Copiare i dati in un altro foglio (per lasciare
l’originale accessibile)
● Impostazioni per migliore visibilità
○ Nascondere colonne non interessanti
○ Ridimensionare colonne (doppio click su bordo in alto)
○ Altro
● Impostare i tipi di dato corretti
○ Secondo gruppo di icone nel menu
Tutorial google sheet
7. Pulizia dei dati
● Importazione corretta (e.g. formato dati)
● Rimuovere metadati dal foglio principale
● Togliere unità di misura e uniformare
● Valori mancanti
○ CountBlank
○ IsBlank e conditional formatting
● Filtrare dati (e.g. totali)
○ Selezionare colonna
○ Filtra da menu data o da icona
imbuto
● Normalizzare dati (da matrice a colonna,
unpivot)
○ Excel
○ Not easy with Sheet
8. Variabili
numeriche:
Statistiche
riassuntive
● Ordinare (classifica)
○ Selezionare tutto (all’intersezione tra righe e colonne)
○ Tasto destro - sort range (o menu data)
○ Check”dati con intestazione”
○ Selezione colonna e orientamento
○ Attenzione! Senza selezionare tutti i dati, le righe non
avranno più senso
● Media e mediana
○ Avarage
○ Median (valore che ha lo stesso numero di misurazioni
meaggiori e minori)
● La trappola della media (e della
generalizzazione)
● Distribuzioni: Istogramma
○ Formato dati (numeri)
○ Aggiungi grafico a barre (google sheet)
○ Manuale con LibreOffice (usando frequency)
9. Distribuzioni e outliers
Errori di data entry
Errori di misura
Errori sperimentali
Errori di processamento
o
Outlier naturali
10. Strumenti di
esplorazione
dei dati Fogli di calcolo: Google Sheet, Excel, LibreOffice
Strumenti di reportistica: Tableau, PowerBI, ...
Strumenti di programmazione: R, Python
Databases: SQL
11. Variabili
categoriche
(conteggi)
● Conteggi
○ Totale (righe)
● Conteggio raggruppato (manuale)
○ Estrarre valori univoci
○ Per ogni valore filtrare e contare
● Visualizzazione: Explore
○ Selezionare le colonne da analizzare
○ Icona in basso a destra
○ Importare il grafico e/o la formula (icone a destra)
○ Leggere Count, min, max
● Visualizzazione semplificata (google sheet)
○ Istogramma per variabili continue
○ Diagramma a barre per conteggi
○ Selezionare colonna
○ Inserire grafico
○ Aggrega
● Visualizzazione: box plot
12. Variabili
Interessanti
...
E possibili
domande
Distribuzioni e conteggi diverse da
quelle aspettate
Distribuzioni e conteggi non
uniformi (picchi)
Distribuzioni e conteggi con
outliers
Quali sono le domande a cui
potrebbe rispondere il dataset?
Quali altre domande fa nascere (si
ma..)?
13. Trasformazione dati
Aka data wrangling
● Normalizzazione rispetto ad
un’altra variabile (divisione)
● Se contiene parola
=if(iserror(FIND("bla",A1))
,"NO","YES")
● Lowercase
● Trovare i duplicati
○ Fuzzy matching (e.g. add-on1,
add-on2)
● ….
15. TABELLE
PIVOT
Tabelle riassuntive
Come si fanno usando google sheet
● Seleziona i dati
● Data -> Pivot table
● Inserisci le grandezze da analizzare
○ Colonna = grandezza da analizzare
○ Righe: dati o colonna indice
○ Valore = CountA per categorie, somma, medie etc per
numeri
● Seleziona la tabella pivot escludendo i totali
● Aggiungi grafico (a torta o a barre)
16. Esplorazione dati:
variazione nel
tempo
Grafici: Line, Area, Barre,...
Una dimensione nel tempo
Più variabili (e.g. un raggruppamento)
Alcuni esempi
E’ un campo complesso
● cambiamenti assoluti e/o relativi
● Pattern ricorrenti (stagionalità)
● Confronto con eventi del periodo
Attenzione alla lunghezza dei trend