2. Marco Montanari
@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com
Sviluppatore, Appassionato di giochi, Nerd…
passione per i dati
“I am a journalist looking for coder friends.”
Jens Finnäs (HacksHackers Helsinki 2012)
“I am a coder with journalist friends.”
Marco Montanari
3. Struttura della notizia
5W
Who is it about?
What happened?
When did it take place?
Where did it take place?
Why did it happen?
4. Thought Experiment
Volete scrivere un articolo su un confronto fra due politici basandovi su
alcune affermazioni fatte nel tempo.
Vi servono dati per corroborare la vostra tesi
Raccogliete le posizioni dei politici sulle affermazioni
5. Dati raccolti
Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»
Politico 2: «Mai due gay all’altare»
Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella
morte»
Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso
peccato capitale»
Politico 1: «Renzi si sta comportando un po’ come Grillo»
Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,
finalmente»
6. Dati raccolti
Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»
Politico 2: «Mai due gay all’altare»
Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella
morte»
Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso
peccato capitale»
Politico 1: «Renzi si sta comportando un po’ come Grillo»
Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova,
finalmente»
8. Struttura del dato
5W
Who is it about?
What happened?
When did it take place?
Where did it take place?
Why did it happen?
9. Dimensioni dei dati
Ogni «W» è una dimensione
Ogni dimensione mette in
correlazione un aspetto
Più aspetti implicano più
sfaccettature della storia
Chi
Dove
Cosa
Fatto
Perché
Quando
10. Dimensioni dei dati del Thought
Experiment
Matrimoni
omosessuali
Politico
1
Eutanasia
Matrimoni
omosessuali
Politico
2
Renzi
Eutanasia
Renzi
11. Fonti di dati
I dati possono trovarsi sul web in tanti formati
Tabellari
20%
xml json (shp)
Linked data
xls xlsx csv tsv ods dbf
Strutturati
75%
RDF
5
Altro…
HTML
50%
12. Fonti di dati
I dati possono trovarsi sul web in tanti formati
Tabellari
20%
xml json (shp)
Linked data
xls xlsx csv tsv ods dbf
Strutturati
75%
RDF
5
Altro…
HTML
50%
13. Demo
Dove si analizza un dataset
http://dati.istat.it/
http://dati.comune.bologna.it/dati
16. Excel - Importazione dati csv - 3
In questo caso il
testo è delimitato
da punti e virgola
17. Excel - Importazione dati csv - 4
ATTENZIONE!!! Alcuni dati
numerici potrebbero essere solo
sequenza di caratteri numerici
(iniziando con 0)
Per concludere
20. OpenRefine – Pulizia dei dati - 1
Modalità di importazione dei dati:
File locale
Indirizzo web (del file o dei diversi file)
Dati da Google
21. OpenRefine – Pulizia dei dati - 2
Preview dell’importazione
Intestazione della colonna
Righe “inutili” con intestazioni
o descrizioni dei dati
Modalità di importazione
Non interpretare il contenuto
(codici numerici con “0” iniziali)
Abuso di virgolette (“)
22. OpenRefine – Pulizia dei dati - 3
Clustering degli elementi affini all’interno della
colonna per omogeneizzare i dati
23. OpenRefine – Pulizia dei dati - 3
Metodo di riconoscimento dell’affinità
Funzione di ricerca
Per unire i dati: selezionare le fusioni e “merge”
24. OpenRefine – Pulizia dei dati - 3
Trasformazione manuale dei dati
(per pulire la modalità “italiana” di scrittura dei numeri)
Trasformazioni “standard”
(eliminare spazi iniziali, finali, troppi spazi in mezzo)
25. OpenRefine – Pulizia dei dati - 3
Operazione di trasformazione
AIUTO!!!! (guida)
Dato originario
Anteprima della trasfromazione
Operazione: value.replace(".","").replace(",",".")
26. Uso del dato
Dati tabellari
Amati dai
manager
Non ideali per
una «storia»
Nemmeno ai
manager
piacciono i dati
«puri», ma
degli aggregati
Magari in forma
grafica
(Dashboard)
31. Pivoting in Excel - 2
Dove deve prendere I dati e
dove deve metterli?
Le impostazioni di default
vanno generalmente bene
32. Pivoting in Excel – Dimensioni - 1
A destra compare il Sistema di
gestione delle dimensioni del
dato
33. Pivoting in Excel – Dimensioni - 2
Genera
Ma “count”
rappresenta
solo la quantità
di progetti, non
l’ammontare
34. Pivoting in Excel – Dimensioni - 3
Il menu
accessibile
dalla freccina
consente di
modificare le
impostazioni
del singolo
campo,
portandoci a
selezionare
“somma” in
vece di “conta”
35. Pivoting in Excel – Dimensioni - 4
Aggiungendo una dimensione
nelle colonne, possiamo
analizzare gli incroci e
vedere le dinamiche
Totali per ogni aggregazione
36. Esplorazione dei dati con altri strumenti
Raw http://raw.densitydesign.org/
Datawrapper http://datawrapper.de/
Tableau http://www.tableausoftware.com/public/
Google Fusion Tables
Geojson.io