Data Journalism
seconda giornata
Ovvero Perché Excel è un amico
Marco Montanari
@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com



Sviluppatore, Appassionato di giochi, Nerd…

...
Struttura della notizia



5W


Who is it about?



What happened?



When did it take place?



Where did it take pl...
Thought Experiment


Volete scrivere un articolo su un confronto fra due politici basandovi su
alcune affermazioni fatte ...
Dati raccolti


Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»



Politico 2: «Mai due gay all’alta...
Dati raccolti


Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»



Politico 2: «Mai due gay all’alta...
Dati raccolti
Argomento
Matrimoni
omosessuali

Politico 1
Favorevole

Politico 2
Contrario

Eutanasia
Renzi

Contrario
Con...
Struttura del dato



5W


Who is it about?



What happened?



When did it take place?



Where did it take place?
...
Dimensioni dei dati


Ogni «W» è una dimensione



Ogni dimensione mette in
correlazione un aspetto



Più aspetti impl...
Dimensioni dei dati del Thought
Experiment
Matrimoni
omosessuali

Politico
1
Eutanasia

Matrimoni
omosessuali

Politico
2
...
Fonti di dati


I dati possono trovarsi sul web in tanti formati


Tabellari




20%

xml json (shp)

Linked data


...
Fonti di dati


I dati possono trovarsi sul web in tanti formati


Tabellari




20%

xml json (shp)

Linked data


...
Demo
Dove si analizza un dataset
http://dati.istat.it/

http://dati.comune.bologna.it/dati
Excel - Importazione dati csv - 1

Importazione
da file
Excel - Importazione dati csv - 2
Testo delimitato
da virgole e altri
simboli
Excel - Importazione dati csv - 3
In questo caso il
testo è delimitato
da punti e virgola
Excel - Importazione dati csv - 4

ATTENZIONE!!! Alcuni dati
numerici potrebbero essere solo
sequenza di caratteri numeric...
Ma a volte i dati sono sporchi...
OpenRefine


Scaricare da http://openrefine.org



Scompattare archivio



Eseguire la applicazione con il simbolo del ...
OpenRefine – Pulizia dei dati - 1

Modalità di importazione dei dati:
File locale
Indirizzo web (del file o dei diversi fi...
OpenRefine – Pulizia dei dati - 2

Preview dell’importazione

Intestazione della colonna
Righe “inutili” con intestazioni
...
OpenRefine – Pulizia dei dati - 3

Clustering degli elementi affini all’interno della
colonna per omogeneizzare i dati
OpenRefine – Pulizia dei dati - 3
Metodo di riconoscimento dell’affinità
Funzione di ricerca

Per unire i dati: selezionar...
OpenRefine – Pulizia dei dati - 3

Trasformazione manuale dei dati
(per pulire la modalità “italiana” di scrittura dei num...
OpenRefine – Pulizia dei dati - 3
Operazione di trasformazione
AIUTO!!!! (guida)
Dato originario

Anteprima della trasfrom...
Uso del dato


Dati tabellari






Amati dai
manager

Non ideali per
una «storia»

Nemmeno ai
manager
piacciono i dat...
Pivoting


Tabella Pivot


Aggregazioni
semplici



Fattibile con
Excel e/o
Libreoffice
Cubi di dati



Datacube (Big Data?)


Aggregazioni complesse



Strumenti più specializzati (Excel le supporta)
Demo
Dove si prende la tabella e la si analizza attraverso aggregazioni
Pivoting in Excel - 1
Plugin Tabella Pivot
Pivoting in Excel - 2
Dove deve prendere I dati e
dove deve metterli?
Le impostazioni di default
vanno generalmente bene
Pivoting in Excel – Dimensioni - 1
A destra compare il Sistema di
gestione delle dimensioni del
dato
Pivoting in Excel – Dimensioni - 2

Genera

Ma “count”
rappresenta
solo la quantità
di progetti, non
l’ammontare
Pivoting in Excel – Dimensioni - 3

Il menu
accessibile
dalla freccina
consente di
modificare le
impostazioni
del singolo
...
Pivoting in Excel – Dimensioni - 4
Aggiungendo una dimensione
nelle colonne, possiamo
analizzare gli incroci e
vedere le d...
Esplorazione dei dati con altri strumenti


Raw http://raw.densitydesign.org/



Datawrapper http://datawrapper.de/



...
Scraping via browser


https://chrome.google.com/webstore/detail/tablecapture/iebpjdmgckacbodjpijphcplhebcmeop



https:...
Scraping via browser

Estrazione di dati tramite Table Capture
Scraping da codice
Si, è complesso, quindi…

… chiamate l’amico sviluppatore!!
That’s all Folks!
GRAZIE!
Per qualsiasi domanda:

@ingmmo
marco.montanari@gmail.com
sirmmo.blogspot.com, …
sirmmo
http://i...
Upcoming SlideShare
Loading in...5
×

DataJournalism@RCS

281

Published on

Data Journalism con un po' di info sugli strumenti di base: Excel, OpenRefine, Pivot Tables e qualche tool di visualizzazione

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
281
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

DataJournalism@RCS

  1. 1. Data Journalism seconda giornata Ovvero Perché Excel è un amico
  2. 2. Marco Montanari @ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com  Sviluppatore, Appassionato di giochi, Nerd…   passione per i dati “I am a journalist looking for coder friends.”   Jens Finnäs (HacksHackers Helsinki 2012) “I am a coder with journalist friends.”  Marco Montanari 
  3. 3. Struttura della notizia  5W  Who is it about?  What happened?  When did it take place?  Where did it take place?  Why did it happen?
  4. 4. Thought Experiment  Volete scrivere un articolo su un confronto fra due politici basandovi su alcune affermazioni fatte nel tempo.  Vi servono dati per corroborare la vostra tesi  Raccogliete le posizioni dei politici sulle affermazioni
  5. 5. Dati raccolti  Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»  Politico 2: «Mai due gay all’altare»  Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella morte»  Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso peccato capitale»  Politico 1: «Renzi si sta comportando un po’ come Grillo»  Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova, finalmente»
  6. 6. Dati raccolti  Politico 1: «Certo, i matrimoni omosessuali sono un diritto civile»  Politico 2: «Mai due gay all’altare»  Politico 1: «Ognuno ha diritto di autodeterminazione, nella vita e nella morte»  Politico 2: «Se Dio avesse voluto che ci uccidessimo, non l’avrebbe reso peccato capitale»  Politico 1: «Renzi si sta comportando un po’ come Grillo»  Politico 2: «Spero che Renzi sia candidato: rappresenta aria nuova, finalmente»
  7. 7. Dati raccolti Argomento Matrimoni omosessuali Politico 1 Favorevole Politico 2 Contrario Eutanasia Renzi Contrario Contrario Favorevole Favorevole Ma le 5W? Sono diventate tre colonne di argomento specifico! E ora possiamo vedere le posizioni in modo preciso!
  8. 8. Struttura del dato  5W  Who is it about?  What happened?  When did it take place?  Where did it take place?  Why did it happen?
  9. 9. Dimensioni dei dati  Ogni «W» è una dimensione  Ogni dimensione mette in correlazione un aspetto  Più aspetti implicano più sfaccettature della storia Chi Dove Cosa Fatto Perché Quando
  10. 10. Dimensioni dei dati del Thought Experiment Matrimoni omosessuali Politico 1 Eutanasia Matrimoni omosessuali Politico 2 Renzi Eutanasia Renzi
  11. 11. Fonti di dati  I dati possono trovarsi sul web in tanti formati  Tabellari   20% xml json (shp) Linked data   xls xlsx csv tsv ods dbf Strutturati   75% RDF 5 Altro…  HTML 50%
  12. 12. Fonti di dati  I dati possono trovarsi sul web in tanti formati  Tabellari   20% xml json (shp) Linked data   xls xlsx csv tsv ods dbf Strutturati   75% RDF 5 Altro…  HTML 50%
  13. 13. Demo Dove si analizza un dataset http://dati.istat.it/ http://dati.comune.bologna.it/dati
  14. 14. Excel - Importazione dati csv - 1 Importazione da file
  15. 15. Excel - Importazione dati csv - 2 Testo delimitato da virgole e altri simboli
  16. 16. Excel - Importazione dati csv - 3 In questo caso il testo è delimitato da punti e virgola
  17. 17. Excel - Importazione dati csv - 4 ATTENZIONE!!! Alcuni dati numerici potrebbero essere solo sequenza di caratteri numerici (iniziando con 0) Per concludere
  18. 18. Ma a volte i dati sono sporchi...
  19. 19. OpenRefine  Scaricare da http://openrefine.org  Scompattare archivio  Eseguire la applicazione con il simbolo del diamante
  20. 20. OpenRefine – Pulizia dei dati - 1 Modalità di importazione dei dati: File locale Indirizzo web (del file o dei diversi file) Dati da Google
  21. 21. OpenRefine – Pulizia dei dati - 2 Preview dell’importazione Intestazione della colonna Righe “inutili” con intestazioni o descrizioni dei dati Modalità di importazione Non interpretare il contenuto (codici numerici con “0” iniziali) Abuso di virgolette (“)
  22. 22. OpenRefine – Pulizia dei dati - 3 Clustering degli elementi affini all’interno della colonna per omogeneizzare i dati
  23. 23. OpenRefine – Pulizia dei dati - 3 Metodo di riconoscimento dell’affinità Funzione di ricerca Per unire i dati: selezionare le fusioni e “merge”
  24. 24. OpenRefine – Pulizia dei dati - 3 Trasformazione manuale dei dati (per pulire la modalità “italiana” di scrittura dei numeri) Trasformazioni “standard” (eliminare spazi iniziali, finali, troppi spazi in mezzo)
  25. 25. OpenRefine – Pulizia dei dati - 3 Operazione di trasformazione AIUTO!!!! (guida) Dato originario Anteprima della trasfromazione Operazione: value.replace(".","").replace(",",".")
  26. 26. Uso del dato  Dati tabellari    Amati dai manager Non ideali per una «storia» Nemmeno ai manager piacciono i dati «puri», ma degli aggregati  Magari in forma grafica (Dashboard)
  27. 27. Pivoting  Tabella Pivot  Aggregazioni semplici  Fattibile con Excel e/o Libreoffice
  28. 28. Cubi di dati  Datacube (Big Data?)  Aggregazioni complesse  Strumenti più specializzati (Excel le supporta)
  29. 29. Demo Dove si prende la tabella e la si analizza attraverso aggregazioni
  30. 30. Pivoting in Excel - 1 Plugin Tabella Pivot
  31. 31. Pivoting in Excel - 2 Dove deve prendere I dati e dove deve metterli? Le impostazioni di default vanno generalmente bene
  32. 32. Pivoting in Excel – Dimensioni - 1 A destra compare il Sistema di gestione delle dimensioni del dato
  33. 33. Pivoting in Excel – Dimensioni - 2 Genera Ma “count” rappresenta solo la quantità di progetti, non l’ammontare
  34. 34. Pivoting in Excel – Dimensioni - 3 Il menu accessibile dalla freccina consente di modificare le impostazioni del singolo campo, portandoci a selezionare “somma” in vece di “conta”
  35. 35. Pivoting in Excel – Dimensioni - 4 Aggiungendo una dimensione nelle colonne, possiamo analizzare gli incroci e vedere le dinamiche Totali per ogni aggregazione
  36. 36. Esplorazione dei dati con altri strumenti  Raw http://raw.densitydesign.org/  Datawrapper http://datawrapper.de/  Tableau http://www.tableausoftware.com/public/  Google Fusion Tables  Geojson.io
  37. 37. Scraping via browser  https://chrome.google.com/webstore/detail/tablecapture/iebpjdmgckacbodjpijphcplhebcmeop  https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaff ohmbkdlecaccepngjd
  38. 38. Scraping via browser Estrazione di dati tramite Table Capture
  39. 39. Scraping da codice
  40. 40. Si, è complesso, quindi… … chiamate l’amico sviluppatore!!
  41. 41. That’s all Folks! GRAZIE! Per qualsiasi domanda: @ingmmo marco.montanari@gmail.com sirmmo.blogspot.com, … sirmmo http://it.linkedin.com/in/montanarim/ https://www.facebook.com/marco.montanari marco.montanari
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×