Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati 
Alessio Cimarelli 
@jenkin27 
Andrea Nelson Mauro 
@nelsonmau 
www.dataninja.it 
Agenda Digitale - Comune di Bologna 
, 16 e 17 giugno 2014
I dati e il contesto 
Le licenze 
Aggiornamenti sulle Linee guida AGID 
I formati dei dati 
dati strutturati e non strutturati 
fare scraping per creare dati strutturati 
Usare le tabelle con i fogli di calcolo 
Pulire i dati: le regole principali 
Tecniche avanzate: l'uso di OpenRefine 
Analisi: ordinare, filtrare e raggruppare i dati 
Aggregare dati da tabelle diverse: CercaVert e altre funzioni utili
Introduzione alla Data Visualization 
risorse, strumenti, principali riferimenti 
La visualizzazione come strumenti di analisi dei dati 
Grafici di base con : come scegliere 
Grafici avanzati con : visualizzare connessioni e gerarchie 
Mappe con : punti, bolle, choropleth, timemap 
Reti con : elementi di social network analysis 
Visualizzazione con un'overview generale
Il sito di Dataninja con i nostri progetti principali
Informazioni, slides, esperimenti, tutorial e tool per i data journalist
Eric Schmidt , Google’s executive chairman
Per cercarli, trovarli, riusarli e dare loro contesto 
Per analizzarli e verificare se possono essere utili 
Per costruire informazioni maggiormente accurate e basate su 
elementi statistici
Cominciamo da una definizione 
Singoli pezzi di informazione di ogni natura, descrizioni di fatti 
riproducibili senza ambiguità, parti di informazioni strutturate 
che possono essere archiviate in formato digitale 
Maurizio Napolitano, Technologist presso Fondazione Bruno Kessler (Trento)
Cominciamo da una definizione 
Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, 
ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o 
condivisione allo stesso modo 
Open Definition: http://opendefinition.org/od
http://opendefinition.org/
Se voglio pubblicare dei dati in "Open Data" devo: 
dei dati (chi li ha prodotti? Il classico 
esempio dei dati del turismo, generalmente raccolti e diffusi dalle 
Camere di Commercio) 
diritti altrui o il segreto statistico 
le verifiche necessarie e preliminari 
alla pubblicazione. 
E inoltre devo tenere a mente che: 
Non posso concedere una licenza che rilasci più diritti di quanti non ne 
abbiano i dati di provenienza 
Devo sempre tenere in considerazione la possibilità di rimuovere dei 
dati (o modificarne la licenza) se emerge che la titolarità non è mia.
Le licenze utilizzabili per il rilascio dei dati secondo AGID 
http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf
, giurista, esperto di diritto digitale | http://goo.gl/zmjbY7
Formati dei dati digitali già utilizzabili, solo da pulire e controllare 
Si possono analizzare con Ms Excel e Libre Office Calc, mysql (...) 
È buona norma pubblicarli con i
Sono dati non strutturati se non è possibile analizzarli tramite 
un'applicazione di foglio di calcolo 
Pagine web in formato html 
Documenti di testo 
Documenti in formato pdf
L'arte dello scraping: semplice o complessa? 
(dati da estrarre da pdf) 
(dati da estrarre da pagine html) 
sviluppate ad hoc con Python / Javascript / Java
Il nostro punto di partenza è una tabella di dati strutturati 
http://dati.comune.bologna.it/node/340
Di fronte all’enorme varietà del mondo, 
il computer comprende pochi tipi di variabili: 
numeri interi (con segno, incluso lo 0) 
numeri decimali (con segno) 
date e orari 
stringhe di caratteri (case sensitive) 
valore mancante (o NULL)
Verificare, individuare errori, correggere 
Premesse sbagliate portano (quasi) sempre a conclusioni sbagliate, anche 
se il ragionamento è corretto. 
Pure se affidabile, anche la fonte può sbagliare. Così come può barare, 
truccare, mentire, nascondere, omettere, ecc. 
Da controllare sempre prima di tutto: 
coerenza interna, 
completezza, 
verosimiglianza. 
Non buttar via mai niente e tenere traccia di quello che si fa...
Verificare, individuare errori, correggere 
Strumenti dei fogli di calcolo (come Microsoft Excel, Libre Office Calc): 
filtri e funzioni di ordinamento; 
formattazione condizionale; 
definizione esplicita dei tipi (stringa, numero, data, ...); 
semplici grafici. 
Si può fare con Microsoft Office o Libre Office Calc 
Oppure con uno strumento ad hoc: Open Refine ( openrefine.org).
Ogni colonna rappresenta e contiene uno e un solo tipo di dato. 
Ogni riga rappresenta e contiene uno e un solo oggetto 
Non possono esistere righe perfettamente vuote o identiche. 
Controlla che la struttura dei dati sia corretta: ogni colonna deve 
contenere valori dello stesso tipo (date, luoghi) 
Controlla che i dati si trovino in formato omogeneo (ad esempio la 
formattazione della data o i maiuscoli / minuscoli) 
Controlla quale sistema di numerazione stai usando. Europeo o 
anglosassone? Controlla i separatori di migliaia e decimali
Controlla che le intestazioni siano sempre nella prima riga 
Le righe vuote non devono esistere. Le celle vuote possono invece 
indicare valori mancanti (tutte indicano sempre valori mancanti). 
Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non 
si vede! 
Controlla le somme se lavori su tabelle numeriche e le stai modificando 
Suddividi le informazioni in più colonne possibile (per esempio se si 
hanno nomi completi, meglio dividerli in “nome” e “cognome”)
Posso scegliere l'ordinamento alfabetico (A-Z o Z-A) o numerico (min-max 
o viceversa). In questo caso ordino dal più grande al più piccolo
Raggruppo i dati per quartiere calcolando il totale degli iscritti
Quando si hanno diverse tabelle che descrivono gli stessi elementi, 
spesso provenienti da fonti diverse, è possibile unirle e arricchire così il 
mio dataset scoprendo nuove relazione tra i dati. 
Nei fogli di calcolo: , , .
Dati sulla disoccupazione o sui costi dei servizi: quelli della 
tua città/regione sono più alti o più bassi rispetto ad altri territori? 
- Le fonti ufficiali tendono a concentrarsi su dati del quarto 
trimestre. Il contesto e la prospettiva cambiano osservando dati che 
mostrano lo sviluppo di un fenomeno negli ultimi 5 o 10 anni. 
- Un'istituzione annuncia milioni di euro di investimenti per le 
scuole. Fai qualche conto: quanti studenti potranno beneficiarne, su quale 
periodo di tempo? Ricalcolare il valore pro capite di programmi di 
investimento spesso può chiarire il reale significato. 
- Prova ad eseguire semplici controlli di 
somme e totali. Verifica le modalità con le quali i dati sono stati raccolti e 
con quali ipotesi o modelli. Qual è il tasso di disoccupazione nel tuo 
paese? Controllalo e confrontalo con altri paesi o modelli alternativi.
Come non era mai successo nelle nostre vite, oggi abbiamo 
accesso a un’infinità di informazioni libere e gratuite. Con gli 
strumenti giusti possiamo cominciare a dare un senso a 
questi dati per vedere schemi e trend che altrimenti per noi 
sarebbero invisibili. Trasformando i numeri in forma grafica, 
permetteremo ai lettori di conoscere le storie che quei numeri 
nascondono. 
Alberto Cairo, "The functional Art"
Principali strumenti visualizzazione: 
grafici base (linee, barre, torte): 
http://datawrapper.it 
mappe geografiche: 
http://cartodb.com 
grafici gerarchici: 
http://raw.densitydesign.org/ 
grafi (detti anche reti): 
http://gephi.org 
timeline: 
http://timeline.knightlab.com/ 
Ma on line ci sono tantissimi altri strumenti: l'importante è avere chiaro il 
proprio obiettivo e non avere paura di sperimentare!
Con Datawrapper è possibile realizzare grafici interattivi in pochi minuti 
(grafici a barre, torte, istogrammi, grafici a linee, e qualche mappa)
CartoDB permette di creare mappe interattive in pochi istanti. 
L'importante è che la tua tabella abbia dei dati geografici.
RAW permette di gestire bene le relazioni tra i dati e la loro gerarchia. E' 
facile da usare provando gli esempi già presenti (esempio di quali 
ingredienti sono fatti i cocktail?).
Costruire una cronistoria degli eventi può essere molto utile. Si può fare 
con Timeline.JS, ad esempio inserendo in una tabella vari articoli in 
successione temporale (guarda la timeline del terremoto in Emilia).
Quali sono le relazioni tra i dati? E' possibile visualizzarle con GEPHI, un 
software di Networl Analysis (basato sui grafi). E' spesso usato per vedere 
le connessioni tra gli utenti su Twitter o le amicizie su Facebook.
Spesso visualizzare i dati può aiutarci a "scoprire" delle notizie 
Quanto è grande la differenza del tasso di disoccupazione tra due o più 
territori? Com'è cambiato un fenomeno nel tempo? 
Visualizzare questi dati può aiutarci a comprendere in maniera più 
immediata un fenomeno e fare prendere al nostro lavoro giornalistico 
un'altra direzione: torniamo indietro, cerchiamo altri dati, li mettiamo a 
confronto.
Le best practices del Data Journalism prevedono che insieme alle 
inchieste vengano pubblicati i dati relativi, per permettere di verificare le 
visualizzazioni e i risultati. Noi abbiamo costruito
Andrea Nelson Mauro / "nelsonmau" 
nelsonmau@dataninja.it 
@nelsonmau 
www.dataninja.it 
http://school.dataninja.it 
http://dataninja.it/newsletter 
http://datamediahub.it
Violazioni varchi telecontrollati, SIRIO e RITA
(SOD) 
Dati.gov.it 
Open Data Census 
Licenze Creative Commons 
Agenda Digitale Italiana 
Spaghetti Open Data 
Mailing list pubblica di Spaghetti Open Data 
Open Bilanci 
Open Coesione 
CIRSFID - Università di Bologna 
Codice dell'Amministrazione Digitale 
Open Definition 
Confiscati Bene 
The Migrants' Files 
Open Data Bologna 
Five star open data
(estrazione tabelle da pdf) 
(pulizia dati) 
Tabula 
Open Refine

Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014

  • 1.
    Dalle licenze aigrafici: riusare, pulire, esplorare e visualizzare i dati Alessio Cimarelli @jenkin27 Andrea Nelson Mauro @nelsonmau www.dataninja.it Agenda Digitale - Comune di Bologna , 16 e 17 giugno 2014
  • 2.
    I dati eil contesto Le licenze Aggiornamenti sulle Linee guida AGID I formati dei dati dati strutturati e non strutturati fare scraping per creare dati strutturati Usare le tabelle con i fogli di calcolo Pulire i dati: le regole principali Tecniche avanzate: l'uso di OpenRefine Analisi: ordinare, filtrare e raggruppare i dati Aggregare dati da tabelle diverse: CercaVert e altre funzioni utili
  • 3.
    Introduzione alla DataVisualization risorse, strumenti, principali riferimenti La visualizzazione come strumenti di analisi dei dati Grafici di base con : come scegliere Grafici avanzati con : visualizzare connessioni e gerarchie Mappe con : punti, bolle, choropleth, timemap Reti con : elementi di social network analysis Visualizzazione con un'overview generale
  • 4.
    Il sito diDataninja con i nostri progetti principali
  • 7.
    Informazioni, slides, esperimenti,tutorial e tool per i data journalist
  • 9.
    Eric Schmidt ,Google’s executive chairman
  • 10.
    Per cercarli, trovarli,riusarli e dare loro contesto Per analizzarli e verificare se possono essere utili Per costruire informazioni maggiormente accurate e basate su elementi statistici
  • 12.
    Cominciamo da unadefinizione Singoli pezzi di informazione di ogni natura, descrizioni di fatti riproducibili senza ambiguità, parti di informazioni strutturate che possono essere archiviate in formato digitale Maurizio Napolitano, Technologist presso Fondazione Bruno Kessler (Trento)
  • 13.
    Cominciamo da unadefinizione Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o condivisione allo stesso modo Open Definition: http://opendefinition.org/od
  • 16.
  • 17.
    Se voglio pubblicaredei dati in "Open Data" devo: dei dati (chi li ha prodotti? Il classico esempio dei dati del turismo, generalmente raccolti e diffusi dalle Camere di Commercio) diritti altrui o il segreto statistico le verifiche necessarie e preliminari alla pubblicazione. E inoltre devo tenere a mente che: Non posso concedere una licenza che rilasci più diritti di quanti non ne abbiano i dati di provenienza Devo sempre tenere in considerazione la possibilità di rimuovere dei dati (o modificarne la licenza) se emerge che la titolarità non è mia.
  • 18.
    Le licenze utilizzabiliper il rilascio dei dati secondo AGID http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf
  • 19.
    , giurista, espertodi diritto digitale | http://goo.gl/zmjbY7
  • 21.
    Formati dei datidigitali già utilizzabili, solo da pulire e controllare Si possono analizzare con Ms Excel e Libre Office Calc, mysql (...) È buona norma pubblicarli con i
  • 22.
    Sono dati nonstrutturati se non è possibile analizzarli tramite un'applicazione di foglio di calcolo Pagine web in formato html Documenti di testo Documenti in formato pdf
  • 23.
    L'arte dello scraping:semplice o complessa? (dati da estrarre da pdf) (dati da estrarre da pagine html) sviluppate ad hoc con Python / Javascript / Java
  • 25.
    Il nostro puntodi partenza è una tabella di dati strutturati http://dati.comune.bologna.it/node/340
  • 26.
    Di fronte all’enormevarietà del mondo, il computer comprende pochi tipi di variabili: numeri interi (con segno, incluso lo 0) numeri decimali (con segno) date e orari stringhe di caratteri (case sensitive) valore mancante (o NULL)
  • 27.
    Verificare, individuare errori,correggere Premesse sbagliate portano (quasi) sempre a conclusioni sbagliate, anche se il ragionamento è corretto. Pure se affidabile, anche la fonte può sbagliare. Così come può barare, truccare, mentire, nascondere, omettere, ecc. Da controllare sempre prima di tutto: coerenza interna, completezza, verosimiglianza. Non buttar via mai niente e tenere traccia di quello che si fa...
  • 28.
    Verificare, individuare errori,correggere Strumenti dei fogli di calcolo (come Microsoft Excel, Libre Office Calc): filtri e funzioni di ordinamento; formattazione condizionale; definizione esplicita dei tipi (stringa, numero, data, ...); semplici grafici. Si può fare con Microsoft Office o Libre Office Calc Oppure con uno strumento ad hoc: Open Refine ( openrefine.org).
  • 29.
    Ogni colonna rappresentae contiene uno e un solo tipo di dato. Ogni riga rappresenta e contiene uno e un solo oggetto Non possono esistere righe perfettamente vuote o identiche. Controlla che la struttura dei dati sia corretta: ogni colonna deve contenere valori dello stesso tipo (date, luoghi) Controlla che i dati si trovino in formato omogeneo (ad esempio la formattazione della data o i maiuscoli / minuscoli) Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? Controlla i separatori di migliaia e decimali
  • 30.
    Controlla che leintestazioni siano sempre nella prima riga Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti (tutte indicano sempre valori mancanti). Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede! Controlla le somme se lavori su tabelle numeriche e le stai modificando Suddividi le informazioni in più colonne possibile (per esempio se si hanno nomi completi, meglio dividerli in “nome” e “cognome”)
  • 32.
    Posso scegliere l'ordinamentoalfabetico (A-Z o Z-A) o numerico (min-max o viceversa). In questo caso ordino dal più grande al più piccolo
  • 34.
    Raggruppo i datiper quartiere calcolando il totale degli iscritti
  • 35.
    Quando si hannodiverse tabelle che descrivono gli stessi elementi, spesso provenienti da fonti diverse, è possibile unirle e arricchire così il mio dataset scoprendo nuove relazione tra i dati. Nei fogli di calcolo: , , .
  • 36.
    Dati sulla disoccupazioneo sui costi dei servizi: quelli della tua città/regione sono più alti o più bassi rispetto ad altri territori? - Le fonti ufficiali tendono a concentrarsi su dati del quarto trimestre. Il contesto e la prospettiva cambiano osservando dati che mostrano lo sviluppo di un fenomeno negli ultimi 5 o 10 anni. - Un'istituzione annuncia milioni di euro di investimenti per le scuole. Fai qualche conto: quanti studenti potranno beneficiarne, su quale periodo di tempo? Ricalcolare il valore pro capite di programmi di investimento spesso può chiarire il reale significato. - Prova ad eseguire semplici controlli di somme e totali. Verifica le modalità con le quali i dati sono stati raccolti e con quali ipotesi o modelli. Qual è il tasso di disoccupazione nel tuo paese? Controllalo e confrontalo con altri paesi o modelli alternativi.
  • 38.
    Come non eramai successo nelle nostre vite, oggi abbiamo accesso a un’infinità di informazioni libere e gratuite. Con gli strumenti giusti possiamo cominciare a dare un senso a questi dati per vedere schemi e trend che altrimenti per noi sarebbero invisibili. Trasformando i numeri in forma grafica, permetteremo ai lettori di conoscere le storie che quei numeri nascondono. Alberto Cairo, "The functional Art"
  • 39.
    Principali strumenti visualizzazione: grafici base (linee, barre, torte): http://datawrapper.it mappe geografiche: http://cartodb.com grafici gerarchici: http://raw.densitydesign.org/ grafi (detti anche reti): http://gephi.org timeline: http://timeline.knightlab.com/ Ma on line ci sono tantissimi altri strumenti: l'importante è avere chiaro il proprio obiettivo e non avere paura di sperimentare!
  • 40.
    Con Datawrapper èpossibile realizzare grafici interattivi in pochi minuti (grafici a barre, torte, istogrammi, grafici a linee, e qualche mappa)
  • 41.
    CartoDB permette dicreare mappe interattive in pochi istanti. L'importante è che la tua tabella abbia dei dati geografici.
  • 42.
    RAW permette digestire bene le relazioni tra i dati e la loro gerarchia. E' facile da usare provando gli esempi già presenti (esempio di quali ingredienti sono fatti i cocktail?).
  • 43.
    Costruire una cronistoriadegli eventi può essere molto utile. Si può fare con Timeline.JS, ad esempio inserendo in una tabella vari articoli in successione temporale (guarda la timeline del terremoto in Emilia).
  • 44.
    Quali sono lerelazioni tra i dati? E' possibile visualizzarle con GEPHI, un software di Networl Analysis (basato sui grafi). E' spesso usato per vedere le connessioni tra gli utenti su Twitter o le amicizie su Facebook.
  • 45.
    Spesso visualizzare idati può aiutarci a "scoprire" delle notizie Quanto è grande la differenza del tasso di disoccupazione tra due o più territori? Com'è cambiato un fenomeno nel tempo? Visualizzare questi dati può aiutarci a comprendere in maniera più immediata un fenomeno e fare prendere al nostro lavoro giornalistico un'altra direzione: torniamo indietro, cerchiamo altri dati, li mettiamo a confronto.
  • 46.
    Le best practicesdel Data Journalism prevedono che insieme alle inchieste vengano pubblicati i dati relativi, per permettere di verificare le visualizzazioni e i risultati. Noi abbiamo costruito
  • 47.
    Andrea Nelson Mauro/ "nelsonmau" nelsonmau@dataninja.it @nelsonmau www.dataninja.it http://school.dataninja.it http://dataninja.it/newsletter http://datamediahub.it
  • 48.
  • 49.
    (SOD) Dati.gov.it OpenData Census Licenze Creative Commons Agenda Digitale Italiana Spaghetti Open Data Mailing list pubblica di Spaghetti Open Data Open Bilanci Open Coesione CIRSFID - Università di Bologna Codice dell'Amministrazione Digitale Open Definition Confiscati Bene The Migrants' Files Open Data Bologna Five star open data
  • 50.
    (estrazione tabelle dapdf) (pulizia dati) Tabula Open Refine