M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
1. Big Data e Open Data:
Istruzioni (o quasi) per l’Uso
Monica Scannapieco
Direzione delle Tecnologie Informatiche e della Comunicazione - Istat
2. Shared Data: Big+Open+Linked+…
Big Data
More
Data
Open
Data
Shared
Data
Linked
Data
More
Sources
More
Stakeholders
More
Context
Social Data
More
Relationships
Source: Gartner
Monica Scannapieco, Smart City Exhibition, 17/10/2013
3. Tipologie di Sorgenti Big - 1
Data exhaust
Behaviour data & Crowd-sourced data
Sensor data
4. Tipologie di Sorgenti Big - 2
Data Exhaust
Dati transazionali raccolti in modo passivo
Relativi a transazioni di soggetti fisici ma generati in modo
passivo (ossia non direttamente generati da soggetti fisici)
Esempi :
Log telefonici
Log di transazioni
commerciali
Log di ricerche web
Record ospedalieri
Transazioni bancarie o assicurative
5. Tipologie di Sorgenti Big - 3
Behaviour data & Crowd-sourced data
Interazioni con news media e social media, job posting
Sono i soggetti fisici a produrre attivamente dati relativi alle
proprie intenzioni, sensazioni o esigenze (anche tramite
dispositivi mobili)
Esempi :
Posts su blog
Messaggi su Twitter
User generated maps
6. Tipologie di Sorgenti Big - 4
Sensor data
Dati relativi a emissioni di luce, parametri ambientali, traffico, etc.
Dispositivi fisici rilevano in modo remoto (remote sensing)
proprietà di oggetti fisici
Esempi :
Valori relativi all’inquinamento
Numero di veicoli in transito
7. Disponibilità dei dati
Exhaust data: Google Trends
http://www.google.com/trends/
Alert:
Indice relativo
Problema semantico
Monica Scannapieco, Smart City Exhibition, 17/10/2013
8. Qualità
Behaviour data: Analisi su social media (Twitter) olandesi
hanno mostrato che circa il 50% dei messaggi sono
‘pointless babble’
[Daas et al., 2012] Twitter as a potential data source for statistics. The Hague/Heerlen: Statistic
Netherlands. Available at: URL=http://www.cbs.nl/NR/rdonlyres/04B7DD23-5443-4F98-B4661C67AAA19527/0/201221x10pub.pd
Data Exhaust: Assessment della qualità del Deep Web
nei domini “Azioni” e “Voli”
Costruzione di Gold Standard
70% valori inconsistenti tre le fonti
70% valori inaccurati wrt gold standard
[Li et al. 2013] Xian Li,Xin Luna Dong,K.B. Lyons,W., D. Srivastava, Truth Finding on the Deep
Web: Is the Problem Solved?, PVLDB 2013
Monica Scannapieco, Smart City Exhibition, 17/10/2013
10. E gli Open Data? 5 Star Model (Tim Berners-Lee)
Come sotto ma collegamenti
tra i dati pubblicati in RDF
Linked
Open
Data
Come sotto ma uso di standard del W3C
(RDF e SPARQL)
Resource
Description
Framework
Come (2) ma con formato non
proprietario (e.g. CSV invece di
excel)
OPEN FORMAT
Disponibile in formato
machine-readable
REUSABLE
Disponibili sul Web
(in qualunque
formato) ma con
una licenza open
OPEN LICENSE
Monica Scannapieco, Smart City Exhibition, 17/10/2013
11. Open Data in Istat – attuale
Produzione statistica dell’Istat disponibile come
open data
I.stat: Web warehouse dei dati prodotti dall’Istat
nelle varie aree tematiche
LOD
=> http://dati.istat.it/
Formati di esportazione:
CSV
SDMX (Statistical Data
and Metadata eXchange)
RDF
OPEN FORMAT
REUSABLE
OPEN LICENSE
Monica Scannapieco, Smart City Exhibition, 17/10/2013
12. Open Data in Istat – futuro
Progetti in corso e futuri:
Potenziamento del SEP
attraverso un canale di uscita
RDF
Pubblicazione in RDF delle
classificazioni ufficiali
Use case della pubblicazione in
RDF di dati del Censimento della
Popolazione
Open Data Lab: test, pilot
LOD
RDF
OPEN FORMAT
REUSABLE
OPEN LICENSE
Monica Scannapieco, Smart City Exhibition, 17/10/2013
13. Affidabilità
“Provenance is the number
one issue that we face when
publishing government data
in data.gov.uk”
John Sheridan, UK National Archives,
data.gov.uk
Definizione operativa
di provenance:
“Provenance of a resource is a
record that describes entities
and processes involved in
producing and delivering or
otherwise influencing that
resource”
(W3C Working group on
provenance)
http://www.w3.org/2011/prov/wiki/Main_
Page
Monica Scannapieco, Smart City Exhibition, 17/10/2013
14. Conclusioni
Big Data: Tanta informazione potenziale ma
necessità di filtrare, «metadatare», gestire…
Open Data: Iniziative come i LOD strutturano i
dati e semplificano gestione e accesso, ma
stadio ancora iniziale
Domanda: Devono gli operatori della conoscenza
considerare gli shared data come nuova fonte
informativa?
Risposta: Ovviamente si, ma con un vero
«manuale di istruzioni per l’uso» ☺!
Monica Scannapieco, Smart City Exhibition, 17/10/2013