M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso

  • 26,106 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
26,106
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
18
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Big Data e Open Data: Istruzioni (o quasi) per l’Uso Monica Scannapieco Direzione delle Tecnologie Informatiche e della Comunicazione - Istat
  • 2. Shared Data: Big+Open+Linked+… Big Data More Data Open Data Shared Data Linked Data More Sources More Stakeholders More Context Social Data More Relationships Source: Gartner Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 3. Tipologie di Sorgenti Big - 1 Data exhaust Behaviour data & Crowd-sourced data Sensor data
  • 4. Tipologie di Sorgenti Big - 2 Data Exhaust Dati transazionali raccolti in modo passivo Relativi a transazioni di soggetti fisici ma generati in modo passivo (ossia non direttamente generati da soggetti fisici) Esempi : Log telefonici Log di transazioni commerciali Log di ricerche web Record ospedalieri Transazioni bancarie o assicurative
  • 5. Tipologie di Sorgenti Big - 3 Behaviour data & Crowd-sourced data Interazioni con news media e social media, job posting Sono i soggetti fisici a produrre attivamente dati relativi alle proprie intenzioni, sensazioni o esigenze (anche tramite dispositivi mobili) Esempi : Posts su blog Messaggi su Twitter User generated maps
  • 6. Tipologie di Sorgenti Big - 4 Sensor data Dati relativi a emissioni di luce, parametri ambientali, traffico, etc. Dispositivi fisici rilevano in modo remoto (remote sensing) proprietà di oggetti fisici Esempi : Valori relativi all’inquinamento Numero di veicoli in transito
  • 7. Disponibilità dei dati Exhaust data: Google Trends http://www.google.com/trends/ Alert: Indice relativo Problema semantico Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 8. Qualità Behaviour data: Analisi su social media (Twitter) olandesi hanno mostrato che circa il 50% dei messaggi sono ‘pointless babble’ [Daas et al., 2012] Twitter as a potential data source for statistics. The Hague/Heerlen: Statistic Netherlands. Available at: URL=http://www.cbs.nl/NR/rdonlyres/04B7DD23-5443-4F98-B4661C67AAA19527/0/201221x10pub.pd Data Exhaust: Assessment della qualità del Deep Web nei domini “Azioni” e “Voli” Costruzione di Gold Standard 70% valori inconsistenti tre le fonti 70% valori inaccurati wrt gold standard [Li et al. 2013] Xian Li,Xin Luna Dong,K.B. Lyons,W., D. Srivastava, Truth Finding on the Deep Web: Is the Problem Solved?, PVLDB 2013 Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 9. Ma...anche molte opportunità Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 10. E gli Open Data? 5 Star Model (Tim Berners-Lee) Come sotto ma collegamenti tra i dati pubblicati in RDF Linked Open Data Come sotto ma uso di standard del W3C (RDF e SPARQL) Resource Description Framework Come (2) ma con formato non proprietario (e.g. CSV invece di excel) OPEN FORMAT Disponibile in formato machine-readable REUSABLE Disponibili sul Web (in qualunque formato) ma con una licenza open OPEN LICENSE Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 11. Open Data in Istat – attuale Produzione statistica dell’Istat disponibile come open data I.stat: Web warehouse dei dati prodotti dall’Istat nelle varie aree tematiche LOD => http://dati.istat.it/ Formati di esportazione: CSV SDMX (Statistical Data and Metadata eXchange) RDF OPEN FORMAT REUSABLE OPEN LICENSE Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 12. Open Data in Istat – futuro Progetti in corso e futuri: Potenziamento del SEP attraverso un canale di uscita RDF Pubblicazione in RDF delle classificazioni ufficiali Use case della pubblicazione in RDF di dati del Censimento della Popolazione Open Data Lab: test, pilot LOD RDF OPEN FORMAT REUSABLE OPEN LICENSE Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 13. Affidabilità “Provenance is the number one issue that we face when publishing government data in data.gov.uk” John Sheridan, UK National Archives, data.gov.uk Definizione operativa di provenance: “Provenance of a resource is a record that describes entities and processes involved in producing and delivering or otherwise influencing that resource” (W3C Working group on provenance) http://www.w3.org/2011/prov/wiki/Main_ Page Monica Scannapieco, Smart City Exhibition, 17/10/2013
  • 14. Conclusioni Big Data: Tanta informazione potenziale ma necessità di filtrare, «metadatare», gestire… Open Data: Iniziative come i LOD strutturano i dati e semplificano gestione e accesso, ma stadio ancora iniziale Domanda: Devono gli operatori della conoscenza considerare gli shared data come nuova fonte informativa? Risposta: Ovviamente si, ma con un vero «manuale di istruzioni per l’uso» ☺! Monica Scannapieco, Smart City Exhibition, 17/10/2013