ODDI 2013 DCAT per descrivere gli Open Data della PA

1,588 views

Published on

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,588
On SlideShare
0
From Embeds
0
Number of Embeds
825
Actions
Shares
0
Downloads
18
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

ODDI 2013 DCAT per descrivere gli Open Data della PA

  1. 1.  Agenda DCAT PER DESCRIVERE GLI OPEN DATA DELLA PA Open Data Day Italia 2013 - Pubblicazione OD e LOD  Scopo dell’attività  Fonti censite  Ontologie usate: DCAT e VOID  Mapping CKAN – DCAT/VOID  Importazione con ckan2triple  Pubblicazione come LOD  Osservazioni
  2. 2. Scopo delle attività  Avviare un censimento dei cataloghi open data delle PA attualmente pubblicati  Valutare le piattaforme di pubblicazione usate e i servizi erogati per l’accesso  Sviluppare un sistema di importazione/page-scraping e allineamento (semi) automatico rispetto ad un sub-set di fonti preselezionato  Valutare e testare gli attuali vocabolari standard per descrivere i metadati di cataloghi e dataset  Aggregare e ripubblicare le meta informazioni acquisite in formato Linked Open Data  Stabilire i primi punti di contatto e sovrapposizioni in termini classificazione e tagging dei dataset pubblicati Open Data Day 2013 – Pubblicazione OD & LOD 2
  3. 3. Fonti censite  Allo stato attuale sono state censite le seguenti fonti: 1. Open Data della Provincia di Roma 2. Open Data della Regione Toscana 3. Open Data della Regione Piemonte 4. Open Data del Comune di Firenze  Le prime tre pubblicano i dati tramite portale basato su piattaforma CKAN [http://ckan.org/]  Dati accessibili tramite chiamate a servizi REST  Formati di risposta JSON direttamente usabili  Compatibilità con gli standard de facto per la descrizione di cataloghi OD: DCAT e VOID Open Data Day 2013 – Pubblicazione OD & LOD 3
  4. 4. Ontologie per descrivere dataset: DCAT e VOID  Per descrivere i cataloghi e i relativi dataset sono stati utilizzati due vocabolari definiti appositamente per tali scopi e attualmente supportati dal W3C e da molte piattaforme Open Data.  DCAT [http://www.w3.org/TR/vocab-dcat/]: è un vocabolario RDF/OWL per descrivere cataloghi e Dataset Open Data sul web a prescindere dai formati di distribuzione. Attualmente è un Working Draft del W3C.  VOID [http://www.w3.org/TR/void/]: è un vocabolario RDF/OWL per la descrizione di cataloghi e dataset di tipo Linked Open Data. E’ un “Interest Group” del W3C. Open Data Day 2013 – Pubblicazione OD & LOD 4
  5. 5. DCAT e VOID: considerazioni  Le due ontologie non sono esplicitamente correlate fra loro  Entrambe definiscono il concetto di Dastaset  DCAT è gerneral-purpose e particolarmente adatto a descrivere qualsiasi Open Data  VOID è specifica per chi pubblica i dati in modalità LOD e quindi usando RDF come formato standard  VOID può essere vista come una specializzazione di DCAT. Per le nostre attività è stata considerata proprio in questi termini  Sia DCAT che VOID utilizzano altri vocabolari standard del Semantic Web come dc-terms e foaf. Open Data Day 2013 – Pubblicazione OD & LOD 5
  6. 6. DCAT più in dettaglio  Esempio di catalogo e dataset inDCAT :catalog a dcat:Catalog ; dct:title "Imaginary catalog" ; rdfs:label "Imaginary catalog" ; foaf:homepage <http://example.org/catalog> ; dct:publisher :transparency-office ; dcat:themes :themes ; dct:language "en"^^xsd:language ; dcat:dataset :dataset/001 ; . :dataset/001 a dcat:Dataset ; dct:title "Imaginary dataset" ; dcat:keyword "accountability","transparency" ,"payments" ; dcat:theme :themes/accountability ; dct:issued "2011-12-05"^^xsd:date ; dct:updated "2011-12-05"^^xsd:date ; dct:publisher :agency/finance-ministry ; dct:accrualPeriodicity "every six months" ; dct:language "en"^^xsd:language ; dcat:Distribution :dataset/001/csv ; . Introduzione all’approccio semantico alla governance IT 6
  7. 7. VOID più in dettaglio Open Data Day 2013 – Pubblicazione OD & LOD 7
  8. 8. Mapping CKAN JSON –> DCAT/VOID Open Data Day 2013 – Pubblicazione OD & LOD 8  CKAN mette a disposizione diversi servizi REST richiamabili tramite URL. In particolare due di questi sono stati usati per ottenere l’elenco dei dataset di un catalogo e il dettaglio di ogni singolo dataset (esempio con catalogo provincia Roma):  Es. di chiamata per elenco dataset: http://www.opendata.provincia.roma.it/api/rest/package  Es. di chiamata per dettaglio di un dataset: http://www.opendata.provincia.roma.it/api/rest/package/<id_dataset> JSON di un dataset Dataset descritto con DCAT (RDF) Mapping JSON/DCAT
  9. 9. Tabella di mapping CKAN-JSON -> DCAT Open Data Day 2013 – Pubblicazione OD & LOD 9
  10. 10. Importazione con CKAN2Triples  CKAN2Triples interroga  prima l’url per avere la lista dei dataset di un catalogo : <provider>/api/rest/package  poi per ogni dataset nella lista restituita: <provider>/api/rest/package/<dataset-id>  CKAN2Triples ha un file di configurazione per ogni “provider” che esplicita il mapping fra i campi dei JSON di risposta e le proprietà ontologiche da generare Open Data Day 2013 – Pubblicazione OD & LOD 10  Per importare in maniera automatica i meta dati dei cataloghi e dataset pubblicati su piattaforma CKAN (Prov. Roma, Toscana e Piemonte) è stato sviluppato un piccolo tool con node.js chiamato CKAN2Triples API REST API REST API REST JSON JSON JSON provinciaRoma.n3 regioneToscana.n3 regionePiemonte.n3 RDF RDF RDF
  11. 11. CKAN2Triples: esempio di triple prodotte Open Data Day 2013 – Pubblicazione OD & LOD 11 <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/publisher> "Provincia di Roma". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/modified> "2012-07-16T12:22:41.252403". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/created> "2012-07-04T15:44:55.299869". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.xml>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://purl.org/dc/terms/description> "Popolazione residente nei comuni (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://rdfs.org/ns/void#format> "xml". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.csv>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://purl.org/dc/terms/description> "CSV - Popolazione residente nei comuni (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://rdfs.org/ns/void#format> "csv". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.tsv>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://purl.org/dc/terms/description> "TSV - Popolazione residente nei comuni (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://rdfs.org/ns/void#format> "tsv". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.xml>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://purl.org/dc/terms/description> "Residenti suddivisi per fasce di età (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://rdfs.org/ns/void#format> "xml". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEtaExIta.csv>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://purl.org/dc/terms/description> "CSV Excel Ita - Residenti suddivisi per fasce di età (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://rdfs.org/ns/void#format> "csv". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.tsv>. <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://purl.org/dc/terms/description> "TSV - Residenti suddivisi per fasce di età (anni 2002-2011)". <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://rdfs.org/ns/void#format> "tsv".
  12. 12. Pubblicare i meta dati come LOD  I meta dati in formato RDF/DCAT sono poi stati importati dentro un triplestore e resi accessibili nei seguenti modi:  Interrogabili direttamente via endpoint SPARQL : http://data.opendataday.it/sparql  Consultabile in modalità Linked Data: es. http://data.opendataday.it/page/dati.provinciaRoma  Consultabile in modalità LOD grafica: http://lodlive.it/?http://data.opendataday.it/resource/dati.provinciaRoma Open Data Day 2013 – Pubblicazione OD & LOD 12 VIRTUOSO (triplestore) SPARQL end-point PUBBY (Linked Data Browsing) LODLive (LD Browsing grafico) RDF RDF RDF
  13. 13. Il portale dei dati censiti Open Data Day 2013 – Pubblicazione OD & LOD 13 Per vedere i risultati vistate http://data.opendataday.it Il portale dell’Open Data Day Italiano http://opendataday.it/
  14. 14. Considerazioni …  Non esiste una piattaforma unica di pubblicazione degli Open Data della PA e quindi neanche un formato comune di interoperabilità  DCAT e VOID sono vocabolari sufficientemente ricchi e completi per descrivere gli open data e quindi potenzialmente candidabili come standard  DCAT e VOID devono essere integrati in modo da poter essere uno la generalizzazione dell’altro. Open Data Day 2013 – Pubblicazione OD & LOD 14  I dati importati si sono dimostrati immediatamente sovrapponibili e integrabili rispetto ad alcuni tag di classificazione comune:  il tag "turismo" via SPARQL (link alla query)  il tag "università" via Pubby (http://data.opendataday.it/page/tag/universita)  Si possono immediatamente avere alcune metriche rispetto al campione considerato su:  Numero di dataset pubblicati (link alla query)  Numero di file distribuiti (link alla query)
  15. 15. Contributors  Diego Valerio Camarda (Regesta.com)  Infrastruttura del portale http://data.opendataday.it  Homepage del portale http://data.opendataday.it  LODLive  Ideazione e sviluppo CKAN2Triples  Matteo Busanelli (Imola Informatica)  Integrazione DCAT - VOID  Mapping semantico JASON – DCAT/VOID  Configurazione Linked Data Browser tool (Pubby)  Ideazione e sviluppo RSS2RDF_DCAT Open Data Day 2013 – Pubblicazione OD & LOD 15
  16. 16. Riferimenti utili Open Data Day 2013 – Pubblicazione OD & LOD 16  CKAN: http://ckan.org/  ckan2Triples: https://github.com/dvcama/ckan2triples  data.openadataday.it: http://data.opendataday.it/  DCAT: http://www.w3.org/TR/vocab-dcat/  DCTerms: http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=terms#  FOAF: http://www.foaf-project.org/  Linked Open Data: http://linkeddata.org/  LODLive: http://lodlive.it/  Node.js: http://nodejs.org/  Open Data Day 2013: http://opendataday.org/  Open Data Day Italia 2013: http://opendataday.it/  OWL: http://www.w3.org/TR/owl-features/  Pubby: http://wifo5-03.informatik.uni-mannheim.de/pubby/  RDF: http://www.w3.org/RDF/  SPARQL: http://www.w3.org/TR/rdf-sparql-query/  Virtuoso: http://virtuoso.openlinksw.com/  VOID: http://www.w3.org/TR/void/

×