Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ETL per portali Open
Data
Cul.T.A. Open Data Summer School
Ravenna 14/06/2017
Il processo di valorizzazione dei dati
http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
ETL
Architettura
http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html
Un esempio di ETL open source -
Pentaho Data Integration
Un esempio di ETL - Pentaho Data
Integration
● Open source
● Multipiattaforma
● GUI based
● Estensibile
Un esempio di ETL - Pentaho Data
Integration
Documentazione
Un esempio di ETL - Pentaho Data
Integration
Transformations vs Jobs
- Transformations are about moving and transforming r...
Un esempio di ETL - Pentaho Data
Integration
Componenti
Spoon - GUI per progettare job e trasformazioni
Kitchen - CL per e...
Cosa può fare per noi un tool ETL
Automatizzare i task necessari alla pubblicazione di un
dataset
● Harvesting da fonti et...
Harvesting
Enrichment - Mashup
Qualità dei dati
● Accuratezza
Grado di aderenza alla realtà
● Completezza
Quantità di informazione presente nel dato
● At...
Metodi per il miglioramento della qualità
Pulizia e quality assurance
● Data profiling
● Definizione del workflow di validazione e pulizia
● Implementazione su ETL ...
Pulizia e quality assurance - Data
profiling
http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Lookup
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Notifica
Alimentazione del portale
Alimentazione di una staging area
Harvest
Clean - Enrich
Stage
Publish
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2...
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2...
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione...
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione...
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione...
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione...
Dove trovarmi
Franco Morelli
Il mio blog www.opendatabassaromagna.it
Twitter https://twitter.com/eccoilmoro
Associazione O...
Upcoming SlideShare
Loading in …5
×

Etl per portali open data

498 views

Published on

Tecnologie ETL nel processo di pubblicazione di open data. Casi d'uso. Summershool CulTA

Published in: Technology

Etl per portali open data

  1. 1. ETL per portali Open Data Cul.T.A. Open Data Summer School Ravenna 14/06/2017
  2. 2. Il processo di valorizzazione dei dati http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
  3. 3. ETL
  4. 4. Architettura http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html
  5. 5. Un esempio di ETL open source - Pentaho Data Integration
  6. 6. Un esempio di ETL - Pentaho Data Integration ● Open source ● Multipiattaforma ● GUI based ● Estensibile
  7. 7. Un esempio di ETL - Pentaho Data Integration Documentazione
  8. 8. Un esempio di ETL - Pentaho Data Integration Transformations vs Jobs - Transformations are about moving and transforming rows from source to target. - Jobs are more about high level flow control: executing transformations, sending mails on failure, transferring files via FTP, ... - Another key difference is that all the steps in a transformation execute in parallel, but the steps in a job execute in order.
  9. 9. Un esempio di ETL - Pentaho Data Integration Componenti Spoon - GUI per progettare job e trasformazioni Kitchen - CL per eseguire e orchestrare jobs Pan - CL per eseguire trasformazioni Carte - CL per gestire esecuzione di trasformazioni in cluster
  10. 10. Cosa può fare per noi un tool ETL Automatizzare i task necessari alla pubblicazione di un dataset ● Harvesting da fonti eterogenee ● Enrichment-mashup ● Pulizia e quality assurance ● Alimentazione del portale open data
  11. 11. Harvesting
  12. 12. Enrichment - Mashup
  13. 13. Qualità dei dati ● Accuratezza Grado di aderenza alla realtà ● Completezza Quantità di informazione presente nel dato ● Attualità Grado di rappresentatività nel momento in cui si usa il dato ● Consistenza Coerenza nella rappresentazione
  14. 14. Metodi per il miglioramento della qualità
  15. 15. Pulizia e quality assurance ● Data profiling ● Definizione del workflow di validazione e pulizia ● Implementazione su ETL dei controlli e notifica al processo NO QUALITY => NO VALUE
  16. 16. Pulizia e quality assurance - Data profiling http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
  17. 17. Pulizia e quality assurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  18. 18. Pulizia e quality assurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  19. 19. Pulizia e quality assurance - Lookup http://wiki.pentaho.com/display/EAI/Data+Validator
  20. 20. Pulizia e quality assurance - Notifica
  21. 21. Alimentazione del portale
  22. 22. Alimentazione di una staging area Harvest Clean - Enrich Stage Publish
  23. 23. Esempi di utilizzo - Chicago
  24. 24. Esempi di utilizzo - Chicago
  25. 25. Esempi di utilizzo - Chicago
  26. 26. Esempi di utilizzo - Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  27. 27. Esempi di utilizzo - Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  28. 28. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  29. 29. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  30. 30. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  31. 31. Esempi di utilizzo - Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  32. 32. Dove trovarmi Franco Morelli Il mio blog www.opendatabassaromagna.it Twitter https://twitter.com/eccoilmoro Associazione OnData http://ondata.it/ Facebook https://www.facebook.com/groups/opendataemiliar omagna Spaghetti Open Data http://www.spaghettiopendata.org/ Linkedin https://it.linkedin.com/in/francomorellisoftware

×