ETL per portali Open
Data
Cul.T.A. Open Data Summer School
Ravenna 14/06/2017
Il processo di valorizzazione dei dati
http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
ETL
Architettura
http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html
Un esempio di ETL open source -
Pentaho Data Integration
Un esempio di ETL - Pentaho Data
Integration
● Open source
● Multipiattaforma
● GUI based
● Estensibile
Un esempio di ETL - Pentaho Data
Integration
Documentazione
Un esempio di ETL - Pentaho Data
Integration
Transformations vs Jobs
- Transformations are about moving and transforming rows from source to
target.
- Jobs are more about high level flow control: executing transformations, sending
mails on failure, transferring files via FTP, ...
- Another key difference is that all the steps in a transformation execute in
parallel, but the steps in a job execute in order.
Un esempio di ETL - Pentaho Data
Integration
Componenti
Spoon - GUI per progettare job e trasformazioni
Kitchen - CL per eseguire e orchestrare jobs
Pan - CL per eseguire trasformazioni
Carte - CL per gestire esecuzione di trasformazioni in cluster
Cosa può fare per noi un tool ETL
Automatizzare i task necessari alla pubblicazione di un
dataset
● Harvesting da fonti eterogenee
● Enrichment-mashup
● Pulizia e quality assurance
● Alimentazione del portale open data
Harvesting
Enrichment - Mashup
Qualità dei dati
● Accuratezza
Grado di aderenza alla realtà
● Completezza
Quantità di informazione presente nel dato
● Attualità
Grado di rappresentatività nel momento in cui si usa il dato
● Consistenza
Coerenza nella rappresentazione
Metodi per il miglioramento della qualità
Pulizia e quality assurance
● Data profiling
● Definizione del workflow di validazione e pulizia
● Implementazione su ETL dei controlli e notifica al processo
NO QUALITY => NO VALUE
Pulizia e quality assurance - Data
profiling
http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Data
validator
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Lookup
http://wiki.pentaho.com/display/EAI/Data+Validator
Pulizia e quality assurance - Notifica
Alimentazione del portale
Alimentazione di una staging area
Harvest
Clean - Enrich
Stage
Publish
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Chicago
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
Esempi di utilizzo - Valencia
https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Esempi di utilizzo - Regione Lombardia
http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
Dove trovarmi
Franco Morelli
Il mio blog www.opendatabassaromagna.it
Twitter https://twitter.com/eccoilmoro
Associazione OnData http://ondata.it/
Facebook
https://www.facebook.com/groups/opendataemiliar
omagna
Spaghetti Open Data
http://www.spaghettiopendata.org/
Linkedin
https://it.linkedin.com/in/francomorellisoftware

Etl per portali open data

  • 1.
    ETL per portaliOpen Data Cul.T.A. Open Data Summer School Ravenna 14/06/2017
  • 2.
    Il processo divalorizzazione dei dati http://www.dati.gov.it/sites/default/files/LG2016_0.pdf
  • 3.
  • 4.
  • 5.
    Un esempio diETL open source - Pentaho Data Integration
  • 6.
    Un esempio diETL - Pentaho Data Integration ● Open source ● Multipiattaforma ● GUI based ● Estensibile
  • 7.
    Un esempio diETL - Pentaho Data Integration Documentazione
  • 8.
    Un esempio diETL - Pentaho Data Integration Transformations vs Jobs - Transformations are about moving and transforming rows from source to target. - Jobs are more about high level flow control: executing transformations, sending mails on failure, transferring files via FTP, ... - Another key difference is that all the steps in a transformation execute in parallel, but the steps in a job execute in order.
  • 9.
    Un esempio diETL - Pentaho Data Integration Componenti Spoon - GUI per progettare job e trasformazioni Kitchen - CL per eseguire e orchestrare jobs Pan - CL per eseguire trasformazioni Carte - CL per gestire esecuzione di trasformazioni in cluster
  • 10.
    Cosa può fareper noi un tool ETL Automatizzare i task necessari alla pubblicazione di un dataset ● Harvesting da fonti eterogenee ● Enrichment-mashup ● Pulizia e quality assurance ● Alimentazione del portale open data
  • 11.
  • 12.
  • 13.
    Qualità dei dati ●Accuratezza Grado di aderenza alla realtà ● Completezza Quantità di informazione presente nel dato ● Attualità Grado di rappresentatività nel momento in cui si usa il dato ● Consistenza Coerenza nella rappresentazione
  • 14.
    Metodi per ilmiglioramento della qualità
  • 15.
    Pulizia e qualityassurance ● Data profiling ● Definizione del workflow di validazione e pulizia ● Implementazione su ETL dei controlli e notifica al processo NO QUALITY => NO VALUE
  • 16.
    Pulizia e qualityassurance - Data profiling http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner
  • 17.
    Pulizia e qualityassurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  • 18.
    Pulizia e qualityassurance - Data validator http://wiki.pentaho.com/display/EAI/Data+Validator
  • 19.
    Pulizia e qualityassurance - Lookup http://wiki.pentaho.com/display/EAI/Data+Validator
  • 20.
    Pulizia e qualityassurance - Notifica
  • 21.
  • 22.
    Alimentazione di unastaging area Harvest Clean - Enrich Stage Publish
  • 23.
  • 24.
  • 25.
  • 26.
    Esempi di utilizzo- Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  • 27.
    Esempi di utilizzo- Valencia https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf
  • 28.
    Esempi di utilizzo- Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 29.
    Esempi di utilizzo- Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 30.
    Esempi di utilizzo- Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 31.
    Esempi di utilizzo- Regione Lombardia http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf
  • 32.
    Dove trovarmi Franco Morelli Ilmio blog www.opendatabassaromagna.it Twitter https://twitter.com/eccoilmoro Associazione OnData http://ondata.it/ Facebook https://www.facebook.com/groups/opendataemiliar omagna Spaghetti Open Data http://www.spaghettiopendata.org/ Linkedin https://it.linkedin.com/in/francomorellisoftware