SlideShare a Scribd company logo
1 of 37
Download to read offline
Uno strumento per misurare la qualità dei dati
Tell Me Quality
Marco Berlot
Qualità dei Dati
•Lo stato di completezza, validità, consistenza e
accuratezza che rende un dato efficiente per un
utilizzo specifico.
•La qualità dei dati viene identificata come il grado
con cui le caratteristiche dei dati, utilizzate in
condizioni specifiche, soddisfano determinati
requisiti.
2
Dati di Bassa Qualità
• Un nominativo scritto male ("mrio rossi" invece di "Mario Rossi") è
indice di scarsa accuratezza sintattica.
• Un termine come "Patrizia Rossi" al posto di "Patrizio Rossi" è
anche indice di non accuratezza semantica.
3
Dati di Bassa Qualità
Dati di Bassa Qualità
Dati di Bassa Qualità
E’ realmente un problema?
Attualmente la qualità dei dati è un problema per molti
professionisti operanti in un ampio settore dei sistemi
d’informazione. Uno studio aziendale ha stimato che il costo totale
per l’economia degli Stati Uniti legata ai problemi di qualità dati
superi i 600 miliardi di dollari l’anno (Eckerson, 2002).
7
8
ISO/IEC 25024:2015
9
ISO/IEC 25024:2015
10
Perché un Frontend?
Accuracy: 98,34%
Completness: 94,12%
Consistency: 95,43%
Credibility: 98%
Compliance: 97,79%
Currentness: 90%
Understandability: 0%
Confidentiality: 0%
Precision: 98%
11
Currentness
Perché un Frontend?
ACCURACY
5.783.968
- Syntactic: 98,63%
- Semantic: 97,77%
- Data accuracy assurance: 100%
- Risk of dataset inaccuracy: 5%
- Data accuracy range: 95%
12
Perché un Frontend?
13
Come funziona TMQ?
• Upload
• Selezione del tipo di Misure
• Visualizzazione dei risultati
14
Architettura
Upload
16
Shape File
“ SHACL Shapes Constraint
Language, a language for
validating RDF graphs against a
set of conditions. These conditions
are provided as shapes and other
constructs expressed in the form
of an RDF graph. RDF graphs that
are used in this manner are called
"shapes graphs" in SHACL and
the RDF graphs that are validated
against a shapes graph are called
"data graphs” vocabolario,insieme
vocabolario,vincoli dati
17
Shape File
Configurazione dello Shape File
19
Selezione Misure
20
Selezione Misure
21
Pagine interamente dinamiche
• Minor numero di linee di codice.
• Unica pagina che si crea
dinamicamente in base ai
parametri generati dal backend.
• Maggior complessità nella
scrittura all’inizio ma permette una
manutenzione del codice molto
più semplice. https://mustache.github.io/
Mustache Framework
22
Visualizzazione dei risultati
• Un risultato che riassume la
performance di ogni categoria
di misure e che permette di
confrontarle velocemente.
• Un risultato che permette di
confrontare la performance di
ogni misurazione in modo
approfondito.
Due tipologie di risultati: April
May
June
July
0 25 50 75 100
23
Radar Chart
Confronto non preciso di aree, ma che riesce a dare una buona idea generale.
24
Currentness
Grafico a barre orizzontali
Buona precisione nel confronto tra le diverse misurazioni.
25
Un caso reale
Le informazioni fornite al sistema provengono da più di 300,000 XML files
pubblicati da 15,000 pubbliche amministrazioni
26
Un caso reale
Shape
File
28
29
30
Not performed
Not performed
Understandability
Understandability
CurrentnessCurrentness
31
Not performed
Not performed
Understandability
Currentness
32
5.783.968 data points
-57.850 data points
-347.038 data points
-4.048 data points
-115.679 data points
33
-4.048 data points
-115.679 data points
-57.850 data points
-13.303 data points
-43.958 data points
-37.595 data points
34
-220.369 data points
-104.111 data points
Conclusioni
35
• Le percentuali di errori, per quanto basse, su un numero di file molto
alto sono significative.
• Una buona performance nella compliance del formato produce dati di
buona qualità (e.g. nella precisione).
• Currentness e completness sono collegate poiché alcuni dati si sanno
solo dopo (e.g. pagamento e data fine).
• La presenza di diversi errori di accuratezza possono essere un
campanello di allarme per inserimenti manuali e/o non controllati che
possono produrre dati errati anche oltre quelli rilevati dal nostro studio.
• Nell'accuratezza ci sono più errori semantici che sintattici.
Conclusioni
• Non avere un vero database produce molti problemi di consistenza
This work is under the terms of Creative Commons Public License. The whole text of the license in version 4.0 can be found at the web address: http://
creativecommons.org/licenses/by-sa/4.0/deed.it.
You are free to:
Share — copy and redistribute the material in any medium or format
Adapt — remix, transform, and build upon the material for any purpose, even commercially.
The licensor cannot revoke these freedoms as long as you follow the license terms.
Under the following terms:
Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but
not in any way that suggests the licensor endorses you or your use.
ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.
No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.
Version 1.1 © Marco Berlot, 2017
37

More Related Content

Similar to Tell Me Quality

SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
Emanuele Della Valle
 
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiareAdobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
Manuela Moroncini
 
La Modernizzazione dei Dati come base per La Trasformazione Digitale
La Modernizzazione dei Dati come base per La Trasformazione DigitaleLa Modernizzazione dei Dati come base per La Trasformazione Digitale
La Modernizzazione dei Dati come base per La Trasformazione Digitale
MongoDB
 
La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB
MongoDB
 
Software development nel mondo industriale
Software development nel mondo industrialeSoftware development nel mondo industriale
Software development nel mondo industriale
guesta554cd
 

Similar to Tell Me Quality (20)

SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
SWE-ET: la soluzione Italiana alla Semantic Web Service Challenge 2006
 
Cerved a journey of innovation
Cerved a journey of innovationCerved a journey of innovation
Cerved a journey of innovation
 
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiareAdobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
Adobe: Stefano Longo, Web 2.0: come le imprese se ne possono avvantaggiare
 
La Modernizzazione dei Dati come base per La Trasformazione Digitale
La Modernizzazione dei Dati come base per La Trasformazione DigitaleLa Modernizzazione dei Dati come base per La Trasformazione Digitale
La Modernizzazione dei Dati come base per La Trasformazione Digitale
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)Introduzione al Domain Driven Design (DDD)
Introduzione al Domain Driven Design (DDD)
 
Continuous Integration e High Quality Code
Continuous Integration e High Quality CodeContinuous Integration e High Quality Code
Continuous Integration e High Quality Code
 
La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB La Trasformazione Digitale con MongoDB
La Trasformazione Digitale con MongoDB
 
Big Data Conference Ottobre 2013
Big Data Conference Ottobre 2013Big Data Conference Ottobre 2013
Big Data Conference Ottobre 2013
 
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
 
Domain Driven Design e CQRS
Domain Driven Design e CQRSDomain Driven Design e CQRS
Domain Driven Design e CQRS
 
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQLMySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
 
Dml Web Analytics Buyer Guide
Dml Web Analytics Buyer GuideDml Web Analytics Buyer Guide
Dml Web Analytics Buyer Guide
 
jValidator The first Data Quality Firewall open source!
jValidator The first Data Quality Firewall open source!jValidator The first Data Quality Firewall open source!
jValidator The first Data Quality Firewall open source!
 
Data flow
Data flowData flow
Data flow
 
Software development nel mondo industriale
Software development nel mondo industrialeSoftware development nel mondo industriale
Software development nel mondo industriale
 
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
 
Progetto e realizzazione di uno strumento per la raccolta di dipendenze archi...
Progetto e realizzazione di uno strumento per la raccolta di dipendenze archi...Progetto e realizzazione di uno strumento per la raccolta di dipendenze archi...
Progetto e realizzazione di uno strumento per la raccolta di dipendenze archi...
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
Operational Data Store vs Data Lake
Operational Data Store vs Data LakeOperational Data Store vs Data Lake
Operational Data Store vs Data Lake
 

Tell Me Quality

  • 1. Uno strumento per misurare la qualità dei dati Tell Me Quality Marco Berlot
  • 2. Qualità dei Dati •Lo stato di completezza, validità, consistenza e accuratezza che rende un dato efficiente per un utilizzo specifico. •La qualità dei dati viene identificata come il grado con cui le caratteristiche dei dati, utilizzate in condizioni specifiche, soddisfano determinati requisiti. 2
  • 3. Dati di Bassa Qualità • Un nominativo scritto male ("mrio rossi" invece di "Mario Rossi") è indice di scarsa accuratezza sintattica. • Un termine come "Patrizia Rossi" al posto di "Patrizio Rossi" è anche indice di non accuratezza semantica. 3
  • 4. Dati di Bassa Qualità
  • 5. Dati di Bassa Qualità
  • 6. Dati di Bassa Qualità
  • 7. E’ realmente un problema? Attualmente la qualità dei dati è un problema per molti professionisti operanti in un ampio settore dei sistemi d’informazione. Uno studio aziendale ha stimato che il costo totale per l’economia degli Stati Uniti legata ai problemi di qualità dati superi i 600 miliardi di dollari l’anno (Eckerson, 2002). 7
  • 8. 8
  • 11. Perché un Frontend? Accuracy: 98,34% Completness: 94,12% Consistency: 95,43% Credibility: 98% Compliance: 97,79% Currentness: 90% Understandability: 0% Confidentiality: 0% Precision: 98% 11 Currentness
  • 12. Perché un Frontend? ACCURACY 5.783.968 - Syntactic: 98,63% - Semantic: 97,77% - Data accuracy assurance: 100% - Risk of dataset inaccuracy: 5% - Data accuracy range: 95% 12
  • 14. Come funziona TMQ? • Upload • Selezione del tipo di Misure • Visualizzazione dei risultati 14
  • 17. Shape File “ SHACL Shapes Constraint Language, a language for validating RDF graphs against a set of conditions. These conditions are provided as shapes and other constructs expressed in the form of an RDF graph. RDF graphs that are used in this manner are called "shapes graphs" in SHACL and the RDF graphs that are validated against a shapes graph are called "data graphs” vocabolario,insieme vocabolario,vincoli dati 17
  • 22. Pagine interamente dinamiche • Minor numero di linee di codice. • Unica pagina che si crea dinamicamente in base ai parametri generati dal backend. • Maggior complessità nella scrittura all’inizio ma permette una manutenzione del codice molto più semplice. https://mustache.github.io/ Mustache Framework 22
  • 23. Visualizzazione dei risultati • Un risultato che riassume la performance di ogni categoria di misure e che permette di confrontarle velocemente. • Un risultato che permette di confrontare la performance di ogni misurazione in modo approfondito. Due tipologie di risultati: April May June July 0 25 50 75 100 23
  • 24. Radar Chart Confronto non preciso di aree, ma che riesce a dare una buona idea generale. 24 Currentness
  • 25. Grafico a barre orizzontali Buona precisione nel confronto tra le diverse misurazioni. 25
  • 26. Un caso reale Le informazioni fornite al sistema provengono da più di 300,000 XML files pubblicati da 15,000 pubbliche amministrazioni 26
  • 28. 28
  • 29. 29
  • 32. 32 5.783.968 data points -57.850 data points -347.038 data points -4.048 data points -115.679 data points
  • 33. 33 -4.048 data points -115.679 data points -57.850 data points -13.303 data points -43.958 data points -37.595 data points
  • 35. Conclusioni 35 • Le percentuali di errori, per quanto basse, su un numero di file molto alto sono significative. • Una buona performance nella compliance del formato produce dati di buona qualità (e.g. nella precisione). • Currentness e completness sono collegate poiché alcuni dati si sanno solo dopo (e.g. pagamento e data fine). • La presenza di diversi errori di accuratezza possono essere un campanello di allarme per inserimenti manuali e/o non controllati che possono produrre dati errati anche oltre quelli rilevati dal nostro studio. • Nell'accuratezza ci sono più errori semantici che sintattici.
  • 36. Conclusioni • Non avere un vero database produce molti problemi di consistenza
  • 37. This work is under the terms of Creative Commons Public License. The whole text of the license in version 4.0 can be found at the web address: http:// creativecommons.org/licenses/by-sa/4.0/deed.it. You are free to: Share — copy and redistribute the material in any medium or format Adapt — remix, transform, and build upon the material for any purpose, even commercially. The licensor cannot revoke these freedoms as long as you follow the license terms. Under the following terms: Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use. ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original. No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits. Version 1.1 © Marco Berlot, 2017 37