Successfully reported this slideshow.
Your SlideShare is downloading. ×

Marco Berlot - Qualità dati - Lunch Nexa

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
TellMeQuality
TellMeQuality
Loading in …3
×

Check these out next

1 of 37 Ad

More Related Content

Similar to Marco Berlot - Qualità dati - Lunch Nexa (20)

More from Synapta (15)

Advertisement

Recently uploaded (20)

Marco Berlot - Qualità dati - Lunch Nexa

  1. 1. Uno strumento per misurare la qualità dei dati Tell Me Quality Marco Berlot
  2. 2. Qualità dei Dati •Lo stato di completezza, validità, consistenza e accuratezza che rende un dato efficiente per un utilizzo specifico. •La qualità dei dati viene identificata come il grado con cui le caratteristiche dei dati, utilizzate in condizioni specifiche, soddisfano determinati requisiti. 2
  3. 3. Dati di Bassa Qualità • Un nominativo scritto male ("mrio rossi" invece di "Mario Rossi") è indice di scarsa accuratezza sintattica. • Un termine come "Patrizia Rossi" al posto di "Patrizio Rossi" è anche indice di non accuratezza semantica. 3
  4. 4. Dati di Bassa Qualità
  5. 5. Dati di Bassa Qualità
  6. 6. Dati di Bassa Qualità
  7. 7. E’ realmente un problema? Attualmente la qualità dei dati è un problema per molti professionisti operanti in un ampio settore dei sistemi d’informazione. Uno studio aziendale ha stimato che il costo totale per l’economia degli Stati Uniti legata ai problemi di qualità dati superi i 600 miliardi di dollari l’anno (Eckerson, 2002). 7
  8. 8. 8
  9. 9. ISO/IEC 25024:2015 9
  10. 10. ISO/IEC 25024:2015 10
  11. 11. Perché un Frontend? Accuracy: 98,34% Completness: 94,12% Consistency: 95,43% Credibility: 98% Compliance: 97,79% Currentness: 90% Understandability: 0% Confidentiality: 0% Precision: 98% 11 Currentness
  12. 12. Perché un Frontend? ACCURACY 5.783.968 - Syntactic: 98,63% - Semantic: 97,77% - Data accuracy assurance: 100% - Risk of dataset inaccuracy: 5% - Data accuracy range: 95% 12
  13. 13. Perché un Frontend? 13
  14. 14. Come funziona TMQ? • Upload • Selezione del tipo di Misure • Visualizzazione dei risultati 14
  15. 15. Architettura
  16. 16. Upload 16
  17. 17. Shape File “ SHACL Shapes Constraint Language, a language for validating RDF graphs against a set of conditions. These conditions are provided as shapes and other constructs expressed in the form of an RDF graph. RDF graphs that are used in this manner are called "shapes graphs" in SHACL and the RDF graphs that are validated against a shapes graph are called "data graphs” vocabolario,insieme vocabolario,vincoli dati 17
  18. 18. Shape File
  19. 19. Configurazione dello Shape File 19
  20. 20. Selezione Misure 20
  21. 21. Selezione Misure 21
  22. 22. Pagine interamente dinamiche • Minor numero di linee di codice. • Unica pagina che si crea dinamicamente in base ai parametri generati dal backend. • Maggior complessità nella scrittura all’inizio ma permette una manutenzione del codice molto più semplice. https://mustache.github.io/ Mustache Framework 22
  23. 23. Visualizzazione dei risultati • Un risultato che riassume la performance di ogni categoria di misure e che permette di confrontarle velocemente. • Un risultato che permette di confrontare la performance di ogni misurazione in modo approfondito. Due tipologie di risultati: April May June July 0 25 50 75 100 23
  24. 24. Radar Chart Confronto non preciso di aree, ma che riesce a dare una buona idea generale. 24 Currentness
  25. 25. Grafico a barre orizzontali Buona precisione nel confronto tra le diverse misurazioni. 25
  26. 26. Un caso reale Le informazioni fornite al sistema provengono da più di 300,000 XML files pubblicati da 15,000 pubbliche amministrazioni 26
  27. 27. Un caso reale Shape File
  28. 28. 28
  29. 29. 29
  30. 30. 30 Not performed Not performed Understandability Understandability CurrentnessCurrentness
  31. 31. 31 Not performed Not performed Understandability Currentness
  32. 32. 32 5.783.968 data points -57.850 data points -347.038 data points -4.048 data points -115.679 data points
  33. 33. 33 -4.048 data points -115.679 data points -57.850 data points -13.303 data points -43.958 data points -37.595 data points
  34. 34. 34 -220.369 data points -104.111 data points
  35. 35. Conclusioni 35 • Le percentuali di errori, per quanto basse, su un numero di file molto alto sono significative. • Una buona performance nella compliance del formato produce dati di buona qualità (e.g. nella precisione). • Currentness e completness sono collegate poiché alcuni dati si sanno solo dopo (e.g. pagamento e data fine). • La presenza di diversi errori di accuratezza possono essere un campanello di allarme per inserimenti manuali e/o non controllati che possono produrre dati errati anche oltre quelli rilevati dal nostro studio. • Nell'accuratezza ci sono più errori semantici che sintattici.
  36. 36. Conclusioni • Non avere un vero database produce molti problemi di consistenza
  37. 37. This work is under the terms of Creative Commons Public License. The whole text of the license in version 4.0 can be found at the web address: http:// creativecommons.org/licenses/by-sa/4.0/deed.it. You are free to: Share — copy and redistribute the material in any medium or format Adapt — remix, transform, and build upon the material for any purpose, even commercially. The licensor cannot revoke these freedoms as long as you follow the license terms. Under the following terms: Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use. ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original. No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits. Version 1.1 © Marco Berlot, 2017 37

×