1. Uno strumento per misurare la qualità dei dati
Tell Me Quality
Marco Berlot
2. Qualità dei Dati
•Lo stato di completezza, validità, consistenza e
accuratezza che rende un dato efficiente per un
utilizzo specifico.
•La qualità dei dati viene identificata come il grado
con cui le caratteristiche dei dati, utilizzate in
condizioni specifiche, soddisfano determinati
requisiti.
2
3. Dati di Bassa Qualità
• Un nominativo scritto male ("mrio rossi" invece di "Mario Rossi") è
indice di scarsa accuratezza sintattica.
• Un termine come "Patrizia Rossi" al posto di "Patrizio Rossi" è
anche indice di non accuratezza semantica.
3
7. E’ realmente un problema?
Attualmente la qualità dei dati è un problema per molti
professionisti operanti in un ampio settore dei sistemi
d’informazione. Uno studio aziendale ha stimato che il costo totale
per l’economia degli Stati Uniti legata ai problemi di qualità dati
superi i 600 miliardi di dollari l’anno (Eckerson, 2002).
7
17. Shape File
“ SHACL Shapes Constraint
Language, a language for
validating RDF graphs against a
set of conditions. These conditions
are provided as shapes and other
constructs expressed in the form
of an RDF graph. RDF graphs that
are used in this manner are called
"shapes graphs" in SHACL and
the RDF graphs that are validated
against a shapes graph are called
"data graphs” vocabolario,insieme
vocabolario,vincoli dati
17
22. Pagine interamente dinamiche
• Minor numero di linee di codice.
• Unica pagina che si crea
dinamicamente in base ai
parametri generati dal backend.
• Maggior complessità nella
scrittura all’inizio ma permette una
manutenzione del codice molto
più semplice. https://mustache.github.io/
Mustache Framework
22
23. Visualizzazione dei risultati
• Un risultato che riassume la
performance di ogni categoria
di misure e che permette di
confrontarle velocemente.
• Un risultato che permette di
confrontare la performance di
ogni misurazione in modo
approfondito.
Due tipologie di risultati: April
May
June
July
0 25 50 75 100
23
24. Radar Chart
Confronto non preciso di aree, ma che riesce a dare una buona idea generale.
24
Currentness
25. Grafico a barre orizzontali
Buona precisione nel confronto tra le diverse misurazioni.
25
26. Un caso reale
Le informazioni fornite al sistema provengono da più di 300,000 XML files
pubblicati da 15,000 pubbliche amministrazioni
26
35. Conclusioni
35
• Le percentuali di errori, per quanto basse, su un numero di file molto
alto sono significative.
• Una buona performance nella compliance del formato produce dati di
buona qualità (e.g. nella precisione).
• Currentness e completness sono collegate poiché alcuni dati si sanno
solo dopo (e.g. pagamento e data fine).
• La presenza di diversi errori di accuratezza possono essere un
campanello di allarme per inserimenti manuali e/o non controllati che
possono produrre dati errati anche oltre quelli rilevati dal nostro studio.
• Nell'accuratezza ci sono più errori semantici che sintattici.