• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
F. Fabbris - Strumenti e metodologie per la qualità dei dati
 

F. Fabbris - Strumenti e metodologie per la qualità dei dati

on

  • 27,269 views

 

Statistics

Views

Total Views
27,269
Views on SlideShare
27,269
Embed Views
0

Actions

Likes
0
Downloads
2
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    F. Fabbris - Strumenti e metodologie per la qualità dei dati F. Fabbris - Strumenti e metodologie per la qualità dei dati Presentation Transcript

    • Strumenti e metodologie per la qualità dei dati1 Luigi Fabbris Università di Padova Comstat
    • Outline La qualità dei dati I nuovi contesti e le nuove tendenze nella produzione di statistiche ufficiali XI Conferenza nazionale di statistica, 2013 La qualità dei dati traibili dai sistemi informativi (le nuove anagrafi nazionali) Il ruolo dell’Istat – Sistan nel controllo della qualità dei dati Il ruolo degli Uffici di Statistica nel controllo della qualità dei dati di provenienza amministrativa Alcune conclusioni 2
    • La qualità dei dati ufficiali Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013): XI Conferenza nazionale di statistica, 2013  Pertinenza (relevance): grado di concordanza tra Errore di III tipo: prodotto corretto per l’obiettivo sbagliato il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle di I e II tipo Errore informazioni  Accuratezza: prossimità al valore vero Errore di IV tipo: prodotto corretto, ma troppo in ritardo  Tempestività: pubblicazione entro il tempo pre- determinato  Accessibilità fisica e intellettuale (comprensibilità)  Comparabilità nel tempo e tra domini di studio 3  Coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi
    • La qualità statistica dei dati ufficiali Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009):  Pertinenza (relevance): grado di concordanza tra XI Conferenza nazionale di statistica, 2013 il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni  Attendibilità: prossimità al valore vero, funzione di:  Precisione campionaria  Accuratezza della rilevazione e dell’elaborazione dei dati  Tempestività: pubblicazione entro il tempo pre- determinato  Accessibilità fisica e intellettuale 4 (comprensibilità)  Comparabilità nel tempo e tra domini di studio e
    • Il nuovo contesto La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali: XI Conferenza nazionale di statistica, 2013  Anagrafe nazionale della popolazione (delle famiglie)  Anagrafe nazionale delle abitazioni (numeri civici)  Anagrafe nazionale delle imprese (ASIA) Pertanto,  scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (“censimenti continui”) per confluenza di quelle locali,  scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di 5 formazione delle statistiche ufficiali  Assume un ruolo ancora più importante il controllo
    • La confluenza delle anagrafi This is a biasThis is a “hot point”
    • Che cosa interessa allo statistico ufficiale? La qualità media dell’acqua alla foce o lungo la pianura (la qualità delle statistiche tratte dall’anagrafe nazionale)? SI La qualità dell’acqua dei singoli affluenti (la qualità delle statistiche a livello locale)? Forse Scoprire “hot point” inquinanti (le fonti locali i SI cui errori possono minare l’attendibilità delle statistiche nazionali)? La presenza di coccodrilli nell’acqua stagnante SI (i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati)? 7
    • Sistema di assicurazione qualità Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente) • Revisione metodologica • Metadati e buone prassi ISTAT (controllo periodico) ? • Interventi sulle fonti locali SISTAN (auto-controllo, controllo su richiesta)Alla sorgente (Sistan: un sistema di “chiuse” attraverso le qualipassa/non passa l’acqua)
    • Il controllo continuo della qualità Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK) Periodicità: ogni anno, oppure ogni due anni XI Conferenza nazionale di statistica, 2013 Obiettivi:  Valutazione della qualità di statistiche “di riferimento” in dati domini di studio  Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche l’accuratezza locale, campionando più intensamente 9 le fonti che, si ipotizza (in base ai dati noti), danno tassi d’errore più alti (“hot points”)
    • Il sistema di controllo locale Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero: Essere pochi e di riconosciuta autorità, soprattutto XI Conferenza nazionale di statistica, 2013 nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dell’Interno, oppure CCIAA) Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni) Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dall’UdS, di comprenderne la 10 qualità e di farla comprendere Sentirsi parte del Sistema statistico nazionale
    • I metadati Sono dati di quadro sul metodo e sui tempi di produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sull’esito XI Conferenza nazionale di statistica, 2013 della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità L’Eurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per l’accesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.) Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche 11
    • La formazione delle fonti dei dati Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati XI Conferenza nazionale di statistica, 2013 Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione all’attività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato Review (self, peer, user); peer review: forme di valutazione reciproche tra produttori di dati; user review: sistema di raccolta delle osservazioni sui dati 12 da parte degli utenti
    • La diffusione delle informazioni sulla qualità Interna al sistema: il sistema deve mantenere la sua credibilità complessiva XI Conferenza nazionale di statistica, 2013 Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio Gestione dei metadati (v. FBI, http://www.fbi.gov/about-us/cjis/ucr/data_quality_guidelines ) finalizzata al raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …) 13 Periodicità: 3-5 anni
    • Problemi del sistema di controllo1. L’integrazione tra fonti di origine amministrativa permette di scoprire incoerenze (inconsistency) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili XI Conferenza nazionale di statistica, 2013 diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale?2. Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. L’integrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza l’informazione sull’incompletezza?3. Che fare dei lotti con tanti errori? 144. La scoperta di errori si può tradurre in metadati
    • Risorse necessarie Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio. XI Conferenza nazionale di statistica, 2013 Il controllo della qualità richiede indagini interne (svolte dall’Istat stesso o da un ente esterno) La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS 15
    • Concludendo…. La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello XI Conferenza nazionale di statistica, 2013 nazionale I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan 16 Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema
    • Ringrazioper l’attenzione