2. ① Il concetto di qualità dei dati amministrativi (DA)
② Ambito di gestione dei DA: i compiti della Direzione Raccolta Dati
③ La strategia per produrre documentazione della qualità
④ La Quality Report Card dei dati Amministrativi (QRCA)
⑤ Sviluppi futuri
GRAZIA DI BELLA
Primo Ricercatore
1
Sommario
3. Multisource statistics
Oltre alle indagini, nuovi processi di produzione di
tipo multifonte sono ormai a regime nei vari Istituti
di Statistica del mondo.
I dati prodotti all’esterno degli uffici di statistica,
come i Dati amministrativi, i Dati commerciali, i
Big data, non sono prodotti a scopo statistico.
Ciò porta ad un profondo ripensamento
metodologico anche in relazione ai sistemi di
documentazione e di qualità dei processi.
2
GRAZIA DI BELLA
Primo Ricercatore
2
Nuovi processi di produzione delle statistiche
o L’Istat è protagonista in vari progetti
internazionali volti a sviluppare, standardizzare
e ottimizzare la produzione di statistiche da fonti
amministrative.
o Molti processi Istat utilizzano attualmente DA
Enti fornitori 50
Archivi 188
Forniture 461
Acquisizione dei DA in Istat
Anno di programmazione 2018
4. o Dati da indagine
o Dati amministrativi
o Big Data
Multisource statistics
Processi statistici che
utilizzano dati esterni
3
GRAZIA DI BELLA
Primo Ricercatore
3
Il concetto di qualità dei dati amministrativi come
input dei processi di produzione
INPUT
THROUGH-
PUT
OUTPUT
Qualità dell’input e del trattamento centralizzato dei DA
5. 4
GRAZIA DI BELLA
Primo Ricercatore
4
Il sistema di documentazione dei DA: perché e per chi
Funzione di usabilità dei DA
• Documentazione e valutazione della qualità
Funzione di monitoraggio delle acquisizioni
• Per verificare la disponibilità dei dati da utilizzare nel processo di produzione
Per gli utenti
interni Istat
Per la gestione del
processo di
acquisizione
Per i titolari
dei DA
Funzione di supporto alla gestione delle acquisizioni
• Per avviare i solleciti e monitorare l’arrivo delle forniture
Funzione di monitoraggio delle forniture
• Per controllare la conformità tra i dati richiesti/attesi e i dati ricevuti (ad esempio
errori di estrazione dalla fonte)
• Per identificare prontamente possibili cambiamenti (normativi o gestionali) che
possono provocare discontinuità nei dataset e che non sono stati notificati in anticipo
Feedback per migliorare la qualità a fini statistici
• Per condividere eventuali problematiche che limitano l’usabilità dei dati secondo
interazione da definire caso per caso
6. 5
Il framework della qualità adottato prevede un
approccio gerarchico multidimensionale che
comprende:
o Iperdimensioni FONTE, METADATI, DATI
o Dimensioni
o Indicatori
oMetodi di misura
Le informazioni riguardano:
o La documentazione relativa alla descrizione degli
oggetti e al processo di gestione dei dati con
l’obiettivo di migliorarne la possibilità di uso.
o L’usabilità dei DA a fini statistici
Il framework adottato in Istat è basato sull’idea
originariamente definite da Statistics Netherlands [1]
e poi sviluppata nell’ambito del progetto internazionale
BlueEts, WP4 [2], [3]. Le misure sono state
successivamente adattate alla realtà Istat.
[1] Daas et al. (2009) Checklist for the Quality evaluation of AD
Sources. Discussion paper 09042, Statistics Netherlands.
[2] Daas et al. (2011) Reports on methods preferred for the quality
indicators of administrative data sources, Deliverable 4.2 of
Workpackage 4 of the BLUE-ETS project. CBS, Netherlands, SSB,
Norway, Istat, Italy, SCB, Sweden.
[3] Cerroni, F., Di Bella, G., & Galiè, L. (2014). Evaluating
administrative data quality as input of the statistical production
process, Rivista di statistica ufficiale 1-2/2014, 117-146.
GRAZIA DI BELLA
Primo Ricercatore
5
Misurare la qualità dell’input
7. 6
GRAZIA DI BELLA
Primo Ricercatore
6
Iperdimensione FONTE
Informazioni necessarie a gestire il processo di acquisizione dei
dati con lo scopo di valutare e migliorare la qualità dei dati
acquisiti
Dimensioni della qualità Descrizione delle misure
Identificazione della fonte e
del dataset (archivio)
Identificazione della fonte, dell’ente titolare e del dataset acquisito e serie storica
disponibile in Istat
Rilevanza Misure dell’importanza della fornitura rispetto ai processi di produzione dell’Istat
Accessibilità/Riservatezza Rispetto della normativa
Relazioni e feedback con il
titolare
Comunicazioni preventive di eventuali cambiamenti pianificati nella fonte,
procedure di feedback in caso di problemi o per migliorare la qualità dei dati
8. 7
GRAZIA DI BELLA
Primo Ricercatore
7
Iperdimensione METADATI
Informazioni per la valutazione della qualità a livello
concettuale e di processo
Dimensioni Descrizione delle misure
Contenuto
informativo/Chiarezza
Metadati necessari per la descrizione dei dataset: oggetti amministrativi (unità
ed eventi), variabili amministrative (campi dei singoli file e classificazioni
amministrative)
Comparabilità concettuale
Mapping dei concetti amministrativi nei concetti statistici in termini di unità e
variabili
Stabilità temporale dei
concetti amministrativi
Manutenzione dei cambiamenti nei metadati (definizioni e classificazioni)
Trattamento dei dati (da
parte dell’ente fornitore)
Informazioni su possibili trattamenti apportati sui dati alla fonte
9. 8
GRAZIA DI BELLA
Primo Ricercatore
8
Iperdimensione DATI
Valutazione della qualità dei dati acquisiti
Dimensioni Descrizione delle misure
Technical checks
Conformità dei dati e dei metadati ricevuti rispetto alla richiesta (anche
confronti in serie storica)
Accordi per l'acquisizione
Identificazione e caratteristiche dei singoli dataset/forniture: periodicità,
tempistiche previste, possibili costi, modalità di trasmissione
Dimensione temporale
Indicatori di puntualità e tempestività; dinamica degli oggetti e stabilità delle
variabili.
Integrabilità/integrazione
Presenza e qualità delle variabili di linkage e indicatori della qualità del record
linkage
Accuratezza
Misure di inconsistenza dei dati per le unità, per le relazioni, per le variabili e
loro combinazione.
Completezza
Rispetto alle unità: Indicatori di copertura; rispetto alle variabili: % di valori
mancanti
10. Strategia
oStandardizzare i metadati di processo
disponibili negli IT TOOLS che gestiscono i
dati amministrativi in Istat
oRiutilizzare i metadati e creare un sistema
automatico di produzione della
documentazione della qualità
Il Sistema di documentazione si
aggiorna automaticamente in
relazione alle frequenti modifiche delle
caratteristiche dei dati e alle nuovi fonti
acquisite.
Considerando che
• gli indicatori di qualità devono essere
prodotti per le 180 fonti amministrative e
circa 450 forniture periodiche acquisite
ogni anno dall’Istat e aggiornati per le
nuove
• le caratteristiche dei dataset amministrativi
hanno un’elevata variabilità;
• i dataset amministrativi sono spesso molto
grandi in termini di bytes;
• quando presenti dati personali, occorre
operare nel rispetto della normative in
termini di riservatezza e trattamento dei
dati
9
GRAZIA DI BELLA
Primo Ricercatore
9
La strategia per produrre un sistema di
documentazione
11. 10
GRAZIA DI BELLA
Primo Ricercatore
10
L’organizzazione della Direzione Centrale per la
Raccolta Dati
RDB - Servizio Organizzazione della raccolta datiRDA - Servizio Progettazione degli
strumenti per la raccolta dati
RDC - Servizio per la conduzione
della raccolta dati da indagini
dirette
RDD - Servizio Fonti amministrative e
integrazione dei registri
12. 11
GRAZIA DI BELLA
Primo Ricercatore
11
Ciclo di vita dei dati amministrativi
Istat, Linee Guida
per la Qualità dei
processi statistici di
fonte
amministrativa,
2016
13. 12
GRAZIA DI BELLA
Primo Ricercatore
12
The Generic Statistical Business Process Model – GSBPM in relazione ai DA
Funzione del Servizio RDD - Fonti amministrative e integrazione dei registri
14. 1.1 Identify data needs
(considering
potential of AD)
GSBPM
1. Specify Needs Phase
13
GRAZIA DI BELLA
Primo Ricercatore
13
Fase di identificazione dei fabbisogni informativi per il
paese (in considerazione delle potenzialità dei DA)
I settori di produzione identificano possibili nuovi fabbisogni
statistici del paese anche in considerazione delle potenzialità di
uso dei dati amministrativi:
disponibilità di microdati con un elevato dettaglio (dati fiscali
e contributivi);
disponibilità di strutture integrate tra unità di diverso tipo (ad
ES. dati di tipo Leed )
disponibilità di dati longitudinali
15. 1.1 Identify data needs
(considering
potential of AD)
GSBPM
1. Specify Needs Phase
1.5 Check data
availability (among
administrative data)
14
GRAZIA DI BELLA
Primo Ricercatore
14
Controllo della disponibilità dei dati (tra le fonti
amministrative)
Esplorazione delle Fonti amministrative in collaborazione con
RDD
Valutazione preliminari su:
disponibilità di specifiche variabili nelle fonti;
analisi della tempestività;
qualità/usabilità generale dei dati;
accessibilità - necessità di definire una convenzione o
accordo per lo scambio dei dati;
eventuali costi di acquisizione;
altri aspetti tecnici
16. 1.1 Identify data needs
(considering
potential of AD)
GSBPM
1. Specify Needs Phase
1.6 Prepare business
case
1.5 Check data
availability
15
GRAZIA DI BELLA
Primo Ricercatore
15
Processo di decisione per l’accesso ai dati
Nel caso di nuove fonti: analisi e decisione finale
sull’acquisizione
Valutazione di modifica delle richieste dati per fonti già in
corso di acquisizione, in considerazione delle richieste dei vari
settori di produzione
• inserimento delle nuove variabili da acquisire, eventuale
modifica della periodicità, della tempestività, o
valutazione di acquisizione eventuali di forniture di dati
preliminari e poi definitivi o invii unici)
17. 16
GRAZIA DI BELLA
Primo Ricercatore
16
Progettazione della raccolta dati
Progettazione della raccolta dei dati amministrativi sulla
base dell’analisi delle casistiche: grande variabilità delle
tipologie in base a:
Utilizzo del portale di acquisizione ARCAM o altre modalità
di trasmissione (ftp)
GSBPM
2.3 Design collection
18. 17
GRAZIA DI BELLA
Primo Ricercatore
17
Costruzione degli strumenti
Costruzione e manutenzione degli applicativi, dei DB e delle
procedure di acquisizione caricamento, integrazione,
diffusione interna
IT TOOLS
ARCAM: portale di acquisizione dei dati amministrativi
(applicativo + DB Oracle)
SIM: Sistema di Integrazione dei Microdati (DB Oracle e sistema
delle procedure di caricamento, gestione, integrazione)
EDI: Interfaccia per la diffusione interna dei dati grezzi
3.1 Build collection
instrument
GSBPM
2.3 Design collection
19. 18
GRAZIA DI BELLA
Primo Ricercatore
18
Raccolta dati
Settori di produzione ISTAT: Definizione del Programma
Statistico Nazionale – PSN (Sezione 2 - Caratteristiche del
lavoro - Utilizzo di dati acquisiti da fonti amministrative )
– vincolo normativo per Istat per avere accesso ai dati
amministrativi
Programmazione delle acquisizioni (RDD richiede a tutti i
settori di produzione di confermare o meno le richieste
dello scorso anno e di aggiungerne, eventualmente di
nuove
Formulazione delle richieste ufficiali dei dati per ciascun
Ente e per ciascuna Fonte amministrativa
Acquisizione dei dati amministrativi tramite ARCAM
3.1 Build collection
instrument
4.3 Run collection
GSBPM
2.3 Design
collection
2. Design Phase
20. 19
GRAZIA DI BELLA
Primo Ricercatore
19
Finalizzazione della raccolta dati
Analisi concettuale Entità/Relazioni dei dati
amministrativi acquisiti
Processi ETL per i dati e per le classificazioni (SIM)
Controlli di conformità e completezza delle forniture
3.1 Build collection
instrument
4.3 Run collection
4.4 Finalize
collection
GSBPM
2.3 Design collection
21. 20
GRAZIA DI BELLA
Primo Ricercatore
20
Trattamento dei dati
Integrazione dei dati amministrativi (identificazione
delle unità statistiche) nel Sistema SIM
Ricodifica delle variabili territoriali (provincia e
comune) e gestione delle classificazioni
amministrative
Gestione degli accessi ai dati per gli utenti interni
5.2 Classify and
code
5.1 Integrate data
GSBPM
22. 21
GRAZIA DI BELLA
Primo Ricercatore
21
Gestione della qualità dei dati amministrativi / Gestione dei
metadati amministrativi
QRCA – Quality Report Card dei dati
Amministrativi
Sistema di documentazione dei dati amministrativi
acquisiti o in corso di acquisizione in Istat
- Disponibile all’interno dell’istituto
- Prodotto in modo efficiente (aggiornamenti)
- Tempestivo
- Utile ai processi di produzione
- Flessibile
Quality
management
/Metadata
management
GSBPM
23. 22
GRAZIA DI BELLA
Primo Ricercatore
22
Strategia di produzione della QRCA
Ri-utilizzo dei metadati di processo degli
IT TOOL di gestione dei DA
DB che gestisce il
portale di acquisizione
dei DA
ARCAM
DB dei microdata
amministrativi
integrati Microdata DB
SIM
QRCA
Applicazione JAVA +
BI MICROSTRATEGY
DB del Programma
Statistico Nazionale
PSN
DB di
transizione
QRCA
Interoperabilità dei sistemi
24. 23
GRAZIA DI BELLA
Primo Ricercatore
23
Interoperabilità dei sistemi
I sistemi nascono con finalità diverse e sono gestiti da
gruppi diversi
Creazione del clima di collaborazione
(vantaggio comune)
Analisi concettuale per il disegno
dell’interoperabilità
Realizzazione di una serie di Tabelle di raccordo
che connettono gli oggetti chiave comuni presenti
nei vari DB.
Aggiornamento periodico secondo procedure
condivise delle sole tabelle di raccordo
RISULTATO
E’ possibile seguire il percorso dei DA dalla
programmazione delle acquisizioni effettuata in
coerenza con il PSN, all’acquisizione effettiva
nel portale Arcam e al trattamento centralizzato
in SIM
Le misure della documentazione si
aggiornano in modo automatico!!!!
SIMARCAM
PSN
Si veda il poster Interoperabilità dei sistemi di
gestione dei dati amministrativi
25. ARCAM
Concetti
24
GRAZIA DI BELLA
Primo Ricercatore
24
Metadati di Arcam ri-utilizzati
o Identificazione delle forniture, periodicità, riferimenti
temporali,
o Puntualità dell’ente fornitore
o Tempestività riferita all’Ente (intervallo temporale tra la data
dell’ultimo evento registrato nella fornitura e la data di
acquisizione), tempestività complessiva (intervallo temporale
tra la data dell’ultimo evento registrato nella fornitura e la
data di disponibilità)
o FONTE/ARCHIVIO
● Codice archivio
o Descrizione
o Titolare
o Forniture
o Lavori PSN che utilizzano la Fonte
o Regolamenti comunitari connessi all’uso
della Fonte
o FORNITURA
● Codice fornitura
o Descrizione
o Periodicità
o Riferimenti temporali
o Data di invio concordata
o Fase del processo di acquisizione
o Data della fase
o Anno di programmazione
Misure della qualità/Documentazione
o Identificazione della Fonte, dell’Ente titolare
o Rilevanza della fonte in termini di estensione di uso in Istat
Elenco dei lavori PSN che utilizzano la fonte
Regolamenti comunitari il cui adempimento dipende
dalla fonte
26. SIM
Concetti
25
GRAZIA DI BELLA
Primo Ricercatore
25
Metadati e macrodati di SIM ri-utilizzati
Misure della qualità/Documentazione
o Monitoraggio delle acquisizioni fino allo Stato di «Disponibile»
e data dello Stato
o Lista delle variabili amministrative
o Classificazioni amministrative (variabili categoriche)
o Tipi di unità presenti (Individui, Unità economiche, Luoghi)
o Technical checks per la verifica della conformità dei dati
ricevuti: confronti in serie storica delle misure.
o Percentuale di valori mancanti per le variabili (anche in serie
storica)
o Misure della qualità delle variabili di linkage (variabili
identificative disponibili nella fonte e percentuale di valori
mancanti)
o Misure del monitoraggio della qualità delle procedure di
record linkage (misure deterministiche)
o FONTE/ARCHIVIO
● Codice archivio
o Descrizione
o File
o FILE
● Progressivo file
o Tracciato
o Fasi del processo ETL
o Fasi del processo di integrazione
● Anno di riferimento
o VARIABILI
o Classificazioni
o Nome tabelle DB di caricamento
o Macrodati sui conteggi dei record, delle
frequenze e dei missing
o Info dai Dizionari Oracle
27. 26
GRAZIA DI BELLA
Primo Ricercatore
26
Steps and progress
a. Adozione del framework della qualità
b. Definizione delle misure
c. Analisi dei processi esistenti, dei metadati e del flusso dei dati
d. Studio di fattibilità e classificazione delle misure
• Implementabili nel breve periodo con i metadati già esistenti
• Implementabili nel medio periodo con i metadati esistenti ma ancora non
accessibili
• Implementabili nel lungo periodo con informazioni da acquisire
e. Proposte e implementazione dell’interoperabilità
f. Scelta degli strumenti tecnologici
g. Primo prototipo di QRCA
Produzione della QRCA
30. 29
GRAZIA DI BELLA
Primo Ricercatore
29
Il primo prototipo della QRCA [Variabili amministrative]
31. 30
GRAZIA DI BELLA
Primo Ricercatore
30
Il primo prototipo della QRCA [Monitoraggio acquisizione]
32. 31
GRAZIA DI BELLA
Primo Ricercatore
31
Il primo prototipo della QRCA [Controlli tecnici]
amministrative]
33. 32
GRAZIA DI BELLA
Primo Ricercatore
32
Sviluppi futuri – connessioni in corso di realizzazione
PSN
• Attualmente l’aggiornamento della connessione viene effettuato ogni anno manualmente a seguito di
allineamenti e controlli.
E’ in corso un’attività di setup volta ad allineare le liste degli archivi presenti nei due sistemi e
successivamente gestire in modo condiviso gli aggiornamenti.
SIQual è il sistema Istat di documentazione della qualità dell’output statistico (users statistics – oriented),
la connessione permette di completare la documentazione del ciclo di vita dei DA
• Misure di riduzione del response burden in seguito all’uso della fonte, misurazione della qualità in
termini di throughput e output.
SUM, il Sistema Unitario dei Metadati dell’Istat che garantisce la standardizzazione dei
metadati.
• La connessione potrebbe portare a implementare misure di comparabilità tra le variabili
amministrative e statistiche. Si prevede di avviare alcune analisi partendo dalle
classificazioni.
34. 33
GRAZIA DI BELLA
Primo Ricercatore
33
Punto critico: interoperabilità
Ogni sistema è progettato per le sue specifiche funzionalità, occorre standardizzare le
informazioni comuni e definire una linea di contatto.
• Dal punto di vista concettuale
• Dal punto di vista dei sistemi IT
Quando possibile, sarebbe utile condividere gli obiettivi tra specialisti IT e statistici sin
dall’inizio, al fine di standardizzare le procedure e rendere i metadati il più possibile
riutilizzabili
35. 34
GRAZIA DI BELLA
Primo Ricercatore
34
Prospettive e sfide
Rispettare la tempestività di produzione
Gestire la complessità
Interagire proficuamente con i molti attori
Migliorare l’efficienza
Migliorare la qualità