R. Radini, M. Di Zio, G. Vaste, 30 Novembre - 1 Dicembre 2021 -
Webinar: Sistemi moderni di integrazione dei dati: l’esperienza dell’Istat e di altri attori
Titolo: Il Sistema Integrato dei Registri dell'Istat: un sistema di dati integrato a servizio del Paese
1. Sistema Integrato dei
Registri: un sistema di dati
integrato al servizio del
Paese
Marco Di Zio | ISTAT
Roberta Radini | ISTAT
Giulia Vaste | ISTAT
30/11/2021
2. o Il Sistema Integrato dei Registri (SIR)
o A che punto siamo
o SIR cosa è cambiato rispetto al passato
o Come si integrano i registri del SIR e il ruolo delle ontologie
o Qualità dei registri e degli output integrati
o Obiettivi dell’industrializzazione del SIR
o Ecosistema dei registri – come sarà
Indice
2
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
3. Il SIR è un Sistema di
Registri Statistici che
centralizzano ed integrano
i dati derivati dalle fonti
amministrative e dalle
indagini statistiche
condotte dall’Istituto
Cos'è il Sistema Integrato dei Registri (SIR)
3
o E’ una base «micro fondata» che garantisce:
• una gestione unitaria delle diverse tematiche (sociali, ambientali,
economiche, etc.)
• una integrazione concettuale e statistica
• una integrazione fisica delle unità statistiche che lo compongono
o E’ il sistema integrato dei dati che fanno riferimento ai tre «tematismi»
principali delle statistiche:
• popolazione
• unità produttive
• territorio
o La gestione non solo dei vari «tematismi» ma soprattutto le relazioni che
intercorrono tra loro nel tempo, permettono di connotarlo come
“sistema”.
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
4. Da cosa è composto
4
o Il SIR è composto da registri che rispetto al contenuto informativo si classificano in:
• Registri Base che contengono tutte le unità statistiche del sistema e sulle quali è possibile definire diverse
popolazioni statistiche. Le unità sono caratterizzate da poche variabili “core” le cui caratteristiche sono
immutabili nel tempo, mentre altre sono soggette alla dinamica del tempo.
Quindi sono stati definiti i registri:
• Base degli Individui, delle famiglie e delle convivenze
• Base dei Luoghi
• Base delle unità Produttive ed Economiche
• Base delle Attività
• Registri Satellite che arricchiscono l’informazione dei registri base rispetto a specifiche popolazioni
statistiche, in questo caso sono detti Estesi, oppure rispetto a specifiche tematiche e non a definite
popolazioni, in questo caso sono detti Tematici. I valori delle variabili che li caratterizzano dipendono dal
tempo.
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
5. 5
A che punto siamo
Registro
No Profit
Registro Statistico
Base degli individui e
delle famiglie (RBI)
Registro Statistico base
delle Attività (RSBA)
Registro Statistico base
dei Luoghi (RSBL)
Registro Statistico Base
delle Unità produttive
(RBUP)
Registro tematico
delle Relazioni
Lavorative (RTL)
Registro tematico
dell'istruzione (RTIF)
Registro degli
Occupati
Registro dei Redditi
degli Individui e
delle Famiglie
Registro delle
imprese (ASIA)
Registro statistico
delle aziende
agricole
(FARM Register)
Registro delle
istituzioni
Pubbliche (PA)
1996
Registro Gruppi di
Imprese
Registro Unità
Locali
2002/2006 2011
Censimento Permanente
Industria e Servizi
2012/2015 2016 2017/2018 2018/2019 2019/2020
Registro delle
Abitazioni e Edifici
Componenti
Indirizzi, Unità
amministrative
Business Registers
Nasce il SIR
Censimento Permanente di
Popolazione dal 2018
2021/2022
IL SIR viene da lontano
6. Vantaggi rispetto al passato di avere il SIR
6
o Il SIR è uno dei principali asset dell’Istituto previsti dal programma di modernizzazione
o e risponde all’esigenza di:
• Centralizzare l’informazione dei dati statistici dei registri e quindi superare il sistema a Silos
presente anche nei dati e non solo nei processi produttivi
• Unificare la gestione delle diverse tematiche: sociali, ambientali, economiche, etc.
• Integrare concettualmente e statisticamente, unità statistiche di diverso tipo, per consentire
analisi trasversali e longitudinali
• Standardizzare il processo di produzione dei dati dei registri secondo una architettura informativa
e tecnologica unica
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
7. Come si integrano i registri del SIR 7
o L’integrazione dei registri rappresenta una sfida dal punto di vista: metodologico, statistico,
architetturale e tecnologico
o L’integrazione è stata affrontata dal punto di vista concettuale considerando:
• Metodi statistici di integrazione e di gestione della qualità
• Conoscenze tematiche di dominio e trasversali
• Strutture architetturali che organizzano l’informazione e la rendono fruibile secondo le diverse viste
tematiche guidate dei metadati (metadata driven)
o L’integrazione è stata affrontata dal punto di vista logico/fisico mettendo insieme:
• Definizione delle strutture dei dati e dei metadati integrate attraverso chiavi comuni che collegano le unità
statistiche
• Elaborazioni di integrazione dei dati per selezione e per fusione di caratteri, studiate per ogni specifica
tematica secondo la qualità dei dati di fonte
• Soluzioni tecniche per la realizzazione e la gestione delle funzioni di integrazione e di accesso ai dati
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
8. Il ruolo delle ontologie nel SIR
8
o Le Ontologie rappresentano un approccio di modellazione concettuale dei diversi domini del SIR con un
linguaggio formale che la rende “machine-actionable”
o L’uso delle Ontologie consente di:
• integrare a livello globale i concetti presenti nelle diverse realtà tematiche
• “mappare” i dati alla rappresentazione di concetti che rappresentano. Questo aspetto è particolarmente
importante perché consente di avere “sempre” dati allineati ai metadati
• accedere ai dati tramite le ontologie garantisce la “trasparenza” per l’utente rispetto all’organizzazione e
alla dislocazione fisica dei dati stessi, l’utente è quindi sollevato dall’onere di conoscere come i dati sono
organizzati e dove sono memorizzati
• controllare la qualità dei dati rispetto alla descrizione formale dei concetti, delle relazioni e dei vincoli propri
del dominio di interesse, solo i dati ad essi conformi possono essere inseriti nel sistema
o Questa tecnica di integrazione consente di avere una semantica condivisa e di far assumere un ruolo
“attivo” ai metadati e non solo documentazione dei dati, evitando così rischi connessi all’obsolescenza
dei metadati e al disallineamento con i dati stessi.
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
9. L’utilizzo presente e futuro del SIR
9
o Attualmente il SIR è la base per:
• la costruzione di liste di Campionamento come ad esempio per il Censimento
Permanente di popolazione e di altre indagini sociali, oppure del censimento Istituzioni
Pubbliche o No profit
• la stima e riporto all’universo per le indagini campionarie
• le informazioni presenti nei registri diventano l’infrastruttura indispensabile per la
diffusione dei dati di produzione
o In fase di studio la possibilità di ottenere nuovi output statistici integrati in risposta a
esigenze di analisi diverse da quelle tradizionali delle linee di produzione dell’Istituto e
mediate dalla domanda esterna all’Istituto. A tal fine è stato avviato il progetto RAF,
Registers Analytics Framework
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
10. Qualità dei registri e degli output integrati
10
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
Un’importante questione per le metodologie statistiche è la valutazione della qualità del SIR e dei
suoi prodotti.
o Uno dei prodotti statistici: stime da registro, ovvero quantità stimate con conteggi diretti dai dati
del SIR
o Queste possono avere una incertezza che va valutata
o Incertezza legata agli errori presenti nei registri e nella loro integrazione
Copertura dei registri (unità eleggibili non incluse, unità non eleggibili incluse)
Misurazione (differenze dal valore ‘vero’ per questioni definitorie, temporali, spesso valori
ottenuti come integrazione/armonizzazione di diverse fonti amministrative)
Integrazione tra i registri (le unità dei registri possono essere integrate con errore)
Campionari. Le variabili possono essere costruite anche con l’ausilio di dati da indagine
campionaria
11. Nuovo ruolo del campione: cambio di paradigma
11
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
Nelle indagini campionarie l’accento era principalmente sul problema della variabilità ora l’attenzione
si sposta sulla distorsione delle stime, spesso ottenute con uso di modelli.
Per la misurazione della distorsione è generalmente richiesta una seconda misurazione indipendente
e di alta qualità. In quest’ottica potrebbe cambiare il ruolo delle indagini che diventano indagini di
controllo per misurare la distorsione, validare i modelli usati e suggerire la relativa correzione.
Un esempio è il caso del censimento della popolazione del 2018 e 2019 i cui conteggi sono stati
ottenuti correggendo quelli del Registro Base degli Individui con un peso che è funzione della sovra e
sotto copertura del registro. Peso stimato con 2 indagini campionarie, una da lista ed una areale
Cambio di prospettiva: evoluzione del modello di produzione in cui si passa da un sistema «survey
based – register assisted» ad uno «register based – survey assisted»
12. Problema della coerenza intra/inter registri e con le indagini
12
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
Sviluppo di metodologie statistiche che:
o valutino e trattino le eventuali incoerenze fra registri: un esempio è il trattamento delle
diverse tempistiche di riferimento che caratterizzano i vari archivi amministrativi e
dunque i vari registri del SIR
o integrino e rendano coerenti i registri e le loro stime con i dati e stime da indagine
campionaria (necessaria per le informazioni non reperibili da fonti amministrative):
• e.g., stime basate sul censimento dei conteggi della popolazione (stock) devono
essere coerenti con le informazioni sugli eventi demografici (flussi) disponibili dai
registri civili in modo tale che l'equazione di bilanciamento demografico (DBE)
sia rispettata
13. Obiettivi dell’industrializzazione
13
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
I processi di produzione dei registri
non devono essere realizzati in modo
frammentario, con operazioni e
controlli manuali ma …
è necessario realizzare un’architettura applicativa che
consenta di gestire i registri attraverso processi
controllati, monitorati, documentati, ripetibili, il più
possibile automatizzati
Progettare e implementare un’architettura tecnologica che realizzi e automatizzi l’architettura
informativa e metodologica definita per i registri e per il SIR, integrandola nel contesto informatico
dell’Istituto
14. Obiettivi dell’industrializzazione – una similitudine
14
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
Assemblare i componenti
Ingegnerizzazione e strutturazione organica del
codice esistente, mappato in fasi e sottofasi del
processo
Aggiungere controlli, indicatori,
spie di monitoraggio
Automatizzare controlli e verifiche manuali
Produrre log e indici opportuni per il monitoraggio
del processo
Costruire il motore o sceglierlo
tra i disponibili sul mercato
Individuazione dello strumento adeguato
all’automatizzazione dei processi
Scegliere e/o costruire la carrozzeria
e assemblare l’automobile
Disegno e realizzazione delle interfacce utente,
per il lancio e il monitoraggio del processo, per la
visualizzazione di reportistica, ecc.
Per i nuovi registri e componenti si potrà attuare un approccio di «industrializzazione by design»
strutturando opportunamente il codice, inserendo log e indici, suddividendo il processo in fasi e sottofasi, fin
dalle prime versioni
15. Ecosistema dei registri – come sarà
15
SISTEMA INTEGRATO DEI REGISTRI: UN SISTEMA DI DATI INTEGRATO AL SERVIZIO DEL PAESE | M. DI ZIO, R.RADINI, G. VASTE
Una completa industrializzazione prevede l’integrazione del SIR con altri sistemi presenti o in
progettazione in Istituto
Sarà un processo complesso, articolato, incrementale, di medio-lungo periodo, che coinvolgerà diverse
professionalità e tecnologie. Saranno necessari rilasci intermedi e implementazione a puzzle.
Sistemi di diffusione anche attraverso
tecniche di Virtualizzazione
Registro trattamenti
(chi accede a quali dati quando)
Sistemi di documentazione,
metadatazione, indicatori di
qualità
Sistemi di interrogazione e analisi
dei dati (es. Ontologie)
Sistemi di monitoraggio della
disponibilità e della qualità
delle fonti amministrative
Sistemi di acquisizione delle
fonti amministrative
16. grazie
Marco Di Zio | dizio@istat.it
Roberta Radini | radini@istat.it
Giulia Vaste | vaste@istat.it
per l’attenzione