Intervento: integrazione tra le fonti
Relatore: Dott.ssa Daniela Fusco - Istat Campania
Nell'ambito della Promozione della Cultura Statistica
il Seminario:
Nuovi dati e nuove fonti: le statistiche sperimentali
a misura di comune
| 26 Marzo 2019
Università degli studi “Parthenope” | Dipartimento di Studi Aziendali e Quantitativi
Via Generale Parisi n. 13| Napoli
Daniela Fusco, Integrazione tra le fonti (Seminario Uni-Parthenope - 26 Marzo 2019)
1. Integrazione tra le fonti
Daniela Fusco
Istat – RMH sede di Napoli
Nuovi dati e nuove fonti: le statistiche sperimentali a misura di comune
Università degli studi «Parthenope», 26 marzo 2019
1
2. • Il sistema delle fonti e i registri statistici
• Vari tipi di integrazione tra fonti
• Perché fare Record Linkage
• Distinzione tra linkage deterministico e linkage probabilistico
• Fasi del Record Linkage
• Errori di linkage e analisi statistica di dati abbinati
• La qualità dei registri – La PES del VI Censimento Generale dell’Agricoltura
• Record linkage at Istat - RELAIS
2
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Sommario
3. 3
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti
Fonte statistica:
Raccolta diretta dei dati: L’informazione viene espressamente raccolta al fine di conoscere
un determinato fenomeno sociale (ad es. censimento). L’attività statistica dell’Istat
confluisce nel PROGRAMMA STATISTICO NAZIONALE che comprende l'insieme di
rilevazioni ed elaborazioni considerate indispensabili per il Paese.
Fonte amministrativa:
Raccolta indiretta dei dati: L’informazione viene raccolta da enti titolari di processi in
ragione dei loro fini istituzionali. L’attività dell’Istat è di elaborazione di dati non statistici
che costituiscono patrimonio dell'ente titolare del processo, per renderli adatti all’uso
statistico (ad es. anagrafe comunale).
Altre fonti:
Open data, Big Data
4. Vantaggi dell’utilizzo delle fonti amministrative:
• Ampliamento dei contenuti informativi della produzione statistica;
• Riduzione dei costi di produzione;
• Riduzione del disturbo statistico;
• Possibilità di ottenere una copertura totale delle popolazioni di riferimento delle
Statistiche;
• Tempestività dei dati.
Svantaggi dell’utilizzo delle fonti amministrative:
• Differenze definitorie;
• Assenza di metadati;
• Informazioni non standardizzate;
• Disposizioni particolari in materia di privacy;
• Rapporti con gli enti fornitori.
4
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti
5. Fonti amministrative + Fonti statistiche = Registri
statistici integrati
5
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
Liste esaustive e aggiornate di
unità appartenenti a
popolazioni di interesse
statistico.
6. Asia:
Il Registro statistico delle imprese attive Asia nasce nel 1996 in base al Regolamento del Consiglio Europeo n. 2816/93
relativo al coordinamento comunitario dello sviluppo dei registri d'impresa utilizzati a fini statistici, poi abrogato e
sostituito dal Regolamento CE n. 177/2008. Il Registro è costituito dalle unità economiche che esercitano arti e
professioni nelle attività industriali, commerciali e dei servizi alle imprese e alle famiglie e fornisce informazioni
identificative (denominazione e indirizzo) e di struttura (attività economica, addetti dipendenti e indipendenti, forma
giuridica, data di inizio e fine attività, fatturato) di tali unità.
Le fonti sono:
- Agenzia delle entrate
- Istituto nazionale per l'assicurazione contro gli infortuni sul lavoro (Inail)
- Camere di commercio, industria, agricoltura e artigianato (Cciaa)
- Banca d'Italia
- Istituto nazionale della previdenza sociale (Inps)
- Seat - pagine gialle Spa
- Istituto per la vigilanza sulle assicurazioni private e di interesse collettivo (Isvap)
6
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
7. Farm register:
La copertura delle unità economiche del settore agricoltura è prevista dal regolamento sui Business Registers (Business
Register (BR) Regulation (EC) No. 177/2008). Il Registro è costituito dalle aziende agricole: «Unità tecnico-economica,
costituita da terreni, anche in appezzamenti non contigui, ed eventualmente da impianti e attrezzature varie, in cui si
attua, in via principale o secondaria, l’attività agricola e zootecnica ad opera di un conduttore – persona fisica, società,
ente - che ne sopporta il rischio sia da solo, come conduttore coltivatore o conduttore con salariati e/o compartecipanti,
sia in forma associata».
Le fonti sono:
- fonti specifiche per il settore, quali l’Agenzia per le Erogazioni in Agricoltura (AGEA), Redditi agrari (RA), Anagrafi
Zootecniche (AA.ZZ.), Catasto terreni ad uso agricolo;
- fonti generali che raccolgono informazioni su tutti i settori produttivi, agricoli e non, quali la Camera di Commercio,
Industria, Artigianato e Agricoltura (CCIAA) e gli archivi
fiscali (IVA);
- fonti statistiche quali il Censimento dell’agricoltura del 2000, l’archivio ASIA – imprese, l’indagine sugli agriturismi,
l’indagine dei prodotti DOP/IGP.
7
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
8. 8
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
FONTE 1
FONTE 2
FONTE 3
FONTE 4
FONTE 5
FONTE
6
9. • Consideriamo due insiemi di dati A e B.
• Obiettivo: “integrare” le due fonti
• Cosa vuol dire?
Distinguiamo fra integrazione micro e macro
Micro: l’obiettivo è quello di rintracciare i record delle due fonti che si riferiscono alla
stessa unità.
Macro: devo ricostruire dei “parametri” (ad esempio una tabella di contingenza) relativa a
variabili osservate distintamente nelle due fonti.
9
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
10. Distinguiamo due metodi di integrazione:
10
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
Input Metodo Obiettivo
Due data set che osservano
gruppi di unità (parzialmente)
sovrapposti
Record linkage Identificare le
stesse unità
presenti nei due DB
Due campioni indipendenti,
senza unità in comune
Statistical matching Ricavare
informazioni sulle
due variabili non
osservate
congiuntamente nei
due DB
11. 11
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
A: composto da
nA record
B: composto da
nB record
Sia A che B
osservano
alcune
variabili
identiche (X)
A B
X Y X Z
xa1 ya1 xb1 zb1
xa2 ya2 xb2 zb2
… … … …
xan yan xb zb
12. 1. Informazione congiunta su due o più variabili osservate su fonti diverse
(Es. analizzare congiuntamente i “fattori di rischio” con l’evento “morte”)
12
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Perché fare record linkage
2. “Contare” una popolazione
(Es. qual è il numero delle aziende agricole in Italia)
3. Sostituire parti di indagini con archivi
(Es. è possibile usare congiuntamente archivi amministrativi e indagini campionarie)
4. Creazione di una “lista” di una popolazione
(Es. Asia)
5. Altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del
micro dato; studio del rischio di identificazione dei microdati rilasciati)
13. Esistono diverse procedure di record linkage.
Deterministico: si stabiliscono a priori una o più regole che, se rispettate,
definiscono i match. Il controllo dei possibili errori può essere svolto solo
manualmente.
Probabilistico: si definisce un modello che genera i dati osservati. Si stabilisce
una regola di decisione che ha l’obiettivo di essere “ottima”, in un senso da
specificare. Si stimano gli elementi utili all’applicazione della regola di
decisione. Vengono definite delle probabilità di errore.
13
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Distinzione tra linkage deterministico e linkage probabilistico
14. 14
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Fasi del Record Linkage
Data
cleaninig
75%
DB B
DB A
Scelta delle
variabili di
match e delle
funzioni di
comparazione
Riduzione
dello spazio di
ricerca
Scelta
del
modello
Match
Possible
match
Unmatch
15. Caso semplice:
15
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
A
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
B
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
16. Realtà:
16
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
A
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
M. Rossi 00125 18/05/70 RM RSSMRA70E18H501T
B
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 125 18 maggio
1970
Roma ----
17. La fase di armonizzazione deve considerare diversi step (van der Laan,
2000):
1) armonizzazione della definizione di unità;
2) armonizzazione dei periodi di riferimento;
3) completamento delle popolazioni;
4) armonizzazione delle definizioni di variabile;
5) armonizzazione delle classificazioni;
6) aggiustamento degli errori di misura (accuratezza);
7) aggiustamento per le mancate risposte;
8) costruzione di variabili derivate.
17
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
18. Bisogna scegliere fra tutte le variabili in comune fra i due data set.
Desiderata: codice unico (Es. Codice fiscale, Partita IVA)
In ogni caso: caratteristiche desiderabili
• universali
• permanenti
• accurate
• non sensibili
Sempre: variabili non correlate tra loro
18
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Selezione delle variabili di matching
19. Per ogni coppia di unità (a,b), si confrontano in modo opportuno le
variabili di matching. In genere si ha:
yab=f(xAa,xBb)
La funzione f(.) (chiamata funzione di confronto) ha il compito di
registrare quanto sono diversi i valori delle variabili chiave nelle due
unità poste a confronto.
19
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta delle funzioni di distanza
20. La funzione f(.) permette di discriminare le diverse coppie di unità fra
quelle che sono match e quelle che sono non-match. Bisogna porre
attenzione al modo in cui f(.) è definita.
Una caratteristica che la funzione di confronto f(.) deve avere è:
- Registrare livelli bassi di diversità per le coppie che sono match,
(a,b)M
- Registrare livelli alti di diversità per le coppie che sono non-match,
(a,b)U
20
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta delle funzioni di distanza
21. In un processo di linkage tra due dataset A e B le coppie devono essere
classificate come match, unmatch e possible match.
Le possibili coppie vengono definite dal prodotto cartesiano AxB.
I problemi sorgono se la dimensione dei due dataset è esigua.
Bisogna quindi ridurre il numero delle possibili coppie (a; b).
Esistono diversi modelli decisionali che consentono di definire regole
per definire il numero di coppie possibili riducendo lo spazio di ricerca.
21
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Riduzione dello spazio di ricerca
22. - Probabilistico
- Deterministico
Scelta delle funzioni di comparazione
e delle soglie
22
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta del modello
A
X1 Y1
X2 Y2
….. …..
Xn Yn
B
X1 Z1
X2 Z2
….. …..
Xn Zn
C
X1 Y1 Z1
X2 Y2 Z2
….. ….. …..
Xn Yn Zn
23. 23
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Errori di linkage e analisi statistica di dati abbinati
Due tipi di errori di linkage:
• falsi abbinamenti: la coppia viene dichiarata link ma in realtà i due
record si riferiscono ad unità diverse sovra copertura dell’universo
• mancati abbinamenti: la coppia viene dichiarata non-link mentre in
realtà i record si riferiscono alla stessa unità sotto copertura
dell’universo
24. Nelle analisi statistiche usare solo i link certi può portare a distorsioni se
i possible matches contengono veri link.
Un modo per trattare i possible matches è rivederli manualmente e
stabilire così lo stato di linkage.
Allo stesso modo si possono cercare falsi non abbinamenti.
Questo approccio è costoso in termini di tempo e soggetto ad errori
Si predilige la scelta di modelli (Es. Neter et al. (1965))
24
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Errori di linkage e analisi statistica di dati abbinati
25. Censimento dell’Agricoltura Post Enumeration Survey (PES)
Obiettivo del record linkage:
- Determinare la copertura del censimento
- Determinare la qualità della lista
25
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri - PES
26. 26
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri - PES
Procedure di abbinamento:
1) Esatto tramite codice identificativo
Codice Unico Azienda Agricola (CUAA)
2) Probabilistico
Provincia, Comune, Cap, Denominazione/nome
3) Revisione manuale
4) Ricerca di legami multipli e trasformazioni
27. 27
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: Pre-processamento
28. 28
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: il modello probabilistico
Ipotesi:
Sulla base del rapporto r, le coppie sono ordinate e sottoposte a un
processo di classificazione negli insiemi M ed U. Le coppie che
hanno una probabilità di abbinamento superiore ad una certa soglia,
Tm, sono classificate come Match; quelle al di sotto dalla soglia Tu come
non Match; infine, per quelle con una probabilità compresa tra Tu e Tm
non viene presa una decisione e sono mandate a revisione manuale.
29. 29
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: risultati della sotto-copertura
Tasso di sotto-copertura del VI Censimento dell’Agricoltura e qualità dei
registri utilizzati
30. 30
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
RELAIS (REcord Linkage At Istat) è un toolkit open source
sviluppato in ISTAT per risolvere i problemi di record
linkage.
L’idea di fondo: Non generalizzare i
processi, ma avere a disposizione un pacchetto di
tecniche per risolvere le singole fasi del processo e
costruire modelli ad hoc per ogni problema
31. 31
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
La filosofia di RELAIS:
• Il progetto di RELAIS ha come obiettivo quello di mettere a disposizione
varie tecniche di record linkage nella maniera più accessibile in modo da
poter essere usato anche dai non esperti.
• Il download è completamente free.
• E’ scaricabile da www.istat.it e http://joinup.ec.europa.eu/
32. 32
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
33. 33
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
34. 34
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Grazie per l’attenzione!
dafusco@istat.it