SlideShare a Scribd company logo
1 of 35
Download to read offline
Integrazione tra le fonti
Daniela Fusco
Istat – RMH sede di Napoli
Nuovi dati e nuove fonti: le statistiche sperimentali a misura di comune
Università degli studi «Parthenope», 26 marzo 2019
1
• Il sistema delle fonti e i registri statistici
• Vari tipi di integrazione tra fonti
• Perché fare Record Linkage
• Distinzione tra linkage deterministico e linkage probabilistico
• Fasi del Record Linkage
• Errori di linkage e analisi statistica di dati abbinati
• La qualità dei registri – La PES del VI Censimento Generale dell’Agricoltura
• Record linkage at Istat - RELAIS
2
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Sommario
3
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti
Fonte statistica:
Raccolta diretta dei dati: L’informazione viene espressamente raccolta al fine di conoscere
un determinato fenomeno sociale (ad es. censimento). L’attività statistica dell’Istat
confluisce nel PROGRAMMA STATISTICO NAZIONALE che comprende l'insieme di
rilevazioni ed elaborazioni considerate indispensabili per il Paese.
Fonte amministrativa:
Raccolta indiretta dei dati: L’informazione viene raccolta da enti titolari di processi in
ragione dei loro fini istituzionali. L’attività dell’Istat è di elaborazione di dati non statistici
che costituiscono patrimonio dell'ente titolare del processo, per renderli adatti all’uso
statistico (ad es. anagrafe comunale).
Altre fonti:
Open data, Big Data
Vantaggi dell’utilizzo delle fonti amministrative:
• Ampliamento dei contenuti informativi della produzione statistica;
• Riduzione dei costi di produzione;
• Riduzione del disturbo statistico;
• Possibilità di ottenere una copertura totale delle popolazioni di riferimento delle
Statistiche;
• Tempestività dei dati.
Svantaggi dell’utilizzo delle fonti amministrative:
• Differenze definitorie;
• Assenza di metadati;
• Informazioni non standardizzate;
• Disposizioni particolari in materia di privacy;
• Rapporti con gli enti fornitori.
4
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti
Fonti amministrative + Fonti statistiche = Registri
statistici integrati
5
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
Liste esaustive e aggiornate di
unità appartenenti a
popolazioni di interesse
statistico.
Asia:
Il Registro statistico delle imprese attive Asia nasce nel 1996 in base al Regolamento del Consiglio Europeo n. 2816/93
relativo al coordinamento comunitario dello sviluppo dei registri d'impresa utilizzati a fini statistici, poi abrogato e
sostituito dal Regolamento CE n. 177/2008. Il Registro è costituito dalle unità economiche che esercitano arti e
professioni nelle attività industriali, commerciali e dei servizi alle imprese e alle famiglie e fornisce informazioni
identificative (denominazione e indirizzo) e di struttura (attività economica, addetti dipendenti e indipendenti, forma
giuridica, data di inizio e fine attività, fatturato) di tali unità.
Le fonti sono:
- Agenzia delle entrate
- Istituto nazionale per l'assicurazione contro gli infortuni sul lavoro (Inail)
- Camere di commercio, industria, agricoltura e artigianato (Cciaa)
- Banca d'Italia
- Istituto nazionale della previdenza sociale (Inps)
- Seat - pagine gialle Spa
- Istituto per la vigilanza sulle assicurazioni private e di interesse collettivo (Isvap)
6
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
Farm register:
La copertura delle unità economiche del settore agricoltura è prevista dal regolamento sui Business Registers (Business
Register (BR) Regulation (EC) No. 177/2008). Il Registro è costituito dalle aziende agricole: «Unità tecnico-economica,
costituita da terreni, anche in appezzamenti non contigui, ed eventualmente da impianti e attrezzature varie, in cui si
attua, in via principale o secondaria, l’attività agricola e zootecnica ad opera di un conduttore – persona fisica, società,
ente - che ne sopporta il rischio sia da solo, come conduttore coltivatore o conduttore con salariati e/o compartecipanti,
sia in forma associata».
Le fonti sono:
- fonti specifiche per il settore, quali l’Agenzia per le Erogazioni in Agricoltura (AGEA), Redditi agrari (RA), Anagrafi
Zootecniche (AA.ZZ.), Catasto terreni ad uso agricolo;
- fonti generali che raccolgono informazioni su tutti i settori produttivi, agricoli e non, quali la Camera di Commercio,
Industria, Artigianato e Agricoltura (CCIAA) e gli archivi
fiscali (IVA);
- fonti statistiche quali il Censimento dell’agricoltura del 2000, l’archivio ASIA – imprese, l’indagine sugli agriturismi,
l’indagine dei prodotti DOP/IGP.
7
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Il sistema delle fonti e i registri statistici
8
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
FONTE 1
FONTE 2
FONTE 3
FONTE 4
FONTE 5
FONTE
6
• Consideriamo due insiemi di dati A e B.
• Obiettivo: “integrare” le due fonti
• Cosa vuol dire?
Distinguiamo fra integrazione micro e macro
Micro: l’obiettivo è quello di rintracciare i record delle due fonti che si riferiscono alla
stessa unità.
Macro: devo ricostruire dei “parametri” (ad esempio una tabella di contingenza) relativa a
variabili osservate distintamente nelle due fonti.
9
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
Distinguiamo due metodi di integrazione:
10
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
Input Metodo Obiettivo
Due data set che osservano
gruppi di unità (parzialmente)
sovrapposti
Record linkage Identificare le
stesse unità
presenti nei due DB
Due campioni indipendenti,
senza unità in comune
Statistical matching Ricavare
informazioni sulle
due variabili non
osservate
congiuntamente nei
due DB
11
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
I vari tipi di integrazione
A: composto da
nA record
B: composto da
nB record
Sia A che B
osservano
alcune
variabili
identiche (X)
A B
X Y X Z
xa1 ya1 xb1 zb1
xa2 ya2 xb2 zb2
… … … …
xan yan xb zb
1. Informazione congiunta su due o più variabili osservate su fonti diverse
(Es. analizzare congiuntamente i “fattori di rischio” con l’evento “morte”)
12
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Perché fare record linkage
2. “Contare” una popolazione
(Es. qual è il numero delle aziende agricole in Italia)
3. Sostituire parti di indagini con archivi
(Es. è possibile usare congiuntamente archivi amministrativi e indagini campionarie)
4. Creazione di una “lista” di una popolazione
(Es. Asia)
5. Altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del
micro dato; studio del rischio di identificazione dei microdati rilasciati)
Esistono diverse procedure di record linkage.
Deterministico: si stabiliscono a priori una o più regole che, se rispettate,
definiscono i match. Il controllo dei possibili errori può essere svolto solo
manualmente.
Probabilistico: si definisce un modello che genera i dati osservati. Si stabilisce
una regola di decisione che ha l’obiettivo di essere “ottima”, in un senso da
specificare. Si stimano gli elementi utili all’applicazione della regola di
decisione. Vengono definite delle probabilità di errore.
13
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Distinzione tra linkage deterministico e linkage probabilistico
14
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Fasi del Record Linkage
Data
cleaninig
75%
DB B
DB A
Scelta delle
variabili di
match e delle
funzioni di
comparazione
Riduzione
dello spazio di
ricerca
Scelta
del
modello
Match
Possible
match
Unmatch
Caso semplice:
15
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
A
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
B
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
Realtà:
16
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
A
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
M. Rossi 00125 18/05/70 RM RSSMRA70E18H501T
B
Nome Cognome CAP Data di
nascita
Luogo di
nascita
Codice fiscale
Mario Rossi 125 18 maggio
1970
Roma ----
La fase di armonizzazione deve considerare diversi step (van der Laan,
2000):
1) armonizzazione della definizione di unità;
2) armonizzazione dei periodi di riferimento;
3) completamento delle popolazioni;
4) armonizzazione delle definizioni di variabile;
5) armonizzazione delle classificazioni;
6) aggiustamento degli errori di misura (accuratezza);
7) aggiustamento per le mancate risposte;
8) costruzione di variabili derivate.
17
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Data cleaning
Bisogna scegliere fra tutte le variabili in comune fra i due data set.
Desiderata: codice unico (Es. Codice fiscale, Partita IVA)
In ogni caso: caratteristiche desiderabili
• universali
• permanenti
• accurate
• non sensibili
Sempre: variabili non correlate tra loro
18
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Selezione delle variabili di matching
Per ogni coppia di unità (a,b), si confrontano in modo opportuno le
variabili di matching. In genere si ha:
yab=f(xAa,xBb)
La funzione f(.) (chiamata funzione di confronto) ha il compito di
registrare quanto sono diversi i valori delle variabili chiave nelle due
unità poste a confronto.
19
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta delle funzioni di distanza
La funzione f(.) permette di discriminare le diverse coppie di unità fra
quelle che sono match e quelle che sono non-match. Bisogna porre
attenzione al modo in cui f(.) è definita.
Una caratteristica che la funzione di confronto f(.) deve avere è:
- Registrare livelli bassi di diversità per le coppie che sono match,
(a,b)M
- Registrare livelli alti di diversità per le coppie che sono non-match,
(a,b)U
20
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta delle funzioni di distanza
In un processo di linkage tra due dataset A e B le coppie devono essere
classificate come match, unmatch e possible match.
Le possibili coppie vengono definite dal prodotto cartesiano AxB.
I problemi sorgono se la dimensione dei due dataset è esigua.
Bisogna quindi ridurre il numero delle possibili coppie (a; b).
Esistono diversi modelli decisionali che consentono di definire regole
per definire il numero di coppie possibili riducendo lo spazio di ricerca.
21
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Riduzione dello spazio di ricerca
- Probabilistico
- Deterministico
Scelta delle funzioni di comparazione
e delle soglie
22
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Scelta del modello
A
X1 Y1
X2 Y2
….. …..
Xn Yn
B
X1 Z1
X2 Z2
….. …..
Xn Zn
C
X1 Y1 Z1
X2 Y2 Z2
….. ….. …..
Xn Yn Zn
23
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Errori di linkage e analisi statistica di dati abbinati
Due tipi di errori di linkage:
• falsi abbinamenti: la coppia viene dichiarata link ma in realtà i due
record si riferiscono ad unità diverse sovra copertura dell’universo
• mancati abbinamenti: la coppia viene dichiarata non-link mentre in
realtà i record si riferiscono alla stessa unità sotto copertura
dell’universo
Nelle analisi statistiche usare solo i link certi può portare a distorsioni se
i possible matches contengono veri link.
Un modo per trattare i possible matches è rivederli manualmente e
stabilire così lo stato di linkage.
Allo stesso modo si possono cercare falsi non abbinamenti.
Questo approccio è costoso in termini di tempo e soggetto ad errori
Si predilige la scelta di modelli (Es. Neter et al. (1965))
24
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Errori di linkage e analisi statistica di dati abbinati
Censimento dell’Agricoltura Post Enumeration Survey (PES)
Obiettivo del record linkage:
- Determinare la copertura del censimento
- Determinare la qualità della lista
25
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri - PES
26
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri - PES
Procedure di abbinamento:
1) Esatto tramite codice identificativo
Codice Unico Azienda Agricola (CUAA)
2) Probabilistico
Provincia, Comune, Cap, Denominazione/nome
3) Revisione manuale
4) Ricerca di legami multipli e trasformazioni
27
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: Pre-processamento
28
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: il modello probabilistico
Ipotesi:
Sulla base del rapporto r, le coppie sono ordinate e sottoposte a un
processo di classificazione negli insiemi M ed U. Le coppie che
hanno una probabilità di abbinamento superiore ad una certa soglia,
Tm, sono classificate come Match; quelle al di sotto dalla soglia Tu come
non Match; infine, per quelle con una probabilità compresa tra Tu e Tm
non viene presa una decisione e sono mandate a revisione manuale.
29
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
La qualità dei registri – PES: risultati della sotto-copertura
Tasso di sotto-copertura del VI Censimento dell’Agricoltura e qualità dei
registri utilizzati
30
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
RELAIS (REcord Linkage At Istat) è un toolkit open source
sviluppato in ISTAT per risolvere i problemi di record
linkage.
L’idea di fondo: Non generalizzare i
processi, ma avere a disposizione un pacchetto di
tecniche per risolvere le singole fasi del processo e
costruire modelli ad hoc per ogni problema
31
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
La filosofia di RELAIS:
• Il progetto di RELAIS ha come obiettivo quello di mettere a disposizione
varie tecniche di record linkage nella maniera più accessibile in modo da
poter essere usato anche dai non esperti.
• Il download è completamente free.
• E’ scaricabile da www.istat.it e http://joinup.ec.europa.eu/
32
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
33
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Record linkage at Istat - RELAIS
34
Integrazione tra le fonti
Università degli studi «Parthenope», 26 marzo 2019
Grazie per l’attenzione!
dafusco@istat.it
35

More Related Content

Similar to Daniela Fusco, Integrazione tra le fonti (Seminario Uni-Parthenope - 26 Marzo 2019)

Ricerca dati 2014
Ricerca dati 2014Ricerca dati 2014
Ricerca dati 2014
bibstat
 
Ricerca datiweb 2014
Ricerca datiweb 2014Ricerca datiweb 2014
Ricerca datiweb 2014
bibstat
 
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
Istituto nazionale di statistica
 

Similar to Daniela Fusco, Integrazione tra le fonti (Seminario Uni-Parthenope - 26 Marzo 2019) (20)

Valeriana Leporanico, La diffusione delle statistiche (Seminario Uni-Partheno...
Valeriana Leporanico, La diffusione delle statistiche (Seminario Uni-Partheno...Valeriana Leporanico, La diffusione delle statistiche (Seminario Uni-Partheno...
Valeriana Leporanico, La diffusione delle statistiche (Seminario Uni-Partheno...
 
Giuseppe Cinquegrana, Le Statistiche Sperimentali a Misura di Comune (Seminar...
Giuseppe Cinquegrana, Le Statistiche Sperimentali a Misura di Comune (Seminar...Giuseppe Cinquegrana, Le Statistiche Sperimentali a Misura di Comune (Seminar...
Giuseppe Cinquegrana, Le Statistiche Sperimentali a Misura di Comune (Seminar...
 
Ricerca dati 2014
Ricerca dati 2014Ricerca dati 2014
Ricerca dati 2014
 
Ricerca datiweb 2014
Ricerca datiweb 2014Ricerca datiweb 2014
Ricerca datiweb 2014
 
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
 
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
Simona Cafieri, Il censimento permanente - novità e prospettive (Seminario Un...
 
Conoscere la PA, misurare l'innovazione: il Censimento permanente delle Istit...
Conoscere la PA, misurare l'innovazione: il Censimento permanente delle Istit...Conoscere la PA, misurare l'innovazione: il Censimento permanente delle Istit...
Conoscere la PA, misurare l'innovazione: il Censimento permanente delle Istit...
 
M. Calzaroni - L'uso delle fonti amministrative integrate: dall'esperienza de...
M. Calzaroni - L'uso delle fonti amministrative integrate: dall'esperienza de...M. Calzaroni - L'uso delle fonti amministrative integrate: dall'esperienza de...
M. Calzaroni - L'uso delle fonti amministrative integrate: dall'esperienza de...
 
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
Manlio Calzaroni, Statistica ufficiale e dati quantitativi per le politiche t...
 
Francesco Orabona, L'Istat e La statistica ufficiale (Seminario Uni-Parthenop...
Francesco Orabona, L'Istat e La statistica ufficiale (Seminario Uni-Parthenop...Francesco Orabona, L'Istat e La statistica ufficiale (Seminario Uni-Parthenop...
Francesco Orabona, L'Istat e La statistica ufficiale (Seminario Uni-Parthenop...
 
R. Monducci, Intervento alla tavola rotonda - Problematiche e opportunità del...
R. Monducci, Intervento alla tavola rotonda - Problematiche e opportunità del...R. Monducci, Intervento alla tavola rotonda - Problematiche e opportunità del...
R. Monducci, Intervento alla tavola rotonda - Problematiche e opportunità del...
 
M.Mazziotta, C.Santoro, Le statistiche sperimentali Istat: "A misura di comune"
M.Mazziotta,  C.Santoro, Le statistiche sperimentali Istat: "A misura di comune"M.Mazziotta,  C.Santoro, Le statistiche sperimentali Istat: "A misura di comune"
M.Mazziotta, C.Santoro, Le statistiche sperimentali Istat: "A misura di comune"
 
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
 
V. Buratta, S. Prati, Dall'anagrafe virtuale statistica al registro base del...
V. Buratta, S. Prati,  Dall'anagrafe virtuale statistica al registro base del...V. Buratta, S. Prati,  Dall'anagrafe virtuale statistica al registro base del...
V. Buratta, S. Prati, Dall'anagrafe virtuale statistica al registro base del...
 
A. Bianchino, Il censimento permanente - Novità e prospettive
A. Bianchino, Il  censimento permanente - Novità e prospettiveA. Bianchino, Il  censimento permanente - Novità e prospettive
A. Bianchino, Il censimento permanente - Novità e prospettive
 
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazioneS. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
 
S. Menghinello, Le prospettive della misurazione statistica delle Istituzioni...
S. Menghinello, Le prospettive della misurazione statistica delle Istituzioni...S. Menghinello, Le prospettive della misurazione statistica delle Istituzioni...
S. Menghinello, Le prospettive della misurazione statistica delle Istituzioni...
 
V. Tiberi - Le fonti di dati
V. Tiberi - Le fonti di datiV. Tiberi - Le fonti di dati
V. Tiberi - Le fonti di dati
 
Le nuove strategie censuarie e i dati storici comunali ai confini attuali-M....
 Le nuove strategie censuarie e i dati storici comunali ai confini attuali-M.... Le nuove strategie censuarie e i dati storici comunali ai confini attuali-M....
Le nuove strategie censuarie e i dati storici comunali ai confini attuali-M....
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 

More from Istat Area SUD Eventi Territoriali

Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
Istat Area SUD Eventi Territoriali
 
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
Istat Area SUD Eventi Territoriali
 
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
Istat Area SUD Eventi Territoriali
 
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
Istat Area SUD Eventi Territoriali
 
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
Istat Area SUD Eventi Territoriali
 
Convegno: "Verso il Censimento Permanente della Popolazione"
Convegno: "Verso il Censimento Permanente della Popolazione"Convegno: "Verso il Censimento Permanente della Popolazione"
Convegno: "Verso il Censimento Permanente della Popolazione"
Istat Area SUD Eventi Territoriali
 

More from Istat Area SUD Eventi Territoriali (18)

Enrico Caleprico: "incidenti stradali nella Città Metropolitana di Napoli 2018"
Enrico Caleprico: "incidenti stradali nella Città Metropolitana di Napoli 2018"Enrico Caleprico: "incidenti stradali nella Città Metropolitana di Napoli 2018"
Enrico Caleprico: "incidenti stradali nella Città Metropolitana di Napoli 2018"
 
Giuseppe Cinquegrana: "Incidenti stradali in Campania - 2018"
Giuseppe Cinquegrana: "Incidenti stradali in Campania - 2018"Giuseppe Cinquegrana: "Incidenti stradali in Campania - 2018"
Giuseppe Cinquegrana: "Incidenti stradali in Campania - 2018"
 
Gli incidenti stradali in Campania nel 2018
Gli incidenti stradali in Campania nel 2018Gli incidenti stradali in Campania nel 2018
Gli incidenti stradali in Campania nel 2018
 
Cafieri Simona | La statistica entra nelle scuole con il Censimento Permanent...
Cafieri Simona | La statistica entra nelle scuole con il Censimento Permanent...Cafieri Simona | La statistica entra nelle scuole con il Censimento Permanent...
Cafieri Simona | La statistica entra nelle scuole con il Censimento Permanent...
 
Cimmino Pasquale | L'agenda 2030 delle Nazioni Unite sullo sviluppo sostenibi...
Cimmino Pasquale | L'agenda 2030 delle Nazioni Unite sullo sviluppo sostenibi...Cimmino Pasquale | L'agenda 2030 delle Nazioni Unite sullo sviluppo sostenibi...
Cimmino Pasquale | L'agenda 2030 delle Nazioni Unite sullo sviluppo sostenibi...
 
Cinquegrana Giuseppe | Gli indicatori dell'Istat per lo sviluppo sostenibile ...
Cinquegrana Giuseppe | Gli indicatori dell'Istat per lo sviluppo sostenibile ...Cinquegrana Giuseppe | Gli indicatori dell'Istat per lo sviluppo sostenibile ...
Cinquegrana Giuseppe | Gli indicatori dell'Istat per lo sviluppo sostenibile ...
 
Giuseppe Cinquegrana | Il censimento delle istituzioni pubbliche | 25 settemb...
Giuseppe Cinquegrana | Il censimento delle istituzioni pubbliche | 25 settemb...Giuseppe Cinquegrana | Il censimento delle istituzioni pubbliche | 25 settemb...
Giuseppe Cinquegrana | Il censimento delle istituzioni pubbliche | 25 settemb...
 
Seminario: I risultati del censimento delle istituzioni pubbliche in Campania...
Seminario: I risultati del censimento delle istituzioni pubbliche in Campania...Seminario: I risultati del censimento delle istituzioni pubbliche in Campania...
Seminario: I risultati del censimento delle istituzioni pubbliche in Campania...
 
Giuseppe Cinquegrana -Le statistiche europee sulla digitalizzazione - 23 Magi...
Giuseppe Cinquegrana -Le statistiche europee sulla digitalizzazione - 23 Magi...Giuseppe Cinquegrana -Le statistiche europee sulla digitalizzazione - 23 Magi...
Giuseppe Cinquegrana -Le statistiche europee sulla digitalizzazione - 23 Magi...
 
Maria Antonietta Liguori - I Big Data nelle imprese e nell’agricoltura - 23 M...
Maria Antonietta Liguori - I Big Data nelle imprese e nell’agricoltura - 23 M...Maria Antonietta Liguori - I Big Data nelle imprese e nell’agricoltura - 23 M...
Maria Antonietta Liguori - I Big Data nelle imprese e nell’agricoltura - 23 M...
 
Daniela Fusco - L’uso dei Big Data a supporto della statistica - 23 maggio 20...
Daniela Fusco - L’uso dei Big Data a supporto della statistica - 23 maggio 20...Daniela Fusco - L’uso dei Big Data a supporto della statistica - 23 maggio 20...
Daniela Fusco - L’uso dei Big Data a supporto della statistica - 23 maggio 20...
 
Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
Le imprese pubbliche nei Conti Nazionali - Gerolamo Giungato | Istat | Conveg...
 
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
Efficienza e performance delle imprese pubbliche: un’analisi per settore - Gi...
 
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
I servizi pubblici erogati dalle imprese pubbliche - Stefano Prezioso | Svime...
 
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
Le imprese pubbliche nel territorio: un’analisi per unità locale Daniela De F...
 
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
Le partecipate nei Conti Pubblici Territoriali - Alessandra Tancredi | NUVEC ...
 
GIS - Ottava Giornata Italiana della Statistica - Caserta 2018
GIS - Ottava Giornata Italiana della Statistica - Caserta 2018GIS - Ottava Giornata Italiana della Statistica - Caserta 2018
GIS - Ottava Giornata Italiana della Statistica - Caserta 2018
 
Convegno: "Verso il Censimento Permanente della Popolazione"
Convegno: "Verso il Censimento Permanente della Popolazione"Convegno: "Verso il Censimento Permanente della Popolazione"
Convegno: "Verso il Censimento Permanente della Popolazione"
 

Recently uploaded

case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 

Recently uploaded (19)

ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 

Daniela Fusco, Integrazione tra le fonti (Seminario Uni-Parthenope - 26 Marzo 2019)

  • 1. Integrazione tra le fonti Daniela Fusco Istat – RMH sede di Napoli Nuovi dati e nuove fonti: le statistiche sperimentali a misura di comune Università degli studi «Parthenope», 26 marzo 2019 1
  • 2. • Il sistema delle fonti e i registri statistici • Vari tipi di integrazione tra fonti • Perché fare Record Linkage • Distinzione tra linkage deterministico e linkage probabilistico • Fasi del Record Linkage • Errori di linkage e analisi statistica di dati abbinati • La qualità dei registri – La PES del VI Censimento Generale dell’Agricoltura • Record linkage at Istat - RELAIS 2 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Sommario
  • 3. 3 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Il sistema delle fonti Fonte statistica: Raccolta diretta dei dati: L’informazione viene espressamente raccolta al fine di conoscere un determinato fenomeno sociale (ad es. censimento). L’attività statistica dell’Istat confluisce nel PROGRAMMA STATISTICO NAZIONALE che comprende l'insieme di rilevazioni ed elaborazioni considerate indispensabili per il Paese. Fonte amministrativa: Raccolta indiretta dei dati: L’informazione viene raccolta da enti titolari di processi in ragione dei loro fini istituzionali. L’attività dell’Istat è di elaborazione di dati non statistici che costituiscono patrimonio dell'ente titolare del processo, per renderli adatti all’uso statistico (ad es. anagrafe comunale). Altre fonti: Open data, Big Data
  • 4. Vantaggi dell’utilizzo delle fonti amministrative: • Ampliamento dei contenuti informativi della produzione statistica; • Riduzione dei costi di produzione; • Riduzione del disturbo statistico; • Possibilità di ottenere una copertura totale delle popolazioni di riferimento delle Statistiche; • Tempestività dei dati. Svantaggi dell’utilizzo delle fonti amministrative: • Differenze definitorie; • Assenza di metadati; • Informazioni non standardizzate; • Disposizioni particolari in materia di privacy; • Rapporti con gli enti fornitori. 4 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Il sistema delle fonti
  • 5. Fonti amministrative + Fonti statistiche = Registri statistici integrati 5 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Il sistema delle fonti e i registri statistici Liste esaustive e aggiornate di unità appartenenti a popolazioni di interesse statistico.
  • 6. Asia: Il Registro statistico delle imprese attive Asia nasce nel 1996 in base al Regolamento del Consiglio Europeo n. 2816/93 relativo al coordinamento comunitario dello sviluppo dei registri d'impresa utilizzati a fini statistici, poi abrogato e sostituito dal Regolamento CE n. 177/2008. Il Registro è costituito dalle unità economiche che esercitano arti e professioni nelle attività industriali, commerciali e dei servizi alle imprese e alle famiglie e fornisce informazioni identificative (denominazione e indirizzo) e di struttura (attività economica, addetti dipendenti e indipendenti, forma giuridica, data di inizio e fine attività, fatturato) di tali unità. Le fonti sono: - Agenzia delle entrate - Istituto nazionale per l'assicurazione contro gli infortuni sul lavoro (Inail) - Camere di commercio, industria, agricoltura e artigianato (Cciaa) - Banca d'Italia - Istituto nazionale della previdenza sociale (Inps) - Seat - pagine gialle Spa - Istituto per la vigilanza sulle assicurazioni private e di interesse collettivo (Isvap) 6 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Il sistema delle fonti e i registri statistici
  • 7. Farm register: La copertura delle unità economiche del settore agricoltura è prevista dal regolamento sui Business Registers (Business Register (BR) Regulation (EC) No. 177/2008). Il Registro è costituito dalle aziende agricole: «Unità tecnico-economica, costituita da terreni, anche in appezzamenti non contigui, ed eventualmente da impianti e attrezzature varie, in cui si attua, in via principale o secondaria, l’attività agricola e zootecnica ad opera di un conduttore – persona fisica, società, ente - che ne sopporta il rischio sia da solo, come conduttore coltivatore o conduttore con salariati e/o compartecipanti, sia in forma associata». Le fonti sono: - fonti specifiche per il settore, quali l’Agenzia per le Erogazioni in Agricoltura (AGEA), Redditi agrari (RA), Anagrafi Zootecniche (AA.ZZ.), Catasto terreni ad uso agricolo; - fonti generali che raccolgono informazioni su tutti i settori produttivi, agricoli e non, quali la Camera di Commercio, Industria, Artigianato e Agricoltura (CCIAA) e gli archivi fiscali (IVA); - fonti statistiche quali il Censimento dell’agricoltura del 2000, l’archivio ASIA – imprese, l’indagine sugli agriturismi, l’indagine dei prodotti DOP/IGP. 7 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Il sistema delle fonti e i registri statistici
  • 8. 8 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 I vari tipi di integrazione FONTE 1 FONTE 2 FONTE 3 FONTE 4 FONTE 5 FONTE 6
  • 9. • Consideriamo due insiemi di dati A e B. • Obiettivo: “integrare” le due fonti • Cosa vuol dire? Distinguiamo fra integrazione micro e macro Micro: l’obiettivo è quello di rintracciare i record delle due fonti che si riferiscono alla stessa unità. Macro: devo ricostruire dei “parametri” (ad esempio una tabella di contingenza) relativa a variabili osservate distintamente nelle due fonti. 9 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 I vari tipi di integrazione
  • 10. Distinguiamo due metodi di integrazione: 10 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 I vari tipi di integrazione Input Metodo Obiettivo Due data set che osservano gruppi di unità (parzialmente) sovrapposti Record linkage Identificare le stesse unità presenti nei due DB Due campioni indipendenti, senza unità in comune Statistical matching Ricavare informazioni sulle due variabili non osservate congiuntamente nei due DB
  • 11. 11 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 I vari tipi di integrazione A: composto da nA record B: composto da nB record Sia A che B osservano alcune variabili identiche (X) A B X Y X Z xa1 ya1 xb1 zb1 xa2 ya2 xb2 zb2 … … … … xan yan xb zb
  • 12. 1. Informazione congiunta su due o più variabili osservate su fonti diverse (Es. analizzare congiuntamente i “fattori di rischio” con l’evento “morte”) 12 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Perché fare record linkage 2. “Contare” una popolazione (Es. qual è il numero delle aziende agricole in Italia) 3. Sostituire parti di indagini con archivi (Es. è possibile usare congiuntamente archivi amministrativi e indagini campionarie) 4. Creazione di una “lista” di una popolazione (Es. Asia) 5. Altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)
  • 13. Esistono diverse procedure di record linkage. Deterministico: si stabiliscono a priori una o più regole che, se rispettate, definiscono i match. Il controllo dei possibili errori può essere svolto solo manualmente. Probabilistico: si definisce un modello che genera i dati osservati. Si stabilisce una regola di decisione che ha l’obiettivo di essere “ottima”, in un senso da specificare. Si stimano gli elementi utili all’applicazione della regola di decisione. Vengono definite delle probabilità di errore. 13 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Distinzione tra linkage deterministico e linkage probabilistico
  • 14. 14 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Fasi del Record Linkage Data cleaninig 75% DB B DB A Scelta delle variabili di match e delle funzioni di comparazione Riduzione dello spazio di ricerca Scelta del modello Match Possible match Unmatch
  • 15. Caso semplice: 15 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Data cleaning A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T B Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T
  • 16. Realtà: 16 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Data cleaning A Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale M. Rossi 00125 18/05/70 RM RSSMRA70E18H501T B Nome Cognome CAP Data di nascita Luogo di nascita Codice fiscale Mario Rossi 125 18 maggio 1970 Roma ----
  • 17. La fase di armonizzazione deve considerare diversi step (van der Laan, 2000): 1) armonizzazione della definizione di unità; 2) armonizzazione dei periodi di riferimento; 3) completamento delle popolazioni; 4) armonizzazione delle definizioni di variabile; 5) armonizzazione delle classificazioni; 6) aggiustamento degli errori di misura (accuratezza); 7) aggiustamento per le mancate risposte; 8) costruzione di variabili derivate. 17 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Data cleaning
  • 18. Bisogna scegliere fra tutte le variabili in comune fra i due data set. Desiderata: codice unico (Es. Codice fiscale, Partita IVA) In ogni caso: caratteristiche desiderabili • universali • permanenti • accurate • non sensibili Sempre: variabili non correlate tra loro 18 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Selezione delle variabili di matching
  • 19. Per ogni coppia di unità (a,b), si confrontano in modo opportuno le variabili di matching. In genere si ha: yab=f(xAa,xBb) La funzione f(.) (chiamata funzione di confronto) ha il compito di registrare quanto sono diversi i valori delle variabili chiave nelle due unità poste a confronto. 19 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Scelta delle funzioni di distanza
  • 20. La funzione f(.) permette di discriminare le diverse coppie di unità fra quelle che sono match e quelle che sono non-match. Bisogna porre attenzione al modo in cui f(.) è definita. Una caratteristica che la funzione di confronto f(.) deve avere è: - Registrare livelli bassi di diversità per le coppie che sono match, (a,b)M - Registrare livelli alti di diversità per le coppie che sono non-match, (a,b)U 20 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Scelta delle funzioni di distanza
  • 21. In un processo di linkage tra due dataset A e B le coppie devono essere classificate come match, unmatch e possible match. Le possibili coppie vengono definite dal prodotto cartesiano AxB. I problemi sorgono se la dimensione dei due dataset è esigua. Bisogna quindi ridurre il numero delle possibili coppie (a; b). Esistono diversi modelli decisionali che consentono di definire regole per definire il numero di coppie possibili riducendo lo spazio di ricerca. 21 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Riduzione dello spazio di ricerca
  • 22. - Probabilistico - Deterministico Scelta delle funzioni di comparazione e delle soglie 22 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Scelta del modello A X1 Y1 X2 Y2 ….. ….. Xn Yn B X1 Z1 X2 Z2 ….. ….. Xn Zn C X1 Y1 Z1 X2 Y2 Z2 ….. ….. ….. Xn Yn Zn
  • 23. 23 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Errori di linkage e analisi statistica di dati abbinati Due tipi di errori di linkage: • falsi abbinamenti: la coppia viene dichiarata link ma in realtà i due record si riferiscono ad unità diverse sovra copertura dell’universo • mancati abbinamenti: la coppia viene dichiarata non-link mentre in realtà i record si riferiscono alla stessa unità sotto copertura dell’universo
  • 24. Nelle analisi statistiche usare solo i link certi può portare a distorsioni se i possible matches contengono veri link. Un modo per trattare i possible matches è rivederli manualmente e stabilire così lo stato di linkage. Allo stesso modo si possono cercare falsi non abbinamenti. Questo approccio è costoso in termini di tempo e soggetto ad errori Si predilige la scelta di modelli (Es. Neter et al. (1965)) 24 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Errori di linkage e analisi statistica di dati abbinati
  • 25. Censimento dell’Agricoltura Post Enumeration Survey (PES) Obiettivo del record linkage: - Determinare la copertura del censimento - Determinare la qualità della lista 25 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 La qualità dei registri - PES
  • 26. 26 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 La qualità dei registri - PES Procedure di abbinamento: 1) Esatto tramite codice identificativo Codice Unico Azienda Agricola (CUAA) 2) Probabilistico Provincia, Comune, Cap, Denominazione/nome 3) Revisione manuale 4) Ricerca di legami multipli e trasformazioni
  • 27. 27 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 La qualità dei registri – PES: Pre-processamento
  • 28. 28 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 La qualità dei registri – PES: il modello probabilistico Ipotesi: Sulla base del rapporto r, le coppie sono ordinate e sottoposte a un processo di classificazione negli insiemi M ed U. Le coppie che hanno una probabilità di abbinamento superiore ad una certa soglia, Tm, sono classificate come Match; quelle al di sotto dalla soglia Tu come non Match; infine, per quelle con una probabilità compresa tra Tu e Tm non viene presa una decisione e sono mandate a revisione manuale.
  • 29. 29 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 La qualità dei registri – PES: risultati della sotto-copertura Tasso di sotto-copertura del VI Censimento dell’Agricoltura e qualità dei registri utilizzati
  • 30. 30 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Record linkage at Istat - RELAIS RELAIS (REcord Linkage At Istat) è un toolkit open source sviluppato in ISTAT per risolvere i problemi di record linkage. L’idea di fondo: Non generalizzare i processi, ma avere a disposizione un pacchetto di tecniche per risolvere le singole fasi del processo e costruire modelli ad hoc per ogni problema
  • 31. 31 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Record linkage at Istat - RELAIS La filosofia di RELAIS: • Il progetto di RELAIS ha come obiettivo quello di mettere a disposizione varie tecniche di record linkage nella maniera più accessibile in modo da poter essere usato anche dai non esperti. • Il download è completamente free. • E’ scaricabile da www.istat.it e http://joinup.ec.europa.eu/
  • 32. 32 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Record linkage at Istat - RELAIS
  • 33. 33 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Record linkage at Istat - RELAIS
  • 34. 34 Integrazione tra le fonti Università degli studi «Parthenope», 26 marzo 2019 Grazie per l’attenzione! dafusco@istat.it
  • 35. 35