SlideShare a Scribd company logo
1 of 25
Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto



       Metodi statistici per
l’integrazione di dati provenienti
         da fonti diverse
Sommario

1)   Cosa vuol dire integrazione
2)   Record linkage: perché
3)   Il metodo di Fellegi e Sunter
4)   Come risolvere il problema con RELAIS
Cosa vuol dire integrazione
Integrare i dati: non è solo un problema
    informatico: ma sono necessarie analisi
    e procedure statistiche!
 La procedura di integrazione può essere
    soggetta a errore: bisogna misurarlo
 Diversi tipi di integrazione a seconda
    delle caratteristiche dei data set
Primo problema di integrazione
                                  Questo problema prende
Nome            età reddito       il nome di record linkage
Aldo Bianchi 30       25000       (abbinamento esatto)

Giulia Rossi    20    14500   Nome             età spese
Carlo Verdi     45    38000   Aldo Bianchi 30        30000
…               …     …       Pino Bianchi 30        27000
                              Carlo Rossi      45    20000
 Bisogna cercare i record
 che appartengono allo        …                …     …
 stesso individuo
Secondo problema di integrazione
                               Le tecniche da usare vanno sotto il
Nome             età reddito   nome di statistical matching, o
                               abbinamento statistico
Aldo Bianchi 30        25000
Giulia Rossi     20    14500   Nome             età spese
Carlo Verdi      45    38000   Anna Gialli      30    32000
…                …     …       Pino Bianchi 30        27000
Questi data set non hanno      Carlo Rossi      45    20000
unità in comune, ma hanno
variabili che è interessante   …                …     …
studiare insieme
Abbinamento statistico
L’abbinamento statistico può essere svolto anche su dati
     aggregati. Esempio: elezioni 1990, Ohio               Disponibile
                                                           dalle liste
                     Dem.   Rep.   Asten.                   elettorali

      Neri           ?      ?      ?         55 054
      Bianchi ?             ?      ?         25 760
                     19896 10936 49928 80760
   Possibile ottenere informazioni sul legame fra gruppo
          etnico e voto?
Disponibile al termine
    delle elezioni
Abbinamento statistico: esempi




Abbinamento fra indagine sui consumi e quella sui redditi
Abbinamento fra indagine sui redditi e campione anonimo
     di record fiscali
Data set per microsimulazione
Abbinamento statistico
Abbinamento statistico = “spremere” i dati!
Riprendiamo l’esempio delle elezioni in Ohio
              Dem.         Rep.         Asten.
   Neri       0-25% 0-14% 30-61% 69%
   Bianchi 0-25% 0-14% 0-31%                     31%
              25%          14%          61%      100%

           Questa è una informazione
          in più rispetto alle marginali!
Bibliografia
Kadane, J.B. (1978), Some statistical problems in merging data files. In
   Compendium of tax research, Department of Treasury, U.S. Gov- ernement
   Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of
   Official Statistics,17,423-433).
King, G. (1997), A Solution to the Ecological Inference Problem, Princeton
   University Press, Princeton.
D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and
   Practice, Wiley
Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical
   Matching, Journal of Official Statistics, pp. 69–88
Abbinamento esatto
                “Il libro della vita”
Dunn (1946)* descrive il record linkage in questi
 termini
…each person in the world creates a book of life. The book starts
  with the birth and ends with the death. Its pages are made up
  of all the principal events of life. Record linkage is the name
  given to the process of assembling the pages of this book into
  one volume. The person retains the same identity throughout
  the book. Except for advancing age, he is the same person…

*Dunn (1946) "Record Linkage". American Journal of Public
  Health 36 (12): 1412–1416.
Le motivazioni
1. informazione congiunta su due o più variabili
   osservate su fonti diverse
2. “contare” una popolazione
3. sostituire parti di indagini con archivi
4. creazione di una “lista” di una popolazione
5. altri obiettivi di statistica ufficiale
   (imputazione ed editing/migliorare la qualità
   del micro dato; studio del rischio di
   identificazione dei microdati rilasciati)
Record Linkage - caso semplice
A
Nome    Cognome        CAP           Data di        Luogo di    Codice fiscale
                                     nascita        nascita
Mario   Rossi          00125         18/05/70       Roma        RSSMRA70E18
                                                                H501T


B
Nome    Cognome        CAP           Data di        Luogo di    Codice fiscale
                                     nascita        nascita
                                                                RSSMRA70E18
                                                                H501T

        I due record si agganciano tramite il codice fiscale!
Record Linkage - caso meno semplice
 A
 Nome    Cognome      CAP           Data di         Luogo di      Codice fiscale
                                    nascita         nascita
 Mario   Rossi        00125         18/05/70        Roma          RSSMRA70E18
                                                                  H501T


 B
 Nome    Cognome      CAP           Data di         Luogo di      Codice fiscale
                                    nascita         nascita
 Mario   Rossi        00125         18/05/70        Roma          ---


     I due record si agganciano tramite un insieme di variabili
                 comuni che identificano i record
Record Linkage - caso più complicato
 A
 Nome     Cognome       CAP           Data di         Luogo di        Codice fiscale
                                      nascita         nascita
 Mario    Rossi         00125         18/05/70        Roma            RSSMRA70E18
                                                                      H501T


 B
 Nome     Cognome       CAP           Data di         Luogo di        Codice fiscale
                                      nascita         nascita
 M.       Russi         00152         18 maggio       Ostia
                                      1970

     I due record si agganciano tramite un insieme di variabili
 comuni che identificano i record e sono affetti da errori o “problemi”
Record Linkage - caratteristiche
• Se esiste un codice identificativo o un insieme
  di variabili che può svolgere il compito di un
  codice identificativo, il problema del
  ricongiungimento dei record di due data set è
  banale.
• I metodi per il record linkage si occupano del
  caso in cui un unico codice identificativo non
  c’è, e le restanti variabili sono in grado di
  identificare le unità ma sono riportate con
  errore.
Schema delle operazioni
                    Selezione delle          Editing delle
Preelaborazioni   variabili di matching                       blocking
                                               variabili
                       e blocking


                                                                 Metodo
                                    Metodo                    probabilistico
                                 deterministico


                                                              Modello/stima
    Record
                                                               valutazione
    linkage
                             Definizione
                               regole
                                                                Soglie per
                                                               le decisioni




                                                                Valutazione errori
                           Output: 1:1 o          Revisione
     Analisi                                                          negli
                           molti a molti          manuale
                                                                  abbinamenti
Formalizzazione del problema
Dati due file A e B di numerosità NA e NB , si consideri l’insieme
di cardinalità N=NA NB
Ω = {(a,b), a∈A e b∈B}.

Si vogliono classificare le coppie in Ω nei due insiemi M e U tali
che:
        M = insieme delle coppie
        U = insieme delle non coppie
        con     M U=Ω,             M U= .
Le variabili di confronto
Si selezionano le k variabili di matching (tra quelle comuni ai
due data sets e identificative dell’unità)


    X1A    A
          X2    ...      A
                        XK            B
                                     X1    B
                                          X2    ...   XB
                                                       K




Per ogni coppia (a,b) Ω , si definisce un vettore
       1 , 2 ,..., K
                       i cui K elementi sono il risultato
del confronto tra le variabili di matching.

Ad esempio                       1 se X kA X kB
                      a ,b   k
                                 0 altrimenti
La Tabella di Contingenza
                              Frequenze
X1   X 2 ... X k    ... X K
0    0 ... 0        ... 0
 .    .   .   .      .   .
0    1 ... 0        ... 1
.     .    .    .    .    .
1     0   ...   1   ...   1
.     .    .    .    .    .
1     1   ...   1   ...   1
Il modello mistura


(a,b) U




                               (a,b) M
Il “peso” di abbinamento
Fellegi e Sunter (1969) introducono una funzione costituita
dal rapporto di verosimiglianza



                        P   M
                   r
                        P U

sulla base del quale le coppie (a,b) possono essere
ordinate e sottoposte ad un processo di classificazione
negli insiemi M e U
La regola di decisione
Il criterio di classificazione è basato su due livelli di soglia scelti in
modo opportuno che assegnano le coppie a tre possibili
sottoinsiemi M*, Q , U*




                    r a ,b       Tm         a, b     M
               Tm       r a ,b        Tu     a, b    Q
                    r a ,b       Tu         a, b    U
f
              La regola di decisione
                      Tu       Tm




    (a,b) U

                                    (a,b) M




                                              r
              U*           Q        M*
Le Fasi di un progetto di Record
Linkage come proposte in RELAIS
Preparazione dei files di input (pre-processing);
Riduzione dello spazio di ricerca delle coppie candidate;
Selezione degli attributi identificativi comuni (variabili di
matching);
Scelta della funzione di confronto;
Scelta del modello di decisione;
    Stima delle probabilità di abbinamento (1)
    Valutazione dell’adattamento del modello ai dati (1)
    Assegnazione delle coppie (a,b) allo stato di “abbinato” o
       “non abbinato”
Selezione degli abbinamenti univoci
Valutazione dei risultati del Record linkage.

                              (1) fase caratteristica dei metodi probabilistici
Bibliografia
Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme -
   n.16, Istat
Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and
   Techniques, Springer.
Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage
   techniques, Springer.
RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais
        https://joinup.ec.europa.eu/software/relais/description

More Related Content

More from Istituto nazionale di statistica

More from Istituto nazionale di statistica (20)

Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
14a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica1414a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica14
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 

N. Cibella, M. Scanu, T. Tuoto - Metodi statistici per l’integrazione di dati provenienti da fonti diverse

  • 1. Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto Metodi statistici per l’integrazione di dati provenienti da fonti diverse
  • 2. Sommario 1) Cosa vuol dire integrazione 2) Record linkage: perché 3) Il metodo di Fellegi e Sunter 4) Come risolvere il problema con RELAIS
  • 3. Cosa vuol dire integrazione Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche!  La procedura di integrazione può essere soggetta a errore: bisogna misurarlo  Diversi tipi di integrazione a seconda delle caratteristiche dei data set
  • 4. Primo problema di integrazione Questo problema prende Nome età reddito il nome di record linkage Aldo Bianchi 30 25000 (abbinamento esatto) Giulia Rossi 20 14500 Nome età spese Carlo Verdi 45 38000 Aldo Bianchi 30 30000 … … … Pino Bianchi 30 27000 Carlo Rossi 45 20000 Bisogna cercare i record che appartengono allo … … … stesso individuo
  • 5. Secondo problema di integrazione Le tecniche da usare vanno sotto il Nome età reddito nome di statistical matching, o abbinamento statistico Aldo Bianchi 30 25000 Giulia Rossi 20 14500 Nome età spese Carlo Verdi 45 38000 Anna Gialli 30 32000 … … … Pino Bianchi 30 27000 Questi data set non hanno Carlo Rossi 45 20000 unità in comune, ma hanno variabili che è interessante … … … studiare insieme
  • 6. Abbinamento statistico L’abbinamento statistico può essere svolto anche su dati aggregati. Esempio: elezioni 1990, Ohio Disponibile dalle liste Dem. Rep. Asten. elettorali Neri ? ? ? 55 054 Bianchi ? ? ? 25 760 19896 10936 49928 80760 Possibile ottenere informazioni sul legame fra gruppo etnico e voto? Disponibile al termine delle elezioni
  • 7. Abbinamento statistico: esempi Abbinamento fra indagine sui consumi e quella sui redditi Abbinamento fra indagine sui redditi e campione anonimo di record fiscali Data set per microsimulazione
  • 8. Abbinamento statistico Abbinamento statistico = “spremere” i dati! Riprendiamo l’esempio delle elezioni in Ohio Dem. Rep. Asten. Neri 0-25% 0-14% 30-61% 69% Bianchi 0-25% 0-14% 0-31% 31% 25% 14% 61% 100% Questa è una informazione in più rispetto alle marginali!
  • 9. Bibliografia Kadane, J.B. (1978), Some statistical problems in merging data files. In Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of Official Statistics,17,423-433). King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton. D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88
  • 10. Abbinamento esatto “Il libro della vita” Dunn (1946)* descrive il record linkage in questi termini …each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person… *Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416.
  • 11. Le motivazioni 1. informazione congiunta su due o più variabili osservate su fonti diverse 2. “contare” una popolazione 3. sostituire parti di indagini con archivi 4. creazione di una “lista” di una popolazione 5. altri obiettivi di statistica ufficiale (imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)
  • 12. Record Linkage - caso semplice A Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T B Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita RSSMRA70E18 H501T I due record si agganciano tramite il codice fiscale!
  • 13. Record Linkage - caso meno semplice A Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T B Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita Mario Rossi 00125 18/05/70 Roma --- I due record si agganciano tramite un insieme di variabili comuni che identificano i record
  • 14. Record Linkage - caso più complicato A Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita Mario Rossi 00125 18/05/70 Roma RSSMRA70E18 H501T B Nome Cognome CAP Data di Luogo di Codice fiscale nascita nascita M. Russi 00152 18 maggio Ostia 1970 I due record si agganciano tramite un insieme di variabili comuni che identificano i record e sono affetti da errori o “problemi”
  • 15. Record Linkage - caratteristiche • Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale. • I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.
  • 16. Schema delle operazioni Selezione delle Editing delle Preelaborazioni variabili di matching blocking variabili e blocking Metodo Metodo probabilistico deterministico Modello/stima Record valutazione linkage Definizione regole Soglie per le decisioni Valutazione errori Output: 1:1 o Revisione Analisi negli molti a molti manuale abbinamenti
  • 17. Formalizzazione del problema Dati due file A e B di numerosità NA e NB , si consideri l’insieme di cardinalità N=NA NB Ω = {(a,b), a∈A e b∈B}. Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che: M = insieme delle coppie U = insieme delle non coppie con M U=Ω, M U= .
  • 18. Le variabili di confronto Si selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità) X1A A X2 ... A XK B X1 B X2 ... XB K Per ogni coppia (a,b) Ω , si definisce un vettore 1 , 2 ,..., K i cui K elementi sono il risultato del confronto tra le variabili di matching. Ad esempio 1 se X kA X kB a ,b k 0 altrimenti
  • 19. La Tabella di Contingenza Frequenze X1 X 2 ... X k ... X K 0 0 ... 0 ... 0 . . . . . . 0 1 ... 0 ... 1 . . . . . . 1 0 ... 1 ... 1 . . . . . . 1 1 ... 1 ... 1
  • 21. Il “peso” di abbinamento Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza P M r P U sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U
  • 22. La regola di decisione Il criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U* r a ,b Tm a, b M Tm r a ,b Tu a, b Q r a ,b Tu a, b U
  • 23. f La regola di decisione Tu Tm (a,b) U (a,b) M r U* Q M*
  • 24. Le Fasi di un progetto di Record Linkage come proposte in RELAIS Preparazione dei files di input (pre-processing); Riduzione dello spazio di ricerca delle coppie candidate; Selezione degli attributi identificativi comuni (variabili di matching); Scelta della funzione di confronto; Scelta del modello di decisione; Stima delle probabilità di abbinamento (1) Valutazione dell’adattamento del modello ai dati (1) Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato” Selezione degli abbinamenti univoci Valutazione dei risultati del Record linkage. (1) fase caratteristica dei metodi probabilistici
  • 25. Bibliografia Scanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme - n.16, Istat Batini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and Techniques, Springer. Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage techniques, Springer. RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais https://joinup.ec.europa.eu/software/relais/description