A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count index during the Post Enumeration Survey

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
SESSIONE I
CAMPIONAMENTO E STIMA
The use of the Hard To Count index during the
Post Enumeration Survey
Relatore: Andrea Fasulo
Antonella Bernardini, Andrea Fasulo e Marco Dionisio Terribili

Il contesto di applicazione
PES – Post Enumeration Survey
Per valutare la qualità del 15° Censimento della popolazione italiana è
stata svolta, nella prima metà del 2012, un’indagine campionaria areale
volta a stimare la popolazione abitualmente dimorante nel periodo
temporale di riferimento del Censimento, nonché il tasso di
copertura dell'operazione censuaria.
Numerosità campionaria
N. Comuni selezionati (1° stadio) 255
N. Sezioni di censimento (2° stadio) 2.507
N. Famiglie stimate 153.855
N. Individui stimati 366.728
The use of the Hard To Count index during the Post Enumeration Survey | Andrea Fasulo

Il contesto di applicazione
PES – Post Enumeration Survey
In fase di stima della popolazione nazionale, si è proceduto ad una post-stratificazione
delle unità campionarie.
Una delle variabili utilizzata per la post-stratificazione è l’ Hard To Count
index (HTC), un indice di difficoltà di conteggio, che ha contribuito ad
individuare delle aree omogenee rispetto alla difficoltà di una popolazione
ad essere enumerata correttamente.

Indice di difficoltà di conteggio
Seguendo l’esperienza dell’ONS sull’HTC applicato in occasione dei
censimenti della popolazione, del 2001 e 2011, è stato studiato un indice
sulla base del quale sono stati categorizzati tutti i comuni italiani.
L’idea alla base del metodo è quella di creare gruppi di aree, nel caso
specifico comuni, con un livello atteso omogeneo di corretta
enumerazione della popolazione.

Indice di difficoltà di conteggio – Definizione del modello
Variabile dipendente: l’abbinamento
La variabile oggetto di studio è una variabile dicotomica che indica il
mancato abbinamento tra gli individui rilevati all’indagine di copertura con
quelli rilevati al censimento.
1 mancato abbinamento
0 abbinamento
Y

 

Essendo la variabile dipendente binaria, i modelli proposti sono modelli
logistici.

Modelli logistici a effetti fissi:
P Y 
X
i i
P Y  X      X   X  

X
i i i i k ki
P Y X
 
Modelli logistici a effetti misti (o multilevel):
P Y X X X X
dove:
1 1 2 2
( 1| )
Logit ( 1| ) Log ...
1 ( 1| )
i i
P Y X
id id id id k kid d
1 1 2 2
( 1| )
id id
Logit ( 1| ) Log ...
P Y X
1 ( 1| )
id id
    

       
 
individuo -esimo
area
covariata
i.i.d. (0, 2
) d
i i
d
k




  

Livello Covariata
Individuale
Età continua
Classi d'età
Sesso
Famiglia monocomponente
Famiglia numerosa (7 o + individui)
Stranieri
Persone sole (separati, divorziati o vedovi)
Proxy studenti (19≤Età≤30, titolo di studio almeno diploma di maturità)
Comunale
Comune universitario
Comuni litoranei
Zona altimetrica (comuni distinti, in base all'altitudine, in cinque classi)
Densità (ab./km2)
Tasso di stranieri
Provinciale Tasso di disoccupazione
Interazioni fra variabili
Cittadinanza * Tasso di stranieri residenti nel comune
Monocomponente * Classe di età 10-29 anni
Comuni universitari * Proxy studenti
Variabili indipendenti

Indice di difficoltà di conteggio - Studio del modello
Scelta della
migliore intercetta
casuale
Scelta del modello:
Effetti misti Vs. Effetti fissi
CATEGORIZZAZIONE DEI COMUNI ITALIANI
Valutazione
delle classi
costruite
Definizione di modelli
alternativi, e scelta
del migliore
Costruzione classi
dell’indicatore (per i
comuni campione)
Classificazione
dei comuni non
campione

Scelta del modello: Effetti misti Vs. Effetti fissi
Il test di rapporto tra verosimiglianze:
V V
1 1 2
V V V V
2log 2(log log ) 2log 2log
1 2 1 2 (1)
V V
2 2
Modello -2 log verosimiglianza
A effetti fissi -579.870
A effetti misti (multilevel) -584.294

 
         
 
Il modello ad effetti misti risulta significativamente migliore di quello ad
effetti fissi, secondo la statistica test
2 4.423 c  

Definizione di modelli ad effetti misti alternativi
sulla base del livello di dettaglio delle covariate inserite e studio dei
coefficienti regressivi.
Variabili
Modello
variabili
individuali
Modello var.
individuali +
var. di area
Modello
completo
Intercetta -5,711 -6,905 -7,067
Classe d’età 10-29 0,075 0,074 0,072
Classe d’età 30-49 0,048 0,046 0,041
Classe d’età 50-74 -0,555 -0,555 -0,564
Classe d’età 75 ed oltre -0,481 -0,480 -0,488
Sesso (donne) -0,164 -0,166 -0,168
Stranieri 2,395 2,395 2,848
Tasso di disoccupazione provinciale 10,411 10,489
Comune universitario 0,826 0,826
Densità di popolazione 9,505e-05 9,178e-05
Tasso di stranieri 4,594 6,817
Stranieri * Tasso di stranieri -5,795

Scelta del modello migliore
Tra i modelli proposti, è stato individuato il modello migliore sulla base di
criteri di valutazione della goodness of fit.
Criterio
Modello
variabili
individuali
Modello var. individuali
+ var. di area
Modello completo
AIC 29381,37 29196,57 29174,67
BIC 29466,81 29324,74 29313,51
Log verosimiglianza -14682,69 -14586,29 -14574,33
Una volta scelto il modello migliore, sono stati mediati i valori individuali
predetti per ottenere valori comunali della difficoltà di conteggio.

Indice di difficoltà di conteggio - Categorizzazione
Classificazione dei comuni campione
La distribuzione ordinata dei
valori predetti, relativi ai 252
comuni campione, è stata
ripartita, sulla base dei
percentili, in 3 modalità
seguendo la ripartizione
40% - 40% - 20%.

Indice di difficoltà di conteggio - Valutazione
Le frequenze dei comuni campione, rispetto alle tre modalità dell’indice
HTC, sono state valutate sulla base dei valori predetti dal modello scelto
e sulla base dei tassi comunali osservati di mancata enumerazione.
Distribuzione di frequenze
Comuni campione
HTC - valori predetti
modalità 1 modalità 2 modalità 3 TOT
HTC
-
valori
osservati
modalità 1 96 5 0 101
modalità 2 5 91 4 100
modalità 3 0 4 47 51
TOT 101 100 51 252

Indice di difficoltà di conteggio - Costruzione
Classificazione dei comuni non campione
Per i comuni fuori dal campione, la sola parte fissa del modello migliore è
stata utilizzata per la predizione dei valori comunali.
1 1 2 2 Logit P(Yid 1| Xid )    X id   X id ... k Xkid  d

Indice di difficoltà di conteggio – Primi risultati
Hard To Count index → Categorizzazione dei comuni italiani
 HTC 1: Comuni con
elevata propensione alla
corretta enumerazione
 HTC 2: Situazione
intermedia
 HTC 3: Comuni con scarsa
propensione alla corretta
enumerazione.

Indice di difficoltà di conteggio – Sviluppi ulteriori
Nuova classificazione del HTC
Le nuove analisi svolte, hanno la finalità di risolvere due tipologie di
problematiche:
1. Creare gruppi più omogenei
2. Ottenere un maggior dettaglio territoriale
Il nuovo HTC prevede 5 modalità, definite seguendo la ripartizione
20%-20%-20%-30%-10% della distribuzione delle probabilità
predette ordinate.

Indice di difficoltà di conteggio – Sviluppi ulteriori
Nuova classificazione del HTC
La tabella mostra il CV% dei vari livelli per i 2 indicatori HTC
Index HTC 1 HTC 2 HTC 3
HTC originale 37 32 43
HTC 1 HTC 2 HTC 3 HTC 4 HTC 5
HTC nuovo 28 14 19 28 30

Indice di difficoltà di conteggio – Risultati
Hard To Count index → Categorizzazione dei comuni italiani
 HTC 1: Comuni con ottima
propensione alla corretta enumerazione
 HTC 2: Comuni con buona
 HTC 3: Comuni con discreta
 HTC 4: Comuni con bassa
 HTC 5: Comuni con scarsa
propensione alla corretta enumerazione.

Indice di difficoltà di conteggio - Conclusioni
• La ricchezza informativa dell’indagine di copertura ha permesso uno
studio approfondito sugli individui più difficili da raggiungere al
censimento.
• I modelli multilevel tengono conto, oltre che delle covariate, anche del
livello territoriale definito dalle sezioni di censimento.
• I modelli studiati per la definizione dell’indice di difficoltà di conteggio
presentano un buon adattamento ai dati.
• L’indice ha permesso di stratificare la popolazione in sottopopolazioni
in cui le probabilità di cattura sono costanti per ognuna delle unità,
ipotesi alla base del modello di stima di Petersen.

A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count index during the Post Enumeration Survey

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (11)

Similar to A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count index during the Post Enumeration Survey

Similar to A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count index during the Post Enumeration Survey (20)

More from Istituto nazionale di statistica

More from Istituto nazionale di statistica (20)

Recently uploaded

Recently uploaded (11)

A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count index during the Post Enumeration Survey