1. INCREASE ACCURACY THROUGH THE USE OF AUXILIARY VARIABLES
FROM SURVEY SAMPLING
Claudio Ceccarelli 1 Alessio Guandalini 2
1 Istituto Nazionale di Statistica, claudio.ceccarelli@istat.it
2 Università degli Studi di Roma “La Sapienza”, alessio.guandalini@uniroma1.it
2. Obiettivo
Determinare l’espressione funzionale della varianza
dello stimatore di ponderazione vincolata in presenza
di informazioni ausiliarie campionarie in disegni
campionari complessi
Valutare l’impatto delle informazioni ausiliarie
campionarie sulla qualità e l’efficienza delle stime
3. STIMATORE DI PONDERAZIONE VINCOLATA
“ [...] weights that perform well for the auxiliary variable also should
perform well for study variable .”
“[...] the calibration estimator is asymptotically equivalent to the
regression estimator.”
Deville J.C. e Särndal C.E., Calibration Estimators in Survey Sampling. Journal of the American Statistical Associacion.
Giugno 1992, Vol. 87, n. 418, pp.376-382.
COERENZA ESTERNA DELLE STIME
“ […] vi è l’esigenza di costruire un sistema di
indagini sempre più integrato in cui le stime
prodotte dalle diverse rilevazioni siano INNOVAZIONE
facilmente e correttamente utilizzabili in METODOLOGICA
modo congiunto.”
Ballin M., Falorsi P.D. e Russo A., Condizioni di Coerenza e Metodi di Stima
per le Indagini Campionarie sulle imprese. Rivista di Statistica Ufficiale. • disegni complessi
2000, n.2, pp. 31-52
• indagini dipendenti
• Campione Casuale Semplice
• indagini indipendenti APPLICAZIONE
Eu-Silc RFL
(2008) (settembre 2009)
4. Metodologia (1)
Stimatore di Ponderazione Vincolata
Sistema di minimo vincolato
Funzioni di distanza Singh, A.C. and Mohl, C.A. (1996)
Logaritmica troncata
Convergenza asintotica allo stimatore GREG
Deville, J.C. e Särndal, C.E. (1992)
Stima della varianza dello stimatore PV
dove
5. .
Metodologia (2)
Stimatore PV con vincoli campionari (X)
APPROCCIO NON CONDIZIONATO
ipotesi - il vettore delle stime è una costante
APPROCCIO CONDIZIONATO
sfrutta la convergenza asintotica dello stimatore PV nello stimatore GREG
Ballin et al.(2000)
6. .
Indagini (1)
Eu-Silc
Campione panel della durata di 4 anni
Anno Gruppi di rotazione
a A4 B3 C2 D1
a+1 B4 C3 D2 E1
a+2 C4 D3 E2 F1
a+3 D4 E3 F2 G1
a+4 E4 F3 G2 H1
a+5 F4 G3 H2 I1
Ceccarelli et al. (2008) p. 26
Campione a 2 stadi (comuni-famiglie) stratificazione UPS
Parametri: varie tipologie di reddito
141 demografici (struttura della popolazione per sesso ed età)
Vincoli IV trimestre dell’anno
22 da RFL di riferimento del reddito campioni indipendenti
7. Indagini (2)
RFL
Campione a 2 stadi (comuni-famiglie) stratificazione nello spazio e nel tempo delle UPS
.
Campione ruotato – Schema (2T, 2T, 2T)
Anno Gruppi di rotazione
I trimestre anno a A4 B3 E2 F1
II trimestre anno a B4 C3 F2 G1
III trimestre anno a C4 D3 G2 H1
IV trimestre anno a D4 E3 H2 I1
I trimestre anno a+1 E4 F3 I2 J1
II trimestre anno a+1 F4 G3 J2 K1
Gazzelloni et al.(2005) p. 41
Parametri : Occupati, Disoccupati, Non Forze Lavoro
206 demografici (struttura della popolazione per sesso ed età)
Vincoli 48 da RFL tre mesi prima
48 da RFL dodici mesi prima
campioni dipendenti
8. .
Applicazione (1)
INDIPENDENTI DIPENDENTI
Eu-Silc RFL
CON VINCOLI CAMPIONARI
SENZA VINCOLI CAMPIONARI Approccio
Approccio
NON
CONDIZIONATO
CONDIZIONATO
GENESEES v. 9.0 Foglio di calcolo
GENEralised software for Sampling Estimates and Errors in Surveys EXCEL
9. .
Applicazione (2)
Eu-Silc 2008
Campione 20.928 famiglie e 52.433 individui
Vincoli campionari RFL IV trimestre 2007
Stima ed errori delle’ammontare totale delle varie tipologie di reddito con lo stimatore di ponderazione vincolata senza
vincoli campionari e con vincoli campionari (Approccio non condizionato e Approccio condizionato) – Italia, 2008
RFL
Approccio
NO RFL
Parametri di interesse non
condizionato
condizionato
STIMA CV STIMA CV CV
REDDITO FAMILIARE
totale netto 728.666.713.229 0,575 725.497.084.329 0,478 0,482
REDDITO INDIVIDUALE
netto 723.096.449.584 0,557 719.916.413.899 0,444 0,449
da lavoro 476.049.206.657 0,789 471.503.146.949 0,615 0,620
autonomo 135.119.209.848 2,399 134.471.727.459 1,851 1,862
dipendente 340.929.996.809 0,780 337.031.419.491 0,479 0,502
da pensione 198.309.898.768 0,684 199.553.632.004 0,633 0,639
10. .
Applicazione (3)
RFL settembre 2009
Campione 20.928 famiglie e 49.114 individui
Vincoli campionari RFL giugno 2009
Vincoli campionari RFL settembre 2008
Stima ed errori di Occupati, Disoccupati e Non Forze Lavoro con lo stimatore di ponderazione vincolata senza vincoli campionari e
con vincoli campionari (Approccio non condizionato e Approccio condizionato) – Settembre 2009, Italia per sesso
CON VINCOLI CAMPIONARI
SENZA VINCOLI Approccio
CAMPIONARI non
condizionato
condizionato
STIMA CV STIMA CV CV
ITALIA
OCC 22.786.251 0,440 22.886.373 0,331 0,333
DIS 2.021.889 2,678 2.031.044 2,260 2,262
NFL 34.982.481 0,275 34.873.584 0,216 0,221
MASCHI
OCC 13.599.617 0,491 13.647.567 0,385 0,387
DIS 1.092.265 3,508 1.093.438 3,094 3,097
NFL 14.371.974 0,435 14.323.053 0,341 0,345
FEMMINE
OCC 9.186.634 0,828 9.238.806 0,610 0,612
DIS 929.624 3,926 937.606 3,259 3,262
NFL 20.610.507 0,360 20.550.531 0,275 0,281
11. .
Conclusioni
STIMATORE PV CON INFORMAZIONI AUSILIARIE CAMPIONARIE
Migliora la rappresentatività del campione
migliora la qualità delle stime
Migliora notevolmente l’efficienza delle stime rispetto al caso
SENZA VINCOLI CAMPIONARI
L’impatto sulla qualità e l’efficienza delle stime dipende dallo
scopo per cui vengono utilizzati i vincoli campionari
Importanza della correlazione tra variabili ausiliarie e variabile
di interesse
12. .
Bibliografia
Ballin, M.; Falorsi, P.D. e Russo, A. (2000). Condizioni di coerenza e Metodi di Stima per le
Indagini Campionarie sulle imprese. Rivista di Statistica Ufficiale. 2000, n.2, pp. 31-52.
Ceccarelli, C.; Di Marco, M. e Rinaldelli, C. (2008). L’Indagine Europea sui Redditi
e le Condizioni di Vita delle Famiglie (Eu-Silc). Metodi e Norme. Istat, 2008, n. 37.
Ceccarelli, C.; Giorgi, G.M. e Guandalini, A. (2010). Lo Stimatore di Ponderazione Vincolata in
Presenza di Informazioni Ausiliarie Campionarie, 2000, Rapporto tecnico n. 18,
Dipartimento di Statistica, Università “La Sapienza” di Roma.
http://www.dspsa.uniroma1.it/on line/Home/Ricerca/Pubblicazioni/Rapporti
Tecnicidal2009/articolo1003554.html
Ceccarelli, C.; Giorgi, G.M. e Guandalini, A. (2010). Varianza dello Stimatore Calibrato in
Presenza di Informazioni Ausiliarie Campionarie. Rivista Italiana di Economia Demografia e
Statistica, 2011, Volume LXVI – n.1-2, Gennaio-Giugno 2011
Deville, J.C. e Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the
American Statistical Association. Giugno 1992, vol. 87, n. 418, pp. 376-382.
Gazzelloni, S. (2006). La Rilevazione sulle Forze di Lavoro: Contenuti, Metodologie,
Organizzazione. Metodi e Norme. Istat, 2006, n. 36.
Singh, A.C. e Mohl, C.A. (1996). Understanding Calibration Estimators in Survey Sampling.
Survey Methodology. Dicembre 1996, vol. 22, n. 2, pp. 107-115.
13. rip 3
rip 2
rip 1
rip 4-5
Population by gender and 14 age classes
X1-X28
Population by NUTS-2 regions, gender and 5 age
classes X29-
X108
Population in NUTS-3 domains by gender
X188
X109-
Population in big municipalities by gender
X198
X189-
Foreigner population by NUTS-2 regions
X206
X199-
Households by NUTS-2 regions and 4 rotation
groups
X238
X207-
Households by NUTS-2 regions and mode (capi-
cati)
X254
X239-
Households by NUTS-2 regions and 5 weeks
X294
X255-
Employed at t-3 by NUTS-2 regions and gender
X310
X295-
Prospetto vincoli RFL
Unemployed at t-3 by Geographical Areas and
gender
X326
X311-
Inactive 15-64 at t-3 by NUTS-2
regions and gender
X342
X327-
Employed at t-12 by NUTS-2 regions and gender
X358
X343-
Unemployed at t-12 by Geographical Areas and
gender
X374
X359-
statistics (LFS), Final Report. Agreement N. 32100.2005.001-2006.568. April 2009, p. 12
Inactive 15-64 at t-12 by NUTS-2
regions and gender
X390
X375-
ISTAT, Labour Force Survey Unit (2009). Improvement of quality of monthly unemployment