Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
La strategia di campionamento
dell’Indagine di copertura
del 15° Censimento generale della
Popolazione e delle Abitazioni
...
Obiettivi dell’indagine e parametri di interesse
L’indagine di copertura – o Post Enumeration Survey (PES) – è
un’indagine...
La popolazione obiettivo e i domini di interesse
La popolazione obiettivo della PES 2011 è costituita dagli individui
resi...
Il disegno di campionamento
() La PES 2011 adotta un disegno di campionamento di tipo areale a due
stadi di selezione:
 ...
Il disegno di campionamento
() Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione
degli err...
Il disegno di campionamento
() Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene:
𝑚ℎ =
𝑛ℎ
𝑠ℎ
1
𝑁ℎ
𝑁ℎ𝑐
1
𝑆ℎ
𝑁ℎ𝑐𝑖...
Quando si verifica un errore di copertura?
L’operazione di enumerazione censuaria può essere affetta da:
• errore di sovra...
Il processo di stima
Fasi in cui si articola il processo di stima:
Determinazione del Dual-System Estimator (DSE) corretto...
Flowchart del processo di stima
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della...
Stima della sovracopertura
(a) La sovracopertura è una mistura di:
 Duplicazioni
 Conteggi nel posto sbagliato
 Enumera...
Stima della sovracopertura
(b) La metodologia di stima della sovracopertura si articola in 3 punti:
i) stima del numero di...
Flowchart della stima della sovracopertura
La strategia di campionamento dell’Indagine di copertura del 15° Censimento gen...
Stima della sovracopertura
(d) La propensione alla sovracopertura è calcolata per ripartizione, modalità
dell’indice Hard ...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni,...
Upcoming SlideShare
Loading in …5
×

M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

33,959 views

Published on

La misurazione della qualità del 15° Censimento generale della popolazione e delle abitazioni: i risultati dell’indagine di copertura (PES)

  • Be the first to comment

M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

  1. 1. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni Monica Russo 27 giugno 2014
  2. 2. Obiettivi dell’indagine e parametri di interesse L’indagine di copertura – o Post Enumeration Survey (PES) – è un’indagine condotta in connessione con il 15° Censimento generale della Popolazione e delle Abitazioni ed è volta alla determinazione degli errori per eccesso (sovracopertura) o per difetto (sottocopertura) intervenuti nel conteggio censuario. Per i fini sopra delineati i parametri di popolazione oggetto di stima più importanti sono: • il tasso di copertura, espresso come rapporto tra il numero di unità enumerate al Censimento (al netto della sovracopertura) e la dimensione effettiva della popolazione, • il tasso di sottocopertura, dato dal rapporto tra il numero di unità sfuggite all’enumerazione censuaria (al netto della sovracopertura) e la dimensione effettiva della popolazione. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 1
  3. 3. La popolazione obiettivo e i domini di interesse La popolazione obiettivo della PES 2011 è costituita dagli individui residenti in abitazioni esistenti nel territorio nazionale (escluse le convivenze) alla data del 9 ottobre 2011. La finalità primaria dell’indagine in esame è l’ottenimento delle stime dei predetti parametri con riferimento ai seguenti ambiti territoriali: • l’intero territorio nazionale, • le regioni geografiche e le Province autonome di Trento e Bolzano. Inoltre, è prevista la determinazione delle suddette stime relativamente a: (i) domini territoriali sub-regionali (le province) e sub-provinciali (i tredici comuni metropolitani); (ii) domini di studio costituiti da individui classificati secondo l’età (in classi) e la nazionalità. Essendo questi ultimi domini non pianificati, la precisione delle stime ad essi inerenti può essere migliorata sia introducendo una post-stratificazione nello stimatore studiato per l’indagine, sia attraverso l’adozione di stimatori speciali per piccole aree. Questi domini di studio rappresentano comunque un obiettivo secondario. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 2
  4. 4. Il disegno di campionamento () La PES 2011 adotta un disegno di campionamento di tipo areale a due stadi di selezione:  il primo stadio è costituito dai comuni, stratificati in base al concatenamento delle regioni geografiche (le Province autonome di Trento e Bolzano sono trattate come regioni a sé) e delle 5 classi di dimensione demografica dei comuni secondo le modalità: - meno di 5.000 ab. - tra 5.000 e 10.000 ab. - tra 10.000 e 20.000 ab. - tra 20.000 e 100.000 ab. - oltre 100.000 ab. e i 13 comuni metropolitani (Torino, Genova, Milano, Venezia, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania, Cagliari e Messina);  le unità di secondo stadio sono invece rappresentate dalle sezioni di Censimento, stratificate in base alla dimensione demografica delle sezioni in 3 modalità definite dai terzili della distribuzione della popolazione di sezione; tutti gli individui appartenenti alle sezioni campione vengono enumerati. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 3
  5. 5. Il disegno di campionamento () Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione degli errori attesi delle stime del tasso di copertura, si definisce il n° di comuni campione per strato ℎ (ℎ = 1, … , 𝐻), 𝑚ℎ, in modo da rispettare la condizione che il valore atteso del n° di individui campione relativo al generico strato ℎ sia uguale al n° programmato; in simboli 𝑁ℎ𝑐𝑗 𝜋ℎ𝑐𝑗 𝑗∈𝑐 = 𝑛ℎ 𝑐∈ℎ in cui: 𝑐 ed 𝑗 denotano rispettivamente gli indici di comune e sezione; 𝑁ℎ𝑐𝑗 è il n° di individui residenti nella generica sezione 𝑗 del comune 𝑐 dello strato ℎ; 𝜋ℎ𝑐𝑗 è la probabilità di inclusione della sezione 𝑗 del comune 𝑐 dello strato ℎ; 𝑠ℎ𝑐 = 𝑠ℎ = 𝑛ℎ 𝑁ℎ 𝑆ℎ è il n° minimo di sezioni campione per comune campione, determinato attraverso una procedura di tipo iterativo, facendo variare il n° minimo di individui da intervistare in ciascun comune campione, 𝑛ℎ, in modo da rispettare il n° complessivo desiderato di comuni che si intende far partecipare all’indagine; 𝑁ℎ 𝑆ℎ è il n° medio di individui per sezione riferito ad ℎ; inoltre, si ha 𝜋ℎ𝑐𝑗= 𝜋ℎ𝑐 poiché tutte le sezioni del comune 𝑐 hanno la stessa probabilità di essere incluse nel campione. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 4
  6. 6. Il disegno di campionamento () Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene: 𝑚ℎ = 𝑛ℎ 𝑠ℎ 1 𝑁ℎ 𝑁ℎ𝑐 1 𝑆ℎ 𝑁ℎ𝑐𝑖 𝑖∈𝑐𝑐∈ℎ −1 dove: 𝑁ℎ𝑐 e 𝑁ℎ denotano il n° di individui residenti rispettivamente nel comune 𝑐 dello strato ℎ e nello strato ℎ; 𝑆ℎ è il n° di sezioni nello strato ℎ. Il meccanismo probabilistico di formazione del campione prevede l’estrazione delle unità primarie con probabilità variabili senza ripetizione e l’estrazione delle unità secondarie con probabilità uguali senza ripetizione. L’indagine ha coinvolto 255 comuni campione e 2.507 sezioni, per un totale di 332.710 individui intervistati. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 5
  7. 7. Quando si verifica un errore di copertura? L’operazione di enumerazione censuaria può essere affetta da: • errore di sovracopertura: tipo 1: si verifica quando per lo stesso individuo esistono due o più ritorni censuari nella stessa sezione di censimento tipo 2: si verifica quando per lo stesso individuo si hanno due ritorni censuari ma in sezioni di censimento diverse tipo 3: si verifica quando un individuo viene enumerato solo all’indirizzo errato; quindi, è presente solo la metà errata della duplicazione nei ritorni censuari tipo 4: è un ritorno censuario che non avrebbe mai dovuto verificarsi poiché fittizio o perché non facente parte della popolazione di riferimento. N.B. In fase di stima si considerano gli errori di tipo 2 e 3. Gli errori di tipo 1 sono corretti attraverso il processamento dei dati censuari, quelli di tipo 4 sono identificati con ulteriore lavoro sul campo. • errore di sottocopertura: si verifica quando una unità residente in Italia alla data del 9 ottobre 2011 non viene rilevata dal censimento. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 6
  8. 8. Il processo di stima Fasi in cui si articola il processo di stima: Determinazione del Dual-System Estimator (DSE) corretto per sovracopertura: – Stima della sovracopertura – Calcolo del DSE Regression Estimator (RE) Sample Balance Adjustment (SBA) Determinazione delle stime del totale “vero” (incognito) della popolazione residente a livello regionale e nazionale La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 7
  9. 9. Flowchart del processo di stima La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 8 Censimento 2011 PES Ricerca del n° di duplicazioni Stima Sovracopertura Matching tra Censimento e PES DSE corretto per sovracopertura Regression Estimator (stima la popolazione a livello di regione) Sample Balance Adjustment Stime della popolazione a livello regionale Aggregazione delle stime regionali (stima la popolazione a livello nazionale) Stima della popolazione a livello nazionale
  10. 10. Stima della sovracopertura (a) La sovracopertura è una mistura di:  Duplicazioni  Conteggi nel posto sbagliato  Enumerazioni errate. La nostra strategia di stima è di operare degli aggiustamenti netti: riducendo le stime Dual-System attraverso una stima della sovracopertura imputando il minor numero di individui non rimuovendo i duplicati La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 9
  11. 11. Stima della sovracopertura (b) La metodologia di stima della sovracopertura si articola in 3 punti: i) stima del numero di duplicazioni attraverso la PES ii) stima dei conteggi nel posto sbagliato attraverso la PES iii) calibrazione di i) mediante il numero di duplicazioni rilevate al Censimento (il campione PES non è disegnato per ottenere stime del numero di duplicazioni) Assunzione chiave: la PES definisce la corretta localizzazione dell’individuo alla data del 9 ottobre 2011 attraverso la risposta dell’intervistato alla domanda 1.5 del questionario PES La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 10
  12. 12. Flowchart della stima della sovracopertura La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 11 Abbinati Censimento-PES nello stesso luogo Abbinati Censimento-PES in luoghi diversi Stima delle duplicazioni nei conteggi censuari attraverso la PES Stima dei conteggi esatti del Censimento Stima dei conteggi errati del Censimento Tasso di duplicazione Stima calibrata dei conteggi errati del Censimento attraverso uno stimatore rapporto Propensione alla sovracopertura Duplicazioni individuate al Censimento
  13. 13. Stima della sovracopertura (d) La propensione alla sovracopertura è calcolata per ripartizione, modalità dell’indice Hard to Count (HtC) e classi di età; è data dal rapporto 𝛾𝑎 𝑤,𝑔 = 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑣𝑒𝑟𝑎 = 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 + 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑟𝑟𝑎𝑡𝑖 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 = 𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔 𝑌𝑎 𝑤,𝑔 1 𝛾 𝑎 𝑤,𝑔 = fattore di sovracopertura: riduce il contributo di ogni individuo alla DSE, in cui: 𝑔 indica la ripartizione geografica (Nord-Ovest, Nord-Est, Centro, Sud, Isole) incrociata con le modalità dell’indice HtC: p=1 (‘enumerazione facile’), p=2 (‘enumerazione di media difficoltà’) e p=3 (‘enumerazione difficile’) 𝑎 𝑤 è la classe di età (0-2 e 25-60 anni, 3-17 anni, 18-24 anni, 61 e più anni) La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 12
  14. 14. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Stima della sovracopertura (e) La stima della propensione alla sovracopertura è fornita da 𝛾𝑎 𝑤,𝑔 = 𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔 𝑌𝑎 𝑤,𝑔 = 𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗 + 𝑃 𝐷 𝑤 𝑘𝑏𝑘∈𝑆 𝑏 𝑘≠𝑗 𝑏 𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘𝑗∈𝑆 𝑔𝑗∈𝑠 𝑔 𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗𝑗∈𝑠 𝑔 in cui: 𝑖 indice di individuo 𝑏 indica la ripartizione geografica incrociata con le modalità dell’indice HtC 𝑘 indice di sezione 𝑤𝑗𝑔, 𝑤 𝑘𝑏 pesi campionari assegnati rispettivamente alla sezione 𝑗 appartenente a 𝑔 e alla sezione 𝑘 appartenente a 𝑏 𝑐 𝑎 𝑤,𝑖,𝑗𝑔 variabile che assume il valore 1 se l’individuo 𝑖 è correttamente conteggiato dal Censimento nella sezione 𝑗 dell’area 𝑔 e 0 altrimenti 𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔 variabile che assume il valore 1 se l’individuo è conteggiato erroneamente dal Censimento nella sezione 𝑗 dell’area 𝑔 poiché la sua corretta enumerazione è la sezione 𝑘 dell’area 𝑏, con 𝑘 ≠ 𝑗 e 𝑏 che può anche coincidere con 𝑔 𝑃 𝐷 = 𝑤𝑗𝑔 𝑤 𝑘𝑏𝑘∈𝑆 𝑏 𝑘≠𝑗 𝑏 𝑜𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘 𝑐𝑖,𝑗𝑔𝑗∈𝑠 𝑔𝑔 13 tasso di duplicazione, dato dal rapporto tra il n° di duplicazioni individuate nei conteggi censuari e la stima PES dello stesso
  15. 15. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE Stimato il fattore di sovracopertura, 1 𝛾𝑎 𝑤 𝑔, si determina per ciascuno degli 𝑚𝑟 𝑎𝑝 comuni campione 𝑐 il DSE corretto per sovracopertura in base all’espressione 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 = 𝑁𝑎𝑝𝑐𝑜 𝐶 = 𝑁+1,𝑎𝑝𝑐 + 1 𝑁1+,𝑎𝑝𝑐 𝛾𝑎 𝑤 𝑔 + 1 𝑁11,𝑎𝑝𝑐 + 1 − 1 dove: 𝑎 sono le classi di età: 0-2, 3-7, 8-17, 18-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74, 75-79, 80-84, 85 e più, separatamente per i due sessi 𝑝 è l’indice HtC 𝑝 = 1,2,3 𝑟 è l’indice di regione geografica (𝑟 = 1, … , 21, Trento e Bolzano sono tenute distinte) 𝑐 è l’indice di comune 𝑐 = 1, … , 𝑚𝑟 𝑎𝑝 . Tale modello rappresenta una variante del modello di Petersen (o di omogeneità entro le liste), in cui il totale censuario 𝑁1+,𝑎𝑝𝑐 è corretto per la stima della propensione alla sovracopertura ed è stata apportata la correzione di Chapman per applicazioni del DSE a piccole popolazioni. 14
  16. 16. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE Punto di partenza: Modello di Petersen (o di omogeneità entro le liste). Si suppone che la PES ripeta le operazioni di Censimento su tutto il territorio nazionale. Si indichi con C la lista ottenuta con il Censimento e con I quella ottenuta con l’indagine. Le ipotesi alla base del modello sono: 1. la popolazione di riferimento è chiusa e di dimensione fissata pari a 𝑁 2. le probabilità che l’unità 𝑖 appartenga o meno alla lista C e che appartenga o meno alla lista I possono essere espresse mediante una distribuzione multinomiale in cui le probabilità congiunte e quelle marginali sono riportate nel prospetto seguente: 15 Lista C Si No Si 𝑝𝑖,11 𝑝𝑖,12 𝑝𝑖,1+ No 𝑝𝑖,21 𝑝𝑖,22 𝑝𝑖,2+ 𝑝𝑖,+1 𝑝𝑖,+2 1 Lista I
  17. 17. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE 3. le due liste, C e I, possono essere considerate il risultato di N prove mutualmente indipendenti usando le distribuzioni multinomiali descritte al punto 2; per ogni singola unità 𝑖 si definisce una variabile 𝑥𝑖𝑎𝑏 pari ad 1 se l’unità 𝑖 cade nella cella ab e 0 altrimenti 𝑎, 𝑏 = 1,2 ; per le unità della popolazione la situazione può essere rappresentata come segue: dove 𝑁𝑎𝑏 = 𝑥𝑖𝑎𝑏 𝑁 𝑖=1 è il n° di unità nella cella ab 𝑎, 𝑏 = 1,2 , 𝑁𝑎+ = 𝑥𝑖𝑎𝑏 2 𝑏=1 𝑁 𝑖=1 𝑎 = 1,2 e 𝑁+𝑏 = 𝑥𝑖𝑎𝑏 2 𝑎=1 𝑁 𝑖=1 𝑏 = 1,2 ; ovviamente le quantità 𝑁22 e N non sono osservabili 4. è possibile determinare senza errore quali unità registrate nella lista I sono presenti nella lista C e quali no (ossia, non sono presenti errori di abbinamento) 5. entrambe le liste sono depurate da errori di registrazione e duplicazione 16 Lista C Si No Si 𝑁11 𝑁12 𝑁1+ No 𝑁21 𝑁22 𝑁2+ 𝑁+1 𝑁+2 N Lista I
  18. 18. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE 6. le probabilità che le unità siano incluse nella lista C, 𝑝𝑖1+ 𝑖 = 1, … , 𝑁 , e le probabilità che le unità siano incluse nella lista I, 𝑝𝑖+1 𝑖 = 1, … , 𝑁 , sono costanti per ciascuna lista, ossia soddisfano le condizioni 𝑝𝑖1+ = 𝑝1+ e 𝑝𝑖+1 = 𝑝+1 ; d’altra parte le due probabilità 𝑝1+ e 𝑝+1 sono generalmente differenti. In assenza di sovracopertura, avendo assunto l’indipendenza delle due rilevazioni, una stima della numerosità della popolazione è data da 𝑁 = 𝑁+1 𝑁1+ 𝑁11 Poiché con la PES non si effettua un’enumerazione completa su tutte le sezioni censuarie ma solo su un campione di esse, le quantità 𝑁+1 e 𝑁11 sono stimabili sulla base delle osservazioni campionarie. Pertanto, la stima di N è ottenibile nel seguente modo 𝑁 = 𝑁+1 𝑁1+ 𝑁11 17
  19. 19. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Regression Estimator (RE) Per la regione geografica 𝑟 e il gruppo di popolazione 𝑎, sono date le 𝑚𝑟 𝑎 coppie di valori 𝑥 𝑎𝑝𝑐 , 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 , in cui 𝑚𝑟 𝑎 = 𝑚𝑟 𝑎𝑝𝑝 e 𝑥 𝑎𝑝𝑐 è il totale censuario nei comuni campione della regione 𝑟 per il gruppo di popolazione 𝑎, mentre 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 è il DSE calcolato nel modo su descritto. Dopo aver stimato con il metodo dei minimi quadrati il coefficiente angolare 𝛽𝑟 𝑎 della retta di regressione interpolante la nuvola di punti definiti dalle 𝑚𝑟 𝑎 coppie di valori, si determina una stima della popolazione a livello di regione geografica 𝑟, gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC moltiplicando 𝛽𝑟 𝑎 per 𝑋𝑟 𝑎𝑝 , che rappresenta il totale censuario inerente a tutti i comuni della regione 𝑟 per il gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC: 𝑁 𝑎𝑝𝑟 = 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 18
  20. 20. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) Questa prima stima di 𝑁 𝑎𝑝𝑟 è poi corretta per un fattore di aggiustamento, 𝐹𝑝 𝑝 = 1,2,3 , che serve per bilanciare il campione qualora esso risulti un outlier. In circostanze normali, il campione estratto per la PES è rappresentativo della copertura del Censimento, poiché esso è stato disegnato a tal fine. Tuttavia, in ogni selezione campionaria esiste il rischio che il campione estratto sia un outlier (ossia, appartenga alle code della distribuzione) tra tutti i possibili campioni; in altri termini, il campione PES potrebbe, per puro effetto del caso, individuare sezioni di censimento in cui, ad esempio, il censimento ha conteggiato l’intera popolazione e presentare, pertanto, sottocopertura zero. Il procedimento SBA si prefigge l’obiettivo di valutare se il campione PES è sufficientemente rappresentativo comparandolo con tutti gli altri possibili campioni che potevano essere selezionati (se non lo è, le stime dei tassi di copertura avrebbero una distribuzione asimmetrica, troppo alti o troppo bassi) e correggere eventualmente la stima 𝑁 𝑎𝑝𝑟 attraverso un bilanciamento del campione stesso. 19
  21. 21. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) A tal fine, sono stati utilizzati i questionari censuari dummy corrispondenti alle famiglie per le quali non è stato ricevuto un ritorno censuario; essi sono ritenuti essere la migliore proxy della copertura. La procedura consta nei seguenti passi: 1. Si analizza la correlazione tra le 𝑚𝑟 𝑝 coppie 𝑞𝑟 𝑝𝑐 , 𝑞𝑟 𝑝𝑐 , in cui 𝑞𝑟 𝑝𝑐 e 𝑞𝑟 𝑝𝑐 rappresentano rispettivamente il non-response rate (ovvero, il rapporto tra il n° di questionari censuari dummy e il n° complessivo di questionari censuari) e la sua stima tramite la PES, al fine di stabilire se la variabile è una buona proxy della non risposta (quindi della copertura) e, pertanto, può essere usata se il campione relativo ad uno o più comuni risulta essere non rappresentativo. In tal caso (ossia, se la correlazione è maggiore di 0.5), un aggiustamento basato su di essi migliorerebbe lo stimatore regressione se il campione non è bilanciato. 20
  22. 22. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) 2. Si confronta il n° di questionari censuari dummy nella regione 𝑟 e modalità 𝑝 dell’HtC, 𝑌𝑟 𝑝, noto da Censimento, e la sua stima, 𝑌𝑟 𝑝, ottenuta attraverso la PES utilizzando uno stimatore rapporto. Se 𝑌𝑟 𝑝 risulta significativamente diverso da 𝑌𝑟 𝑝, allora il campione PES inerente alla regione 𝑟 e modalità 𝑝 dell’HtC è verosimilmente non bilanciato. Tuttavia, per una ulteriore e più valida verifica di tale circostanza, è opportuno ricorrere all’impiego del test seguente. 3. Essendo nota la distribuzione dei valori veri dei questionari censuari dummy relativi a tutti i comuni della regione 𝑟 e aventi modalità 𝑝 dell’HtC, si determina la varianza (e non la stima) di 𝑌𝑟 𝑝, Var 𝑌𝑟 𝑝 . Si costruisce quindi l’intervallo di confidenza al 95% intorno al valore vero 𝑌𝑟 𝑝: 𝑌𝑟 𝑝 − 2 Var 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 + 2 Var 𝑌𝑟 𝑝 Se la stima cade all’interno dell’intervallo allora non c’è evidenza che il campione sia outlier; se invece cade in una delle due code, allora il campione è un outlier. In quest’ultimo caso è opportuno applicare un fattore di aggiustamento per migliorare il bilanciamento del campione. 21
  23. 23. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) 4. Si calcola il fattore: 𝐹𝑟 𝑝 = 𝑌𝑟 𝑝 + 𝑋𝑟 𝑝 𝑋𝑟 𝑝 𝑀𝑟 𝑝 𝑚𝑟 𝑝 𝑌𝑟 𝑝𝑐 + 𝑋𝑟 𝑝𝑐 𝑚𝑟 𝑝 𝑐=1 𝑀𝑟 𝑝 𝑚𝑟 𝑝 𝑋𝑟 𝑝𝑐 𝑚𝑟 𝑝 𝑐=1 N.B. Se il campione è esattamente bilanciato: 𝐹𝑟 𝑝 = 1 Se il campione sottostima: 𝐹𝑟 𝑝 > 1 Se il campione sovrastima: 𝐹𝑟 𝑝 < 1 Dato il fattore 𝐹𝑟 𝑝, si determina la stima bilanciata di 𝑁 𝑎𝑝𝑟 : 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 22
  24. 24. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Determinazione delle stime del totale “vero” (incognito) della popolazione residente a livello regionale e nazionale Le stime a livello regionale sono immediatamente ottenibili sommando rispetto alle modalità 𝑝 dell’indice HtC e ai gruppi di popolazione 𝑎: 𝑁𝑟 = 𝑁𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝑁𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 𝑝𝑎 Sommando poi su tutte le regioni si ottiene la stima a livello nazionale: 𝑁 = 𝑁𝑟 𝑟 = 𝑁 𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 𝑝𝑎 23
  25. 25. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Valutazione della precisione delle stime della PES L’affidabilità delle stime dei parametri di interesse dell’indagine PES è stata valutata attraverso il calcolo dei coefficienti di variazione percentuale e degli intervalli di confidenza. Tali indicatori sono basati sulla stima della varianza delle stime prodotte dall’indagine in oggetto calcolata applicando il metodo bootstrap. I campioni bootstrap sono stati ottenuti a partire da una pseudo-popolazione costruita replicando i comuni e le sezioni campione un numero di volte pari ai loro corrispondenti pesi campionari. Siano 𝜃1, … , 𝜃 𝑎, … , 𝜃 𝐴 le stime del parametro 𝜃 ottenute applicando agli A campioni bootstrap uno stimatore avente una forma funzionale uguale a quella dello stimatore 𝜃 utilizzato per l’ottenimento delle stime dell’indagine (basate sull’utilizzo dei dati del disegno campionario originario). La stima bootstrap della varianza dello stimatore 𝜃 è data da: 𝑉𝐵𝑆 𝜃 = 1 𝐴 − 1 𝜃 𝑎 − 1 𝐴 𝜃 𝑎 𝐴 𝑎=1 2 𝐴 𝑎=1 24

×