F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per la codifica dell’attività economica nell’indagine sulle Forze di lavoro
F. Battellini - C. M. De Gregorio - Le stime dell’input di lavoro
Similar to F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per la codifica dell’attività economica nell’indagine sulle Forze di lavoro
Similar to F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per la codifica dell’attività economica nell’indagine sulle Forze di lavoro (20)
F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per la codifica dell’attività economica nell’indagine sulle Forze di lavoro
1. GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
SESSIONE II
PREVENZIONE, VALUTAZIONE E TRATTAMENTO
DEGLI ERRORI NON CAMPIONARI
Sperimentazione di un sistema di controllo e correzione
per la codifica dell’attività economica nell’indagine
sulle Forze di lavoro
Francesca della Ratta-Rinaldi, Mauro Tibaldi
2. 1. Caratteristiche e obiettivi della procedura
2. Risultati e loro ricadute sulla prevenzione dell’errore
3. Sviluppi futuri
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
3. L’antefatto
• Adozione nuova classificazione dell’attività
economica Ateco2007 (Nace Rev. 2) nella RFL
• Verifiche di congruenza sulle codifiche Ateco a
seguito di andamenti anomali nei dati
• Necessità di intervenire sui dati in fase di correzione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
4. L’attività economica nella RFL
L’attività economica principale svolta nella sede/unità
locale presso cui lavora l’intervistato viene registrata in
un campo aperto e poi ricondotta dal rilevatore al
codice Ateco a 6 digit
• C15: Cosa fa l’azienda o l’Ente presso la quale
lavora? (Indichi i principali beni e/o servizi prodotti)
I rilevatori si avvalgono di un sistema di codifica
assistita che li guida nell’attribuzione dei codici della
classificazione (navigatore)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
5. Informazioni supplementari
Nella fase di correzione utilizziamo anche la descrizione
della professione, perché spesso i rilevatori inseriscono in
questo campo informazioni utili per la codifica dell’attività
economica
C11 - Può dirmi il nome della sua professione e in che cosa
consiste il suo lavoro?
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
6. Una correzione mirata
Considerati i vincoli di tempestività (rilascio dei dati a
60 giorni dalla conclusione del trimestre) e l’elevata
numerosità campionaria dell’indagine (circa 150 mila
record individuali a trimestre), in seguito ad analisi
preliminari si è deciso di limitare la fase di correzione ai
settori più critici:
Agricoltura
Costruzioni
Servizi generali della PA
Istruzione
Sanità
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
7. La procedura di correzione codifica Ateco
La procedura si basa sull’analisi della congruenza tra il
linguaggio ufficiale della classificazione e quello dei
rispondenti
Due corpus a confronto
Il linguaggio della
classificazione Ateco
organizzato per
specifiche divisioni
(agricoltura, industria,
commercio, servizi…)
Il linguaggio degli
intervistati
(organizzato per
divisioni di codifica)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
8. Due linguaggi a confronto
A: linguaggio specifico Ateco che non viene
utilizzato dagli intervistati o non finisce nel
campione
B: linguaggio comune
C: termini utilizzati esclusivamente dai
rispondenti
c1: terminologia «pertinente» (utile per
arricchire vocabolario Ateco)
c2: terminologia «non pertinente»
indizio errore
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
9. A B
C2
C1
A: linguaggio
della classificazione
B: linguaggio
degli intervistati
I record che contengono
questi vocaboli devono
essere controllati
C2= terminologia non
pertinente
C1= terminologia
pertinente
Esempio: Agricoltura
coltivazione,
agricolo,
allevamento,
cereali, ortaggi
Aragoste,
barbabietole,
piscicoltura,
amarene,
bozzoli….
acquisti,
imbottigliamento,
edili, motorista,
Parmalat
mandorlo, asparago,
albicocco, mais/grano,
vendemmia, painte
Record aggiunti al
vocabolario Ateco
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
10. La procedura di correzione
È stata utilizzata la funzione di ricerca entità (RE) disponibile
in TaLTaC2
ricercare combinazioni di parole (entità) nell’intero frammento,
scrivendo il risultato in una nuova variabile personalizzata
aggiunta al dataset originario
Nuove variabili
aggiunte al
c12_f
data set
(professione
C16_F
chiave_individuo sesso eta …
)
(ateco) DUBBIO errore testo
201304303100055103 1 43 81450 841110 VERIFICA 81 manutenzione e pulizia di giardini, cimitero del comune operatore ecologico
201405809101232202 2 53 24130 841110 86 asl presidio sanitario regionale medico asl
201404701100009102 1 51 81450 841110 VERIFICA 381100 comune di montecatini terme operatore ecologico presso comune di 201402104700013102 2 41 81510 841110 VERIFICA 853209 amministrazione provinciale bidella di scuola
201405900800041101 1 40 32111 841110 VERIFICA 862202 azienda regionale emergenza sanitaria infermiere professionale
201408304800149202 2 51 43230 841120 7219 ente di ricerca cnr impiegato amministrativo rendicontazione progettio 201307000600134201 2 53 44220 842300 910100 servizio biblioteca amministrazione pubblica addetta alla biblioteca della 201408006300205101 1 60 25111 841110 CONTROLLA amministrazione provinciale gestione corsi professionali funzionario GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
11. La strategia di correzione si affina nel tempo
1. Le sessioni di
correzione successive
alla prima “apprendono”
dalle operazioni
effettuate in precedenza
2. Si amplia il vocabolario
Ateco di partenza (A)
riducendo la numerosità
delle parole da
controllare
3. Si individuano in
automatico gli errori già
corretti in precedenza:
circa il 60% delle
correzioni
4. Si applica la procedura
soltanto ai record non
interessati da correzione
automatica
5. Con un unico comando si
etichettano tutti i record con
parole anomale
6. Nella fase di verifica finale
si controlla l’effettiva
esattezza della codifica
inserita dal rilevatore per
tutti i record con parole
anomali
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
12. .Le correzioni effettuate (IV trim 2011-III trim2014)
Fino ad oggi la nuova procedura di correzione ha consentito
di assegnare una nuova codifica a oltre 3.600 record, pari
all’1,6% del totale di quelli controllati
Divisioni Codifiche errate
Record
controllati % su controllati
Agricoltura 370 29,192 1.3
Costruzioni 521 49,957 1.0
PA 1,737 44,799 3.9
Istruzione 503 48,832 1.0
Sanità 526 57,485 0.9
Totale 3,657 230,265 1.6
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
13. . Ricadute sulla prevenzione dell’errore
La sperimentazione è importante sia per la correzione
del dato sia soprattutto per la sua prevenzione
Individuazione di una casistica di errori più frequenti
per ciascuna divisione, utile per ritorni formativi
Emerso un problema a monte: la qualità delle stringhe
descrittive, spesso troppo brevi e generiche
L’analisi di tutti i descrittivi brevi (<13 caratteri) alimenta
una lista attraverso cui si invia un warning automatico
quotidiano a tutti i rilevatori
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
14. Il valore aggiunto: la prevenzione
La fase di correzione ha permesso di costruire
progressivamente un sistema organico e strutturato
orientato a prevenire l’errore di codifica attraverso:
1. formazione generale sull’Ateco e sulle regole di
codifica a tutti i soggetti coinvolti (rilevatori Capi, Cati,
Astat, responsabili uffici regionali, supervisori Capi)
2. ritorni formativi specifici sull’Ateco a tutti i rilevatori
dell’indagine (Capi e Cati), tra cui formazione frontale
ai 310 rilevatori Capi a dicembre 2013
3. warning automatico quotidiano a tutti i rilevatori che
inseriscono un descrittivo generico
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
15. Il valore aggiunto: la prevenzione
4. invio trimestrale personalizzato a ciascun rilevatore
delle codifiche errate con spiegazioni
5. esercitazioni periodiche di codifica per tutti i rilevatori
- creazione indirizzo mail (atecorfl@istat.it)
6. costruzione di una rete di “qualità” condivisa da tutti gli
attori coinvolti
Risultato: diminuzione del tasso di errore e riduzione
dei descrittivi generici (da circa 2.000 segnalazioni
a inizio 2013 a 949 a fine 2013)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
16. Punti di forza
La procedura di correzione si è rivelata utile per
correggere materiali complessi riducendo
notevolmente i tempi di operazioni che a mano
avrebbero richiesto più tempo
La procedura presenta il vantaggio di concorrere al
miglioramento progressivo della qualità dei dati
dell’indagine sulle forze di lavoro, eliminando un
numero significativo di record mal classificati
Le procedure messe in atto hanno consentito anche la
definizione di strategie preventive (formazione,
warning automatico) per la sua riduzione ex-ante
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
17. Sviluppi futuri
La sperimentazione ha evidenziato anche un limite dello
strumento di codifica
Il linguaggio ufficiale della classificazione è distante dal
modo di esprimersi degli intervistati e può essere fonte di
errore
Il rilevatore non riesce a codificare bene se i termini
utilizzati dai rispondenti non sono presenti nel
vocabolario del navigatore (ipercoop, esercito, ater, acli,
etc.)
L’aggiunta di termini tratti dal
linguaggio degli intervistati potrebbe
migliorare le performances
del navigatore
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
18. Sviluppi futuri
Un nuovo navigatore che integri le esperienze già
realizzate in Istituto e l’amplissima fonte rappresentata
dai testi liberi inseriti dai rispondenti potrebbe facilitare il
processo di codifica e ridurre l’impatto dell’errore e delle
correzioni
Uno strumento di codifica assistita potrebbe rivelarsi
inoltre indispensabile nel caso delle indagini CAWI
Si tratterebbe dell’anello mancante di
questo percorso, che potrebbe tornare
utile a tutte le indagini sulle famiglie
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
19. Grazie per l’attenzione
Versione più estesa in Istat
working papers n. 4/2014
http://www.istat.it/it/archivio/
134852
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi