S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni
Similar to S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni
Similar to S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni (20)
S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni
1. Le integrazioni delle fonti per
il sistema dell’istruzione e formazione:
I risultati conseguiti con le prime
sperimentazioni
DCSE/1 Progetto: Integrazione delle fonti campionarie e amministrative
per l'analisi del sistema formativo
Silvia Montagna
Enrico Manna
Lidia Brondi
Roma – 20 maggio 2014
1
2. Il percorso
La collaborazione inter-istituzionale tra MIUR e ISTAT
sancita da uno specifico protocollo di intesa tra le parti per allargare
l’acquisizione delle basi di dati anche alle fonti amministrative
L’analisi, a priori, del potenziale informativo delle fonti
amministrative e del livello di qualità
con approccio ispirato a principi base di certificazione di qualità totale
La certificazione, a posteriori, del potenziale valore aggiunto offerto
della integrazione delle fonti amministrative
con la produzione della QRCA per ciascun nuovo archivio
2
3. Il percorso
La costruzione e l’analisi degli archivi integrati
Al minimo livello di disaggregazione possibile e per le popolazioni
confrontabili
II feedback verso il produttore per concordare le iniziative di
miglioramento
per accrescere la conoscenza sui processi e la qualità dei prodotti rilasciati
La innovazione di processo e di prodotto: dalla sola rilevazione
statistica all’utilizzo congiunto delle fonti statistico-amministrative
con il supporto a decisioni politiche, gestionali, normative e organizzative
La formazione statistica «continua» anche degli addetti ai processi
amministrativi
per accrescere la consapevolezza sull’uso statistico e sui criteri di qualità
dei processi e prodotti statistici 3
4. Il percorso
Non privo di ostacoli dovuti a:
I diversi punti di vista dei vari attori
coinvolti nelle decisioni e nei processi di produzione
Rischio di incidenti istituzionali nazionali e internazionali
Scelta di strade talvolta senza una destinazione certa per la scarsa
visibilità sui processi produttivi a monte
Qualche miraggio da illusione ottica sulla vicinanza del risultato finale
Qualche dubbio sullo sforzo da erogare commisurato al risultato atteso
4
5. Prove muscolari…
per riuscire ad avere i dati e per la prima volta siamo
riusciti ad ottenere, ad esempio
• Anagrafe nazionale degli Studenti
• Rilevazione sul personale scuola privata
• Demo sul sistema di gestione dei Dottori di ricerca
Per condividere metodi e modi per la presentazione
dei risultati
Nel percorso non è mancato nulla…
5
6. prove muscolari,
qualche imbarazzo,
Intraprendere strade impercorribili
illusione di essere giunti velocemente alla fine
l dubbio di aver fatto un grande sforzo inutile
E poi … il sollievo ad obiettivo raggiunto!!
Nel percorso non è mancato nulla…
6
7. Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Conclusioni: dalle sperimentazioni condotte emerge che le fasi del
processo di produzione statistica (tradizionale) si possono
avvantaggiare della integrazione di dati provenienti da più fonti, purché
siano rispettate determinate condizioni.
I casi di studio hanno affrontato come avvalersi della integrazione, ad
esempio nel processo di produzione «tradizionale» (SDI):
•prima della raccolta dei dati;
•durante le operazioni sul campo;
•durante le elaborazioni dei dati;
•ai fini della diffusione dei dati.
Mentre nel processo SDA la descrizione del fenomeno può cogliere
sfaccettature inattese (es.: assicurati INPDAP).
7
8. Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Prospettive:
•Accompagnare l’archivio rilasciato
con una «certificazione»
•Agevolare l’accesso al SIM per evitare duplicazioni e disallineamenti
rispetto alle azioni di aggiornamento/miglioramento di dati
•Integrare i metadati secondo le varie loro declinazioni
8
9. Processo di integrazione delle fonti: primi risultati
L’analisi (a cura Sistan et al.) degli archivi amministrativi per l’uso statistico
ha messo a disposizione le istruttorie sugli archivi della scuola e degli studenti
universitari che il MIUR può al momento rilasciare.
La costituzione (a cura DCCR et al. ) delle basi informative amministrative
integrate è stata mirata al supporto:
-delle indagini e delle analisi delle transizioni formazione-lavoro
-della stima del personale per le istituzioni scolastiche con gestori privati
L’innovazione di processo per la produzione di statistica ufficiale si è
concretizzata nella produzione (a cura MIUR et al.) di statistiche sui laureati a
partire dalla ANS 2012 e di cruscotti a supporto delle decisore istituzionale.
La cooperazione applicativa tra sistemi statistici mirata (ad esempio)
all’orientamento dà valore aggiunto alla diffusione delle singole informazioni
amministrative o statistiche
9
10. Processo di integrazione delle fonti: primi risultati
Alcune delle criticità incontrate
10
• Chiave di abbinamento
• Matching tra domanda e offerta (es.: variabile richiesta e
variabile fornita)
• Uso di variabili proxy in assenza di altre variabili
Es.: L’indagine condotta dal Miur rileva il personale
distinguendolo tra personale docente e personale non
docente (il primo è l’aggregato richiesto da Eurostat).
Una variabile che descrive la Posizione nella professione
presente per una parte dei lavoratori della Base
informativa integrata può fornire delle informazioni di proxy
per distinguere il personale tra docente e non docente.
• Discontinuità temporale di talune basi informative
11. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Nei casi di studio trattati e riferiti alle tre popolazioni campionarie totali
(diplomati, laureati e dottori), è stata sperimentata l’integrazione:
•Per chiave univoca: Codice Fiscale dell’individuo (exact matching)
•Per variabili parziali di composizione della chiave univoca Codice Fiscale
(nome, cognome, anno di nascita, comune di nascita) (senza gg e mm di
nascita)
E nel caso riferito ai lavoratori del mondo scuola
•Mediante variabili indirette
Tra i motivi di mancato abbinamento:
•Chiave univoca totalmente mancante
•Chiave errata (errore di registrazione o di trasformazione)
•Variabili comuni rilevate in tempi distanti e sensibili a variazioni di stato
E CODIFICHE E CLASSIFICAZIONI DIVERSE 11
12. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Record linkage
Mediante Codice Fiscale:
•Costruite le liste di campionamento complete di variabili aggiuntive
(es.: dati anagrafici per il reperimento dell’individuo a fini di
comunicazioni ufficiali e per la conduzione della rilevazione)
•Completata la popolazione con unità mancanti
•Corretti dati errati (es.: Genere, età, territorio, etc…)
Ma soprattutto ….riprogettare la rilevazione statistica per
•Contenere il numero della fasi
•Utilizzare nel disegno del questionario le variabili disponibili dalle fonti
amministrative:
– Eliminazione di domande (riduzione del response burden)
– Precaricare valore di variabili da visualizzazione (senza richiesta di
conferma)
– Precaricare valore da sottoporre a controllo e aggiornamento
– Usare informazioni nelle fasi post rilevazione per controlli e correzioni 12
13. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
•E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale
maturata in ambito economico (ASIA)?
•Ripercorrere la storia dell’individuo sembra
semplice per la presenza del CF che accompagna
ogni evento (amministrativo) della nostra vita?
•La ricerca della ricostruzione si risolve nella
sola risposta dicotomica trovato/non trovato?
La costruzione dell’integrazione e l’interpretazione del risultato
sono talvolta più complessi e richiedono una conoscenza
approfondita degli eventi che determinano
le registrazioni amministrative
13
14. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
I casi trattati
•La complessità del linkage è, in generale, dell’ordine di grandezza del
prodotto cartesiano dei due insiemi;
•Se il risultato dell’abbinamento è di tipo n:m per migliorare
l’individuazione degli abbinamenti “corretti” si possono adottare altre
tecniche (es.: riduzione di distanza mediante l’uso di funzioni di
controllo)
•Poiché le scelte che si fanno ad ogni passo della procedura di linkage
possono introdurre errori di linkage (falsi abbinamenti o mancati
abbinamenti), la accuratezza della documentazione è fondamentale:
chi esegue il linkage deve fornire il maggior numero possibile di
informazioni sul linkage, così che l’analisi possa essere fatta a sua
volta di scelte consapevoli (le variabili usate per il linkage, l’esito
della eventuale revisione manuale, etc…)
14
15. SIM: realizzazioni e lavori in corso
A carico DCCR/ADA:
(…)
•Costruzione della chiave univoca di identificazione per la navigazione
all’interno del SIM
•Caricamento dei Metadati in apposite tabelle e ricodifica di (alcune)
variabili di classificazione a livello centralizzato.
•E’ in corso di implementazione la produzione della documentazione
dei contenuti del SIM e una specifica documentazione della qualità dei
dati e dei processi di integrazione (Quality Report Card dei dati
Amministrativi – QRCA)
(da presentazioni DCCR/ADA)
15
16. Processo di integrazione delle fonti: primi risultati
Sistema integrato
sull’istruzione e sulla
formazione
Strutture scolastiche
Fonti: MIUR – ASIA, etc.
Personale scolastico
Fonti: MIUR-AT-INPS-
INPDAP-etc..
Studenti scolastici
Fonti: MIUR – LAC-
etc..
Studenti Universitari
Fonti: MIUR, LAC, AT,
INPS, INPDAP, etc.
Personale universitario
Fonti: MIUR
Strutture
Universitarie
Fonti: MIUR, ASIA
Formazione
professionale
Fonti MIUR, LAC
16
E per DCSE…
17. SIM: realizzazioni e lavori in corso
esempio di trasmissione di metadati da SIM
17
ID Nome colonna Tipo Significato Note
1 CODICE_FISCALE "Testo" codice fiscale (cf)
2 CODICE_UNITA "Numero" codice unità (cu)
3 NSCUOLE "Numero" numero scuole numero scuole (calcolato sulle tipologie)
4 FLAG_STESSOTIPO_DIVERSOTIPO "Testo" flag stesso tipo o diverso tipo di scuola
Se '1' ha la medesima tipologia di scuola, se '2' ha tipologia differente, se '3' ha
almeno un caso di TIPOLOGIA='TUTTE' .
5 TUTTE "Numero" contatore tipologia TUTTE
Se Desc_Tipologia in (Centro Territoriale - Convitto Annesso - Convitto
Nazionale - Educandato - Istituto Comprensivo)
6 INFANZIA "Numero" contatore tipologia INFANZIA Se Desc_Tipologia in (SCUOLA INFANZIA - SCUOLA INFANZIA NON STATALE)
7 PRIMARIE "Numero" contatore tipologia PRIMARIE Se Desc_Tipologia in (SCUOLA PRIMARIA" , "SCUOLA PRIMARIA NON STATALE)
8 SECONDARIE_DI_PRIMO_GRADO "Numero"
contatore tipologia
SECONDARIE_DI_PRIMO_GRADO
Se Desc_Tipologia in (SCUOLA PRIMO GRADO" , "SCUOLA SEC. PRIMO GRADO
NON STATALE")
9 SECONDARIE_DI_SECONDO_GRADO "Numero"
contatore tipologia
SECONDARIE_DI_SECONDO_GRADO
Se Desc_Tipologia in (tutte le restanti tipologie)
10 ANNO "Numero" ANNO
11 DESC_ENTE_GESTORE "Testo" descrizione ente gestore
12 FLAG_STATALI "Testo" flag scuola statale e non
Se '1' è una scuola statale, se '0' allora è una scuola non statale, se ' ' ha
associate sia scuole non statali che statali
13 NumStatali "Numero" numero scuole statali associate
14 NumNoStatali "Numero" numero scuole non statali associate
15 FLAG_MIUR_NOPROFIT "Testo" flag presenza in Miur e NoProfit
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
16 NADDETTIUL "Numero" numero addetti per tutte le UL Variabile proveniente dalla fonte NoProfit
17 NVOLONTARIUL "Numero" numero volontari per tutte le UL Variabile proveniente dalla fonte NoProfit
18 FLAG_MIUR_ASIAUL "Testo" flag presenza in Miur e in AsiaUl
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
19 FLAG_MIUR_EMENS "Testo" flag presenza in Miur e in Emens
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
20 DIPEMENS "Numero" numero dipendenti da Emens
21 FLAG_MIUR_COLLINPS "Testo" flag presenza in Miur e in CollInps
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
22 DIPCOLLINPS "Numero" numero dipendenti da CollInps
23 FLAG_MIUR_INPDAP "Testo" flag presenza in Miur e in Inpdap
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
24 DIPINPDAP "Numero" numero dipendenti da Inpdap
Tracciato record ScuoleMiur11 (chiave CODICE_FISCALE E CODICE_UNITA)
18. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Aspettative dal Record linkage
Integrazione trasversale:
•Arricchire la conoscenza di una popolazione con un maggiore numero
di variabili provenienti da più fonti e caratterizzate da uno stesso
riferimento temporale
Integrazione longitudinale:
•“seguire” nel tempo le storie professionali di differenti coorti di
popolazione, nel nostro caso:
– popolazioni di studenti,
– popolazioni di addetti al mondo istruzione
18
19. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Integrazione trasversale:
•La conoscenza iniziale sulle popolazioni campionarie per le interviste
da condurre nel 2014 si arricchisce, ad esempio, con quanto
disponibile dalle LAC e dall’archivio telefonia fissa:
Elaborazioni: E. Manna
Ricerca
riferimenti
telefonici
Fonte Popolazione
numerosità
iniziale CF distinti
reperiti in LAC
arricchite %
con CF
distinti
con almeno un
telefono
valore aggiunto
rispetto al già
noto
Atenei Dottori di ricerca 2008 e 2010 22.630 22.553 20.469 100,0% 20.441 8.412 276 casi
Italiani 20.003 97,7% 8.366
stranieri 466 2,3% 46
ANS cineca Laureati 2011 289.661 289.631 283.579 100,0% 283.332 154.895 100%
Italiani 286.011 279.508 98,6% 154.369 1,00
stranieri 3.620 4.071 1,4% 526 0,003
ANS Miur
Diplomati 2011 (campione50%
scuole) 192.506 192.241 188.395 100,0% 188.295 98.298 (in corso)
italiani - 182.332 96,8% 97.424 0,99
stranieri - 5.563 3,0% 750 0,01
19
20. Focus n.0: Laureati 2011
La popolazione del 2011 è stata oggetto di analisi di benchmark:
La nuova fonte amministrativa ANS 2011 è stata messa direttamente a
confronto con la fonte rilevazione statistica:
-È stato accelerato l’uso di ANS 2012
-È stato focalizzato il tema dell’offerta telematica
-È stato individuato il nuovo bacino informativo amministrativo
(OF.F Offerta Formativa, Dottorati e Dottori di ricerca, Docenti, etc…)
20
22. Focus n.1: Laureati 2007
La popolazione del 2007 è stata oggetto nel 2009 di una rilevazione
sull’esito professionale a tre anni dalla laurea.
L’analisi per l’integrazione è stata articolata principalmente in:
“Ricostruzione” del Codice Fiscale, non raccolto a suo tempo;
Ricerca negli archivi amministrativi della evidenza lavorativa del laureato;
•Confronto con il corrispondente dato di fonte rilevazione (in corso);
22
23. Focus n.2: Rilevazioni statistiche del 2014
Le popolazioni campionarie:
•Dottori di ricerca di vari anni (solari)
•Laureati dell’anno solare 2011
•Diplomati dell’anno scolastico 2011/12
Per le rilevazione sull’esito professionale a tre anni (o più)
dal conseguimento del titolo.
L’analisi è articolata principalmente in:
Completamento delle liste campionarie con le variabili non presenti in ANS
Ricerca negli archivi amministrativi della evidenza lavorativa dell’individuo
Confronto con il dato da rilevazione;
23
24. Focus n.3: Istituzioni private – (non statale)
Sono state condotte in parallelo due attività con l’obiettivo di colmare lacune
informative e per rispettare la deadline del regolamento europeo (EC) No
452/2008 (e.g. : Number of classroom teachers (by isced levels 0-4) by sex, age
group, employment status and type of institution (private))
•Analisi dei dati relativi all’a.s. 2011/2012 per il supporto alla produzione delle stime
per il personale (docente e non docente) delle istituzioni private
•Analisi preliminare all’utilizzo dei dati relativi all’a.s. 2012/2013 concentrata sulle
variabili utili per il «linkage amministrativo» e per l’eventuale confronto con il dato
statistico storico (da fonte rilevazione):
– “spoglio” dell’archivio anagrafico delle scuole private e
pubbliche_non_statali a.s. 2012/2013;
– arricchimento delle definizioni (anche ai fini di un glossario) attraverso la
ricostruzione del complesso quadro legislativo vigente per il sistema
scolastico.
24
25. Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private –
(non statali)
Anno scolastico 2011/2012
Ai fini del supporto richiesto dal MIUR per la produzione delle statistiche sul
personale docente e non docente delle scuole private per ordine scolastico, per
classe di età, genere e orario di lavoro a livello nazionale, (Regolamento (EC) No
452/2008)
•Le informazioni su ciascuna Scuola si ottengono tramite il relativo Ente gestore
(CF);
•È stato concettualizzato il contenuto di una apposita estrazione dal SIM e
costituzione della base informativa che tramite approccio LEED individua gli addetti
degli Enti gestori delle scuole;
•Mediante variabili proxy sono stati «selezionati» gli addetti che hanno evidenza di
appartenenza al mondo della scuola (con gradi di certezza crescenti);
25
26. Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private –
(non statali)
Anno scolastico 2011/2012 ( a cura DCSE-1)
Es.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale
docente e personale non docente (il primo è l’aggregato richiesto da Eurostat).
Nella base informativa estratta da SIM la variabile che descrive la Posizione nella
professione del lavoratore (valorizzata in diversi archivi che concorrono al
popolamento della base informativa integrata) può fornire delle informazioni di proxy
per distinguere il personale tra docente e non docente.
26
27. Focus n.3: Istituzioni scolastiche pubbliche e private – (non statali)
- segue
Controllo ed analisi dei dati - Anno scolastico 2012/2013
L’analisi condotta ha riguardato da un lato il controllo delle chiavi di linkage dei dati, dall’altro
l’elaborazione di alcune tabelle con la distribuzione delle Istituzioni scolastiche non statali
secondo le caratteristiche della scuola e dell’Ente Gestore.
A) INFORMAZIONI RELATIVE ALLA SCUOLA (O ISTITUZIONE SCOLASTICA)
Codice e Denominazione della scuola;
Indirizzo, Località, Comune e CAP;
Regione, Provincia e Sigla della Provincia;
Tipologia della scuola;
Tipologia della scuola secondaria di II grado.
A) INFORMAZIONI RELATIVE ALL’ENTE GESTORE
Codice Fiscale e Descrizione dell’Ente gestore;
Indirizzo, Comune di residenza e CAP;
Comune di nascita;
Tipo di Ente;
Nome e Cognome del Rappresentante legale.
I controlli di qualità sono stati finalizzati a verificare la completezza e la correttezza delle
informazioni contenute nel file e la coerenza delle classificazioni adottate con le corrispondenti
classificazioni utilizzate dall’Istat.
27
28. L’analisi della distribuzione degli Enti gestori secondo il numero di Istituzioni
scolastiche gestite conferma anche per a.s.2012/2013 che circa l’80% degli
Enti gestori (pari a 6.297 unità) gestisce una sola istituzione scolastica,
circa il 10% ne gestisce 2 e circa il 2% gestisce almeno 10 scuole.
Elaborazioni e analisi: L. Brondi
Focus 3: Istituzioni private – (non statale) (segue)
NUMERO DI ISTITUZIONI
SCOLASTICHE NON
STATALI
NUMERO ENTI GESTORI
Valori
assoluti
Valori in %
Frequenze
cumulate
%
1 6.297 79,27 6.297 79,27
2 789 9,93 7.086 89,20
3 296 3,73 7.382 92,93
4 155 1,95 7.537 94,88
5 88 1,11 7.625 95,98
6 67 0,84 7.692 96,83
7 52 0,65 7.744 97,48
8 27 0,34 7.771 97,82
9 17 0,21 7.788 98,04
10-15 86 1,08 7.874 99,12
16 e più 70 0,88 7.944 100,00
Totale 7.944 100,00
28
29. 29
a.s. 2011/12
Fonte N.record Cod scuola e
CF gestore
Solo
Cod scuola
(unico)
Solo
CF
gestore
(unico)
Anagrafe delle scuole
Miur_anag_scuole
67.278
*
24905
§
42373 -
Rilevazione Integrativa
PersonaleNonStatali
15.350 - 15.350
di cui 15214
distinti
-
Estratto SIM
Contadipscuolemiur11_dic11
18.141 - - 18.141
distinti
Esito Record Linkage:
Chiave ricostruita% 91% 1% -
Chiave ricostruita 14.983 13969
#
1014
di cui
1011
distinti
-
*Di cui 14522 scuole non statali e 13.986 non statali paritarie.
N.B.: Manca Bolzano in anagrafe scuole,
~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!!
§Di cui 18.283 codici fiscali distinti.
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
30. 30
Flag
Miur
Inpdap
ENTE GESTORE
Val.
assoluti
Valori in
%
Infanzia Primaria
Secondaria
di I grado
Secondaria
di II grado
REGIONE - - 15 0 0 2 -
PROVINCIA - - 0 0 0 3 -
COMUNE - - 100 7 2 14 -
ALTRO GESTORE PUBBLICO - - 228 2 1 15 -
ALTRO GESTORE PRIVATO - - 2.739 247 110 986 -
ENTE O PERSONA PRIVATA - - 296 35 11 87 -
GESTORE PRIVATO RELIGIOSO - - 2.629 197 166 274 -
SUBTOTALE - - 6.007 488 290 1.381 -
REGIONE 9.914 4,45 169 28 0 0 49
PROVINCIA 21.555 9,67 1 0 0 14 1
COMUNE 158.393 71,05 1.449 6 1 2 2
ALTRO GESTORE PUBBLICO 1.203 0,54 141 12 2 0 2
ALTRO GESTORE PRIVATO 28.015 12,57 744 211 58 66 1
ENTE O PERSONA PRIVATA 80 0,04 12 7 4 2 0
GESTORE PRIVATO RELIGIOSO 3.780 1,70 1.574 836 340 313 4
SUBTOTALE 222.940 100,00 4.090 1.100 405 397 59
222.940 100,00 10.097 1.588 695 1.778 59
Elaborazioni a cura: L.Brondi
11
TOTALE
Distribuzione della presenza di addetti Inpdap e delle istituzioni scolastiche per Ente gestore (a.s. 2011/2012)
TIPO ENTE GESTORE E PRESENZE
ADDETTI INPDAP
Numero
dipendenti
Inpdap
Tipologia Istituzioni scolastiche
Altre
tipologie
10
31. 31
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
The FREQ Procedure
Analisi della differenza tra dato fonte sim e fonte rilevazione miur
Cumulative Cumulative
class_diff Frequency Percent Frequency Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
-999 3 0.05 3 0.05
-99 6 0.10 9 0.15
-49 1040 17.48 1049 17.63
-9 1258 21.14 2307 38.77
-1 239 4.02 2546 42.79
0 165 2.77 2711 45.56
1 105 1.76 2816 47.33
9 435 7.31 3251 54.64
49 1103 18.54 4354 73.18
99 608 10.22 4962 83.39
999 988 16.61 5950 100.0
The MEANS Procedure
Analysis Variable : diff_dip_sim_ril
N Mean Maximum Minimum Range Std Dev
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
5950 34.8963025 324.0000000 -132.0000000 456.0000000 62.8744276
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
condotta sulle sole osservazioni con ente gestore con unica scuola
32. Processo di integrazione delle fonti: primi risultati
Il percorso non è completato …
Control and editing/cleanig of the data is a never ending activity
In ciascuna fonte ci si deve attendere che la qualità sia maggiore per le
informazioni più strettamente necessarie per la finalità istituzionale che
ha originato quella fonte presso l’ente produttore (soggetto titolare)
La qualità dell’informazione amministrativa e dell’informazione statistica
è un concetto multidimensionale
Quale qualità?
•Qualità attesa, qualità misurabile, qualità migliorabile
•Valore aggiunto delle integrazioni
Es.: uso forme contrattuali
Incrocio con variabili demosociali della famiglia
•Gestione degli scarti e dei residui dagli abbinamenti
32
33. Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
L’introduzione di innovazioni di processo e di prodotto comporta la
assunzione di alcuni nuovi rischi.
Aiuta a contenerli:
• La scelta di metodologie di trattamento adatte alla nuova natura mista
dei dati
• La gestione dei dati, condivisa tra i vari produttori e utilizzatori,
orientata alla qualità (secondo i principi declinati per la statistica ufficiale
e per gli archivi amministrativi utili a fini statistici).
• Etc…
33
34. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
La fonte amministrativa, per la sua natura, potrebbe avere un
ciclo di vita (inserimento, aggiornamento e cancellazione delle
informazioni) molto diverso da quello di una base dati
statistica.
La trasformazione dell’input nel processo di produzione
statistico: il passaggio da SDI a SDA
Investire sulla innovazione dei prodotti per contenere la
proliferazione di «manufatti».
34
35. Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Alcuni dei problemi incontrati
Protezione della identificazione dell’individuo:
•Sostituzione della chiave identificativa con chiave anonima
•Verifica dell’efficacia dell’intervento di anonimizzazione
Problema della corretta interpretazione:
•Carenza di memoria storica della registrazione amministrativa
•Utilizzo nel disegno del questionario delle variabili disponibili presso le
varie fonti
Problema del riferimento temporale e dell’esito dell’abbinamento
Problema della veridicità dei big data
… 35
36. e per migliorare il nostro restauro…
Continuare ad investire:
•sul miglioramento del protocollo di comunicazione tra
soggetti Sistan per agevolare la fornitura dei dati
Es.: normalizzare la struttura dei data base
•sulla maggiore condivisione del sistema di
classificazione e codifica dei dati
Es.: Ovviare alla criticità legata alle “variazioni amministrative” aggiornate
periodicamente dall’Istat
•sulla maggiore linkabilità diretta dei dati
Es.: Ovviare alla criticità della mancanza o correttezza delle di chiavi di linkage
36
In pochi minuti cerco di sintetizzare il percorso fatto in questi mesi per conseguire gli obiettivi, molti dei quali raggiunti, e cercherò di completare la presentazione condividendo qualche riflessione emersa per l’indirizzo delle azioni future.
Abbiamo avuto a disposizione alcuni strumenti, il protocollo di intesa tra MIUR e ISTAT, alcune indicazioni a priori, degli «ingredienti» di base
E con questi abbiamo confezionato prodotti che hanno interessato contemporaneamente ben 8 processi produttivi:
Analisi e validazione Anagrafi scolastiche di due annualità (2011/12 e 2012/13)
Personale docente e non docente scuola di due annualità (2011/12 e 2012/13)
Laureati di due annualità 2007 e 2011
Diplomati 2011
Dottori 2009 e 2011
Abbiamo indicazioni di miglioramento da restituire ai produttori e indicazioni di miglioramento per snellire burocrazia, produrre statistiche in «diretta» e promuovere la conoscenza e competenza statistica negli informatici e negli amministrativi che governano le fasi di produzione degli archivi amministrativi sostitutivi delle rilevazioni sul campo.
Percorso talvolta in salita che non ci ha risparmiato qualche bella sudata…
NO: il tempo si guadagna dalla prossima estrazione dal SIM e per le prossime rielaborazioni.
Come responsabile di un progetto presso la Direzione Centrale delle statistiche socio-economiche finalizzato a promuovere l’integrazione tra fonti di dati sull’istruzione, lasciatemi trarre subito le conclusioni: dalle sperimentazioni condotte in questo anno di lavoro, abbiamo dimostrato concretamente che anche le fasi del processo di produzione statistica demosociale si possono avvantaggiare della integrazione di dati provenienti da più fonti, purché siano rispettate determinate condizioni.
I casi di studio hanno affrontato come avvalersi della integrazione, ad esempio:
prima della raccolta dei dati: per una migliore individuazione della popolazione da intervistare
durante le operazioni sul campo: per avere informazioni che agevolino il contatto del rispondente e riducano il burden
durante le elaborazioni dei dati: per avere informazioni di raffronto
ai fini della diffusione dei dati: per aumentare il potere espressivo dell’informazione
Cosa ci aspettiamo per il futuro:
Una maggiore condivisione delle iniziative di gestione per il miglioramento della qualità
Da Competitors, da logiche CS a cooperazioni di vera Partnership
Da Pianificazioni separate a pianificazioni condivise
Da duplicazioni ad accessi diretti
Quale esito lavorativo ha l’individuo, una volta conseguito il titolo di studio
Non dedico troppo tempo a definizioni, ma molto ruota innanzitutto intorno alla disponibilità di una chiave univoca e corretta di abbinamento delle informazioni
Le sperimentazioni hanno affrontato una gradualità crescente della complessità
Per giungere all’obiettivo di riprogettare la rilevazione statistica per
- Ridurre il numero della fasi e quindi costi diretti e tempi della rilevazione
- Utilizzare nel disegno del questionario le variabili già disponibili
Abbiamo citato spesso il CF: la domanda che ricorre maggiormente:
E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale maturata in ambito economico?
La presenza del CF consente di produrre statistiche rappresentative per l’intera popolazione?
(stranieri?)
La ricerca della ricostruzione si risolve nella sola risposta dicotomica trovato/non trovato?
L’interpretazione del risultato è più complesso e richiede una conoscenza approfondita degli eventi
che determinano le registrazioni amministrative;
il record linkage richiede qualche cautela … una mano delicata…direi da restauratore
La disponibilità di informazioni (metadata, metacontent, etc…) è un requisito necessario per ogni passaggio della nuova procedura
Con il linkage si possono introdurre errori (falsi abbinamenti o mancati abbinamenti), la accuratezza della documentazione è fondamentale per consentire scelte e valutazione dell’esito delle analisi consapevoli
(le variabili usate per il linkage, l’esito della eventuale revisione manuale, etc…)
Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
Qui in sintesi le fonti disponibili e che sono state oggetto delle sperimentazioni
- finalizzate alla realizzazione di un sistema che integri un insieme più ampio di caratteristiche del fenomeno
- da realizzare attraverso innovazioni di processo e innovazioni di prodotto della cui complessità ci stiamo rendendo conto attraverso le sperimentazioni
l’esito di sperimentazioni condotte per le due finalità di integrazione trasversale e longitudinale…
Non anticipo alcun risultato
In questi circa 9 mesi abbiamo lavorato contemporaneamente su più linee produttive
Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
Lo studio verrà replicato per l’anno scolastico 2012/13 in vista della fornitura richiesta dal regolamento europeo.
Pertanto in parallelo è stata avviata l’analisi dell’anagrafe 2012/13 sempre nell’ottica dello studio della relazione Ente gestore - Unità scolatica
E anche per il 2012713 viene confermata la percentuale
*Di cui 14522 scuole non statali e 13986 non statali paritarie. N.B.: Manca Bolzano in anagrafe scuole, ~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!!
§Di cui 18283 codici fiscali distinti.
#Di 14847 scuole distinte risultano 13.836 record ricostruiti distinti e 7.773 gestori distinti
MEMO: Occorre analizzare i residui, ad esempio i 142 CF dell’anagrafe delle scuole che non risultano avere riscontro in SIM vedi anche tabella dei 146
Considerando le 13.836 scuole distinte per le quali è stata ricostruita la chiave di linkage risulta che 6.070 gestori sono riferiti ad un solo istituto scolastico della rilevazione e
1.703 gestiscono più scuole facenti parte della rilevazione statistica. Di questi 571 gestori
hanno scuole associate di stessa tipologia mentre 1132 gestiscono scuole di diversa tipologia.
Foucs su scuole secondarie di secondo grado:
A seguito della ricostruzione risultano 1818 record relativi a Scuole secondarie di secondo grado facenti parti della rilevazione statistica relativi a 1685 istituti scolastici.
Risultano per questi istituti 864 gestori distinti. 251 gestori gestiscono un’unica scuola secondaria di secondo grado non statale facente parte della rilevazione statistica. Dei 613 gestori che gestiscono più scuole 300 ne gestiscono un solo tipo e 313 gestiscono diverse tipologie di istituti.
A seguito della ricostruzione della chiave di linkage tra l’anagrafe delle scuole Miur e la rilevazione statistica si opera un linkage con la banca dati SIM tramite il codice fiscale del gestore.
Si ottiene un risultano per 7643 gestori sui 7773 individuati nelle scuole oggetto della rilevazione
(pari al 98% di direct matching). Mancano quindi 130 gestori delle scuole oggetto della rilevazione che non risultano presenti in banca dati SIM. In dettaglio mancano 120 gestori a cui fa riferimento una sola scuola, 7 enti gestori che gestiscono scuole della stessa tipologia e 3 enti gestori che gestiscono scuole di diversa tipologia.
I COMUNI costituiscono il 75% dei gestori con addetti di fonte INPDAP e i gestori pubblici non statali raggiungono complessivamente l’85%
Il racconto per oggi termina qui, ma il percorso non è ovviamente completato, occorre impegno per ottenere
risultati della qualità richiesta dalla statistica ufficiale.
Nelle presentazioni sono delineate metodologie tecniche e strumenti adottati per raggiungere risultati
che ambiscono a diventare produzione di statistica ufficiale a regime:
Non solo dati percentuali, ma dati assoluti riferiti a intere specifiche popolazioni di individui
I colleghi del MIUR stanno mettendo a regime l’uso dei dati amministrativi nella produzione delle statistiche diffuse via web
Lasciamo spazio a considerazioni e domande e quindi alla Tavola Rotonda, dalla quale attendiamo stimoli per un ricerca originale e di utilità per la comunità
Sperando che l’esito del nostro restauro sia equilibrato, apprezzato e soprattutto non dia l’esito di quest’ultimo …