SlideShare a Scribd company logo
1 of 37
Le integrazioni delle fonti per
il sistema dell’istruzione e formazione:
I risultati conseguiti con le prime
sperimentazioni
DCSE/1 Progetto: Integrazione delle fonti campionarie e amministrative
per l'analisi del sistema formativo
Silvia Montagna
Enrico Manna
Lidia Brondi
Roma – 20 maggio 2014
1
Il percorso
La collaborazione inter-istituzionale tra MIUR e ISTAT
sancita da uno specifico protocollo di intesa tra le parti per allargare
l’acquisizione delle basi di dati anche alle fonti amministrative
L’analisi, a priori, del potenziale informativo delle fonti
amministrative e del livello di qualità
con approccio ispirato a principi base di certificazione di qualità totale
La certificazione, a posteriori, del potenziale valore aggiunto offerto
della integrazione delle fonti amministrative
con la produzione della QRCA per ciascun nuovo archivio
2
Il percorso
La costruzione e l’analisi degli archivi integrati
Al minimo livello di disaggregazione possibile e per le popolazioni
confrontabili
II feedback verso il produttore per concordare le iniziative di
miglioramento
per accrescere la conoscenza sui processi e la qualità dei prodotti rilasciati
La innovazione di processo e di prodotto: dalla sola rilevazione
statistica all’utilizzo congiunto delle fonti statistico-amministrative
con il supporto a decisioni politiche, gestionali, normative e organizzative
La formazione statistica «continua» anche degli addetti ai processi
amministrativi
per accrescere la consapevolezza sull’uso statistico e sui criteri di qualità
dei processi e prodotti statistici 3
Il percorso
Non privo di ostacoli dovuti a:
I diversi punti di vista dei vari attori
coinvolti nelle decisioni e nei processi di produzione
Rischio di incidenti istituzionali nazionali e internazionali
Scelta di strade talvolta senza una destinazione certa per la scarsa
visibilità sui processi produttivi a monte
Qualche miraggio da illusione ottica sulla vicinanza del risultato finale
Qualche dubbio sullo sforzo da erogare commisurato al risultato atteso
4
Prove muscolari…
per riuscire ad avere i dati e per la prima volta siamo
riusciti ad ottenere, ad esempio
• Anagrafe nazionale degli Studenti
• Rilevazione sul personale scuola privata
• Demo sul sistema di gestione dei Dottori di ricerca
Per condividere metodi e modi per la presentazione
dei risultati
Nel percorso non è mancato nulla…
5
prove muscolari,
qualche imbarazzo,
Intraprendere strade impercorribili
illusione di essere giunti velocemente alla fine
l dubbio di aver fatto un grande sforzo inutile
E poi … il sollievo ad obiettivo raggiunto!!
Nel percorso non è mancato nulla…
6
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Conclusioni: dalle sperimentazioni condotte emerge che le fasi del
processo di produzione statistica (tradizionale) si possono
avvantaggiare della integrazione di dati provenienti da più fonti, purché
siano rispettate determinate condizioni.
I casi di studio hanno affrontato come avvalersi della integrazione, ad
esempio nel processo di produzione «tradizionale» (SDI):
•prima della raccolta dei dati;
•durante le operazioni sul campo;
•durante le elaborazioni dei dati;
•ai fini della diffusione dei dati.
Mentre nel processo SDA la descrizione del fenomeno può cogliere
sfaccettature inattese (es.: assicurati INPDAP).
7
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Prospettive:
•Accompagnare l’archivio rilasciato
con una «certificazione»
•Agevolare l’accesso al SIM per evitare duplicazioni e disallineamenti
rispetto alle azioni di aggiornamento/miglioramento di dati
•Integrare i metadati secondo le varie loro declinazioni
8
Processo di integrazione delle fonti: primi risultati
L’analisi (a cura Sistan et al.) degli archivi amministrativi per l’uso statistico
ha messo a disposizione le istruttorie sugli archivi della scuola e degli studenti
universitari che il MIUR può al momento rilasciare.
La costituzione (a cura DCCR et al. ) delle basi informative amministrative
integrate è stata mirata al supporto:
-delle indagini e delle analisi delle transizioni formazione-lavoro
-della stima del personale per le istituzioni scolastiche con gestori privati
L’innovazione di processo per la produzione di statistica ufficiale si è
concretizzata nella produzione (a cura MIUR et al.) di statistiche sui laureati a
partire dalla ANS 2012 e di cruscotti a supporto delle decisore istituzionale.
La cooperazione applicativa tra sistemi statistici mirata (ad esempio)
all’orientamento dà valore aggiunto alla diffusione delle singole informazioni
amministrative o statistiche
9
Processo di integrazione delle fonti: primi risultati
Alcune delle criticità incontrate
10
• Chiave di abbinamento
• Matching tra domanda e offerta (es.: variabile richiesta e
variabile fornita)
• Uso di variabili proxy in assenza di altre variabili
Es.: L’indagine condotta dal Miur rileva il personale
distinguendolo tra personale docente e personale non
docente (il primo è l’aggregato richiesto da Eurostat).
Una variabile che descrive la Posizione nella professione
presente per una parte dei lavoratori della Base
informativa integrata può fornire delle informazioni di proxy
per distinguere il personale tra docente e non docente.
• Discontinuità temporale di talune basi informative
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Nei casi di studio trattati e riferiti alle tre popolazioni campionarie totali
(diplomati, laureati e dottori), è stata sperimentata l’integrazione:
•Per chiave univoca: Codice Fiscale dell’individuo (exact matching)
•Per variabili parziali di composizione della chiave univoca Codice Fiscale
(nome, cognome, anno di nascita, comune di nascita) (senza gg e mm di
nascita)
E nel caso riferito ai lavoratori del mondo scuola
•Mediante variabili indirette
Tra i motivi di mancato abbinamento:
•Chiave univoca totalmente mancante
•Chiave errata (errore di registrazione o di trasformazione)
•Variabili comuni rilevate in tempi distanti e sensibili a variazioni di stato
E CODIFICHE E CLASSIFICAZIONI DIVERSE 11
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Record linkage
Mediante Codice Fiscale:
•Costruite le liste di campionamento complete di variabili aggiuntive
(es.: dati anagrafici per il reperimento dell’individuo a fini di
comunicazioni ufficiali e per la conduzione della rilevazione)
•Completata la popolazione con unità mancanti
•Corretti dati errati (es.: Genere, età, territorio, etc…)
Ma soprattutto ….riprogettare la rilevazione statistica per
•Contenere il numero della fasi
•Utilizzare nel disegno del questionario le variabili disponibili dalle fonti
amministrative:
– Eliminazione di domande (riduzione del response burden)
– Precaricare valore di variabili da visualizzazione (senza richiesta di
conferma)
– Precaricare valore da sottoporre a controllo e aggiornamento
– Usare informazioni nelle fasi post rilevazione per controlli e correzioni 12
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
•E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale
maturata in ambito economico (ASIA)?
•Ripercorrere la storia dell’individuo sembra
semplice per la presenza del CF che accompagna
ogni evento (amministrativo) della nostra vita?
•La ricerca della ricostruzione si risolve nella
sola risposta dicotomica trovato/non trovato?
La costruzione dell’integrazione e l’interpretazione del risultato
sono talvolta più complessi e richiedono una conoscenza
approfondita degli eventi che determinano
le registrazioni amministrative
13
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
I casi trattati
•La complessità del linkage è, in generale, dell’ordine di grandezza del
prodotto cartesiano dei due insiemi;
•Se il risultato dell’abbinamento è di tipo n:m per migliorare
l’individuazione degli abbinamenti “corretti” si possono adottare altre
tecniche (es.: riduzione di distanza mediante l’uso di funzioni di
controllo)
•Poiché le scelte che si fanno ad ogni passo della procedura di linkage
possono introdurre errori di linkage (falsi abbinamenti o mancati
abbinamenti), la accuratezza della documentazione è fondamentale:
chi esegue il linkage deve fornire il maggior numero possibile di
informazioni sul linkage, così che l’analisi possa essere fatta a sua
volta di scelte consapevoli (le variabili usate per il linkage, l’esito
della eventuale revisione manuale, etc…)
14
SIM: realizzazioni e lavori in corso
A carico DCCR/ADA:
(…)
•Costruzione della chiave univoca di identificazione per la navigazione
all’interno del SIM
•Caricamento dei Metadati in apposite tabelle e ricodifica di (alcune)
variabili di classificazione a livello centralizzato.
•E’ in corso di implementazione la produzione della documentazione
dei contenuti del SIM e una specifica documentazione della qualità dei
dati e dei processi di integrazione (Quality Report Card dei dati
Amministrativi – QRCA)
(da presentazioni DCCR/ADA)
15
Processo di integrazione delle fonti: primi risultati
Sistema integrato
sull’istruzione e sulla
formazione
Strutture scolastiche
Fonti: MIUR – ASIA, etc.
Personale scolastico
Fonti: MIUR-AT-INPS-
INPDAP-etc..
Studenti scolastici
Fonti: MIUR – LAC-
etc..
Studenti Universitari
Fonti: MIUR, LAC, AT,
INPS, INPDAP, etc.
Personale universitario
Fonti: MIUR
Strutture
Universitarie
Fonti: MIUR, ASIA
Formazione
professionale
Fonti MIUR, LAC
16
E per DCSE…
SIM: realizzazioni e lavori in corso
esempio di trasmissione di metadati da SIM
17
ID Nome colonna Tipo Significato Note
1 CODICE_FISCALE "Testo" codice fiscale (cf)
2 CODICE_UNITA "Numero" codice unità (cu)
3 NSCUOLE "Numero" numero scuole numero scuole (calcolato sulle tipologie)
4 FLAG_STESSOTIPO_DIVERSOTIPO "Testo" flag stesso tipo o diverso tipo di scuola
Se '1' ha la medesima tipologia di scuola, se '2' ha tipologia differente, se '3' ha
almeno un caso di TIPOLOGIA='TUTTE' .
5 TUTTE "Numero" contatore tipologia TUTTE
Se Desc_Tipologia in (Centro Territoriale - Convitto Annesso - Convitto
Nazionale - Educandato - Istituto Comprensivo)
6 INFANZIA "Numero" contatore tipologia INFANZIA Se Desc_Tipologia in (SCUOLA INFANZIA - SCUOLA INFANZIA NON STATALE)
7 PRIMARIE "Numero" contatore tipologia PRIMARIE Se Desc_Tipologia in (SCUOLA PRIMARIA" , "SCUOLA PRIMARIA NON STATALE)
8 SECONDARIE_DI_PRIMO_GRADO "Numero"
contatore tipologia
SECONDARIE_DI_PRIMO_GRADO
Se Desc_Tipologia in (SCUOLA PRIMO GRADO" , "SCUOLA SEC. PRIMO GRADO
NON STATALE")
9 SECONDARIE_DI_SECONDO_GRADO "Numero"
contatore tipologia
SECONDARIE_DI_SECONDO_GRADO
Se Desc_Tipologia in (tutte le restanti tipologie)
10 ANNO "Numero" ANNO
11 DESC_ENTE_GESTORE "Testo" descrizione ente gestore
12 FLAG_STATALI "Testo" flag scuola statale e non
Se '1' è una scuola statale, se '0' allora è una scuola non statale, se ' ' ha
associate sia scuole non statali che statali
13 NumStatali "Numero" numero scuole statali associate
14 NumNoStatali "Numero" numero scuole non statali associate
15 FLAG_MIUR_NOPROFIT "Testo" flag presenza in Miur e NoProfit
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
16 NADDETTIUL "Numero" numero addetti per tutte le UL Variabile proveniente dalla fonte NoProfit
17 NVOLONTARIUL "Numero" numero volontari per tutte le UL Variabile proveniente dalla fonte NoProfit
18 FLAG_MIUR_ASIAUL "Testo" flag presenza in Miur e in AsiaUl
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
19 FLAG_MIUR_EMENS "Testo" flag presenza in Miur e in Emens
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
20 DIPEMENS "Numero" numero dipendenti da Emens
21 FLAG_MIUR_COLLINPS "Testo" flag presenza in Miur e in CollInps
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
22 DIPCOLLINPS "Numero" numero dipendenti da CollInps
23 FLAG_MIUR_INPDAP "Testo" flag presenza in Miur e in Inpdap
Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che
nell'altra fonte
24 DIPINPDAP "Numero" numero dipendenti da Inpdap
Tracciato record ScuoleMiur11 (chiave CODICE_FISCALE E CODICE_UNITA)
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Aspettative dal Record linkage
Integrazione trasversale:
•Arricchire la conoscenza di una popolazione con un maggiore numero
di variabili provenienti da più fonti e caratterizzate da uno stesso
riferimento temporale
Integrazione longitudinale:
•“seguire” nel tempo le storie professionali di differenti coorti di
popolazione, nel nostro caso:
– popolazioni di studenti,
– popolazioni di addetti al mondo istruzione
18
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Integrazione trasversale:
•La conoscenza iniziale sulle popolazioni campionarie per le interviste
da condurre nel 2014 si arricchisce, ad esempio, con quanto
disponibile dalle LAC e dall’archivio telefonia fissa:
Elaborazioni: E. Manna
Ricerca
riferimenti
telefonici          
Fonte Popolazione
numerosità
iniziale CF distinti
reperiti in LAC
arricchite % 
con CF
distinti
con almeno un
telefono    
valore aggiunto
rispetto al già
noto
                     
Atenei Dottori di ricerca 2008 e 2010            22.630        22.553                     20.469  100,0%       20.441                   8.412             276 casi 
  Italiani                       20.003  97,7%                   8.366       
  stranieri                            466  2,3%                        46       
                    
ANS cineca Laureati 2011          289.661      289.631                   283.579  100,0%     283.332               154.895       100% 
  Italiani      286.011                   279.508  98,6%               154.369  1,00   
  stranieri          3.620                       4.071  1,4%                      526  0,003   
                    
ANS Miur
Diplomati 2011 (campione50%
scuole)          192.506      192.241                   188.395  100,0%     188.295                 98.298       (in corso)
  italiani  -                     182.332  96,8%                 97.424  0,99   
  stranieri  -                         5.563  3,0%                      750  0,01   
19
Focus n.0: Laureati 2011
La popolazione del 2011 è stata oggetto di analisi di benchmark:
La nuova fonte amministrativa ANS 2011 è stata messa direttamente a
confronto con la fonte rilevazione statistica:
-È stato accelerato l’uso di ANS 2012
-È stato focalizzato il tema dell’offerta telematica
-È stato individuato il nuovo bacino informativo amministrativo
(OF.F Offerta Formativa, Dottorati e Dottori di ricerca, Docenti, etc…)
20
Focus n.0: Laureati 2011
21
Dai valori %
Ai valori assoluti
Focus n.1: Laureati 2007
La popolazione del 2007 è stata oggetto nel 2009 di una rilevazione
sull’esito professionale a tre anni dalla laurea.
L’analisi per l’integrazione è stata articolata principalmente in:
“Ricostruzione” del Codice Fiscale, non raccolto a suo tempo;
Ricerca negli archivi amministrativi della evidenza lavorativa del laureato;
•Confronto con il corrispondente dato di fonte rilevazione (in corso);
22
Focus n.2: Rilevazioni statistiche del 2014
Le popolazioni campionarie:
•Dottori di ricerca di vari anni (solari)
•Laureati dell’anno solare 2011
•Diplomati dell’anno scolastico 2011/12
Per le rilevazione sull’esito professionale a tre anni (o più)
dal conseguimento del titolo.
L’analisi è articolata principalmente in:
Completamento delle liste campionarie con le variabili non presenti in ANS
Ricerca negli archivi amministrativi della evidenza lavorativa dell’individuo
Confronto con il dato da rilevazione;
23
Focus n.3: Istituzioni private – (non statale)
Sono state condotte in parallelo due attività con l’obiettivo di colmare lacune
informative e per rispettare la deadline del regolamento europeo (EC) No
452/2008 (e.g. : Number of classroom teachers (by isced levels 0-4) by sex, age
group, employment status and type of institution (private))
•Analisi dei dati relativi all’a.s. 2011/2012 per il supporto alla produzione delle stime
per il personale (docente e non docente) delle istituzioni private
•Analisi preliminare all’utilizzo dei dati relativi all’a.s. 2012/2013 concentrata sulle
variabili utili per il «linkage amministrativo» e per l’eventuale confronto con il dato
statistico storico (da fonte rilevazione):
– “spoglio” dell’archivio anagrafico delle scuole private e
pubbliche_non_statali a.s. 2012/2013;
– arricchimento delle definizioni (anche ai fini di un glossario) attraverso la
ricostruzione del complesso quadro legislativo vigente per il sistema
scolastico.
24
Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private –
(non statali)
Anno scolastico 2011/2012
Ai fini del supporto richiesto dal MIUR per la produzione delle statistiche sul
personale docente e non docente delle scuole private per ordine scolastico, per
classe di età, genere e orario di lavoro a livello nazionale, (Regolamento (EC) No
452/2008)
•Le informazioni su ciascuna Scuola si ottengono tramite il relativo Ente gestore
(CF);
•È stato concettualizzato il contenuto di una apposita estrazione dal SIM e
costituzione della base informativa che tramite approccio LEED individua gli addetti
degli Enti gestori delle scuole;
•Mediante variabili proxy sono stati «selezionati» gli addetti che hanno evidenza di
appartenenza al mondo della scuola (con gradi di certezza crescenti);
25
Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private –
(non statali)
Anno scolastico 2011/2012 ( a cura DCSE-1)
Es.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale
docente e personale non docente (il primo è l’aggregato richiesto da Eurostat).
Nella base informativa estratta da SIM la variabile che descrive la Posizione nella
professione del lavoratore (valorizzata in diversi archivi che concorrono al
popolamento della base informativa integrata) può fornire delle informazioni di proxy
per distinguere il personale tra docente e non docente.
26
Focus n.3: Istituzioni scolastiche pubbliche e private – (non statali)
- segue
Controllo ed analisi dei dati - Anno scolastico 2012/2013
L’analisi condotta ha riguardato da un lato il controllo delle chiavi di linkage dei dati, dall’altro
l’elaborazione di alcune tabelle con la distribuzione delle Istituzioni scolastiche non statali
secondo le caratteristiche della scuola e dell’Ente Gestore.
A) INFORMAZIONI RELATIVE ALLA SCUOLA (O ISTITUZIONE SCOLASTICA)
 Codice e Denominazione della scuola;
 Indirizzo, Località, Comune e CAP;
 Regione, Provincia e Sigla della Provincia;
 Tipologia della scuola;
 Tipologia della scuola secondaria di II grado.
A) INFORMAZIONI RELATIVE ALL’ENTE GESTORE
 Codice Fiscale e Descrizione dell’Ente gestore;
 Indirizzo, Comune di residenza e CAP;
 Comune di nascita;
 Tipo di Ente;
 Nome e Cognome del Rappresentante legale.
I controlli di qualità sono stati finalizzati a verificare la completezza e la correttezza delle
informazioni contenute nel file e la coerenza delle classificazioni adottate con le corrispondenti
classificazioni utilizzate dall’Istat.
27
L’analisi della distribuzione degli Enti gestori secondo il numero di Istituzioni
scolastiche gestite conferma anche per a.s.2012/2013 che circa l’80% degli
Enti gestori (pari a 6.297 unità) gestisce una sola istituzione scolastica,
circa il 10% ne gestisce 2 e circa il 2% gestisce almeno 10 scuole.
Elaborazioni e analisi: L. Brondi
Focus 3: Istituzioni private – (non statale) (segue)
NUMERO DI ISTITUZIONI
SCOLASTICHE NON
STATALI
NUMERO ENTI GESTORI
Valori
assoluti
Valori in %
Frequenze
cumulate
%
1 6.297 79,27 6.297 79,27
2 789 9,93 7.086 89,20
3 296 3,73 7.382 92,93
4 155 1,95 7.537 94,88
5 88 1,11 7.625 95,98
6 67 0,84 7.692 96,83
7 52 0,65 7.744 97,48
8 27 0,34 7.771 97,82
9 17 0,21 7.788 98,04
10-15 86 1,08 7.874 99,12
16 e più 70 0,88 7.944 100,00
Totale 7.944 100,00
28
29
a.s. 2011/12
Fonte N.record Cod scuola e
CF gestore
Solo
Cod scuola
(unico)
Solo
CF
gestore
(unico)
Anagrafe delle scuole
Miur_anag_scuole
67.278
*
24905
§
42373 -
Rilevazione Integrativa
PersonaleNonStatali
15.350 - 15.350
di cui 15214
distinti
-
Estratto SIM
Contadipscuolemiur11_dic11
18.141 - - 18.141
distinti
Esito Record Linkage:
Chiave ricostruita% 91% 1% -
Chiave ricostruita 14.983 13969
#
1014
di cui
1011
distinti
-
*Di cui 14522 scuole non statali e 13.986 non statali paritarie.
N.B.: Manca Bolzano in anagrafe scuole,
~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!!
§Di cui 18.283 codici fiscali distinti.
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
30
Flag
Miur
Inpdap
ENTE GESTORE
Val.
assoluti
Valori in
%
Infanzia Primaria
Secondaria
di I grado
Secondaria
di II grado
REGIONE - - 15 0 0 2 -
PROVINCIA - - 0 0 0 3 -
COMUNE - - 100 7 2 14 -
ALTRO GESTORE PUBBLICO - - 228 2 1 15 -
ALTRO GESTORE PRIVATO - - 2.739 247 110 986 -
ENTE O PERSONA PRIVATA - - 296 35 11 87 -
GESTORE PRIVATO RELIGIOSO - - 2.629 197 166 274 -
SUBTOTALE - - 6.007 488 290 1.381 -
REGIONE 9.914 4,45 169 28 0 0 49
PROVINCIA 21.555 9,67 1 0 0 14 1
COMUNE 158.393 71,05 1.449 6 1 2 2
ALTRO GESTORE PUBBLICO 1.203 0,54 141 12 2 0 2
ALTRO GESTORE PRIVATO 28.015 12,57 744 211 58 66 1
ENTE O PERSONA PRIVATA 80 0,04 12 7 4 2 0
GESTORE PRIVATO RELIGIOSO 3.780 1,70 1.574 836 340 313 4
SUBTOTALE 222.940 100,00 4.090 1.100 405 397 59
222.940 100,00 10.097 1.588 695 1.778 59
Elaborazioni a cura: L.Brondi
11
TOTALE
Distribuzione della presenza di addetti Inpdap e delle istituzioni scolastiche per Ente gestore (a.s. 2011/2012)
TIPO ENTE GESTORE E PRESENZE
ADDETTI INPDAP
Numero
dipendenti
Inpdap
Tipologia Istituzioni scolastiche
Altre
tipologie
10
31
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
The FREQ Procedure
Analisi della differenza tra dato fonte sim e fonte rilevazione miur
Cumulative Cumulative
class_diff Frequency Percent Frequency Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
-999 3 0.05 3 0.05
-99 6 0.10 9 0.15
-49 1040 17.48 1049 17.63
-9 1258 21.14 2307 38.77
-1 239 4.02 2546 42.79
0 165 2.77 2711 45.56
1 105 1.76 2816 47.33
9 435 7.31 3251 54.64
49 1103 18.54 4354 73.18
99 608 10.22 4962 83.39
999 988 16.61 5950 100.0
The MEANS Procedure
Analysis Variable : diff_dip_sim_ril
N Mean Maximum Minimum Range Std Dev
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
5950 34.8963025 324.0000000 -132.0000000 456.0000000 62.8744276
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
condotta sulle sole osservazioni con ente gestore con unica scuola
Processo di integrazione delle fonti: primi risultati
Il percorso non è completato …
Control and editing/cleanig of the data is a never ending activity
In ciascuna fonte ci si deve attendere che la qualità sia maggiore per le
informazioni più strettamente necessarie per la finalità istituzionale che
ha originato quella fonte presso l’ente produttore (soggetto titolare)
La qualità dell’informazione amministrativa e dell’informazione statistica
è un concetto multidimensionale
Quale qualità?
•Qualità attesa, qualità misurabile, qualità migliorabile
•Valore aggiunto delle integrazioni
Es.: uso forme contrattuali
Incrocio con variabili demosociali della famiglia
•Gestione degli scarti e dei residui dagli abbinamenti
32
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
L’introduzione di innovazioni di processo e di prodotto comporta la
assunzione di alcuni nuovi rischi.
Aiuta a contenerli:
• La scelta di metodologie di trattamento adatte alla nuova natura mista
dei dati
• La gestione dei dati, condivisa tra i vari produttori e utilizzatori,
orientata alla qualità (secondo i principi declinati per la statistica ufficiale
e per gli archivi amministrativi utili a fini statistici).
• Etc…
33
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
La fonte amministrativa, per la sua natura, potrebbe avere un
ciclo di vita (inserimento, aggiornamento e cancellazione delle
informazioni) molto diverso da quello di una base dati
statistica.
La trasformazione dell’input nel processo di produzione
statistico: il passaggio da SDI a SDA
Investire sulla innovazione dei prodotti per contenere la
proliferazione di «manufatti».
34
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Alcuni dei problemi incontrati
Protezione della identificazione dell’individuo:
•Sostituzione della chiave identificativa con chiave anonima
•Verifica dell’efficacia dell’intervento di anonimizzazione
Problema della corretta interpretazione:
•Carenza di memoria storica della registrazione amministrativa
•Utilizzo nel disegno del questionario delle variabili disponibili presso le
varie fonti
Problema del riferimento temporale e dell’esito dell’abbinamento
Problema della veridicità dei big data
… 35
e per migliorare il nostro restauro…
Continuare ad investire:
•sul miglioramento del protocollo di comunicazione tra
soggetti Sistan per agevolare la fornitura dei dati
Es.: normalizzare la struttura dei data base
•sulla maggiore condivisione del sistema di
classificazione e codifica dei dati
Es.: Ovviare alla criticità legata alle “variazioni amministrative” aggiornate
periodicamente dall’Istat
•sulla maggiore linkabilità diretta dei dati
Es.: Ovviare alla criticità della mancanza o correttezza delle di chiavi di linkage
36
Grazie dell’attenzione
37

More Related Content

Similar to S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni

I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - ASergio Agostinelli
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2SMAU
 
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...Istituto nazionale di statistica
 
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...Istituto nazionale di statistica
 
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...Istituto nazionale di statistica
 
La gestione dematerializzata della Commissione comunale di controllo della ri...
La gestione dematerializzata della Commissione comunale di controllo della ri...La gestione dematerializzata della Commissione comunale di controllo della ri...
La gestione dematerializzata della Commissione comunale di controllo della ri...Marco Trentini
 
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...PAT
 
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati Istituto nazionale di statistica
 
G. Barcaroli - Il modello di Business Architecture dell’Istat
 G. Barcaroli - Il modello di Business Architecture dell’Istat G. Barcaroli - Il modello di Business Architecture dell’Istat
G. Barcaroli - Il modello di Business Architecture dell’IstatIstituto nazionale di statistica
 
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...Istituto nazionale di statistica
 
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...A Scuola di OpenCoesione
 
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum  - Jekpot - 25 november 2005 - SienaIntervento 10' KM Forum  - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum - Jekpot - 25 november 2005 - SienaEpistema
 
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...Istituto nazionale di statistica
 
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...A. Mazari - Business Architecture e standardizzazione dei processi: la proced...
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...Istituto nazionale di statistica
 
Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0big-gim
 
La filiera integrata dei dati pubblici. Od2016 cagliari - B
La filiera integrata dei dati pubblici. Od2016 cagliari - BLa filiera integrata dei dati pubblici. Od2016 cagliari - B
La filiera integrata dei dati pubblici. Od2016 cagliari - BSergio Agostinelli
 
OpenQAsS Newsletter nr. 3 (Italiano)
OpenQAsS Newsletter nr. 3 (Italiano) OpenQAsS Newsletter nr. 3 (Italiano)
OpenQAsS Newsletter nr. 3 (Italiano) OpenQAsS
 

Similar to S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni (20)

I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
 
Dati della scuola
Dati della scuolaDati della scuola
Dati della scuola
 
Ws2011 sessione9 pace_pellegrini
Ws2011 sessione9 pace_pellegriniWs2011 sessione9 pace_pellegrini
Ws2011 sessione9 pace_pellegrini
 
Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2Smau Bologna 2018 - INAIL pt.2
Smau Bologna 2018 - INAIL pt.2
 
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...
P.D. Falorsi, N. Mignolli, Modernizzazione all'Istat: fondamenti, modalità di...
 
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...
M.F.Loporcaro, Tavolo per l'armonizzazione dei metadati standard di Istituto:...
 
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...
M. C. Romano- La transizione a indagini Computer Assisted: il ridisegno delle...
 
La gestione dematerializzata della Commissione comunale di controllo della ri...
La gestione dematerializzata della Commissione comunale di controllo della ri...La gestione dematerializzata della Commissione comunale di controllo della ri...
La gestione dematerializzata della Commissione comunale di controllo della ri...
 
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...
Esperienza apertura primi dati OGD della PAT (Segreteria SIAT) Laboratorio Op...
 
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati
S. De Santis - Un approccio mixed-mode sequenziale all’acquisizione dati
 
G. Barcaroli - Il modello di Business Architecture dell’Istat
 G. Barcaroli - Il modello di Business Architecture dell’Istat G. Barcaroli - Il modello di Business Architecture dell’Istat
G. Barcaroli - Il modello di Business Architecture dell’Istat
 
La gestione della performance nei comuni, organizzazione e sistemi di supporto
La gestione della performance nei comuni, organizzazione e sistemi di supportoLa gestione della performance nei comuni, organizzazione e sistemi di supporto
La gestione della performance nei comuni, organizzazione e sistemi di supporto
 
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...
A. Pallara, N. Cibella, F. Tiero - La Rete per l'innovazione metodologica nel...
 
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
ASOC2122 Webinar Lezione 1 - Conoscere e preparare un'indagine di statistica ...
 
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum  - Jekpot - 25 november 2005 - SienaIntervento 10' KM Forum  - Jekpot - 25 november 2005 - Siena
Intervento 10' KM Forum - Jekpot - 25 november 2005 - Siena
 
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...
C. Baldi, F. Rapiti - Riprogettazione di una rilevazione multi-source su impr...
 
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...A. Mazari - Business Architecture e standardizzazione dei processi: la proced...
A. Mazari - Business Architecture e standardizzazione dei processi: la proced...
 
Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0Scheda profilo wsp g3- gim-v1.0
Scheda profilo wsp g3- gim-v1.0
 
La filiera integrata dei dati pubblici. Od2016 cagliari - B
La filiera integrata dei dati pubblici. Od2016 cagliari - BLa filiera integrata dei dati pubblici. Od2016 cagliari - B
La filiera integrata dei dati pubblici. Od2016 cagliari - B
 
OpenQAsS Newsletter nr. 3 (Italiano)
OpenQAsS Newsletter nr. 3 (Italiano) OpenQAsS Newsletter nr. 3 (Italiano)
OpenQAsS Newsletter nr. 3 (Italiano)
 

More from Istituto nazionale di statistica

More from Istituto nazionale di statistica (20)

Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
14a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica1414a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica14
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 

Recently uploaded

XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 

Recently uploaded (6)

XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 

S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e formazione: i risultati conseguiti con le prime sperimentazioni

  • 1. Le integrazioni delle fonti per il sistema dell’istruzione e formazione: I risultati conseguiti con le prime sperimentazioni DCSE/1 Progetto: Integrazione delle fonti campionarie e amministrative per l'analisi del sistema formativo Silvia Montagna Enrico Manna Lidia Brondi Roma – 20 maggio 2014 1
  • 2. Il percorso La collaborazione inter-istituzionale tra MIUR e ISTAT sancita da uno specifico protocollo di intesa tra le parti per allargare l’acquisizione delle basi di dati anche alle fonti amministrative L’analisi, a priori, del potenziale informativo delle fonti amministrative e del livello di qualità con approccio ispirato a principi base di certificazione di qualità totale La certificazione, a posteriori, del potenziale valore aggiunto offerto della integrazione delle fonti amministrative con la produzione della QRCA per ciascun nuovo archivio 2
  • 3. Il percorso La costruzione e l’analisi degli archivi integrati Al minimo livello di disaggregazione possibile e per le popolazioni confrontabili II feedback verso il produttore per concordare le iniziative di miglioramento per accrescere la conoscenza sui processi e la qualità dei prodotti rilasciati La innovazione di processo e di prodotto: dalla sola rilevazione statistica all’utilizzo congiunto delle fonti statistico-amministrative con il supporto a decisioni politiche, gestionali, normative e organizzative La formazione statistica «continua» anche degli addetti ai processi amministrativi per accrescere la consapevolezza sull’uso statistico e sui criteri di qualità dei processi e prodotti statistici 3
  • 4. Il percorso Non privo di ostacoli dovuti a: I diversi punti di vista dei vari attori coinvolti nelle decisioni e nei processi di produzione Rischio di incidenti istituzionali nazionali e internazionali Scelta di strade talvolta senza una destinazione certa per la scarsa visibilità sui processi produttivi a monte Qualche miraggio da illusione ottica sulla vicinanza del risultato finale Qualche dubbio sullo sforzo da erogare commisurato al risultato atteso 4
  • 5. Prove muscolari… per riuscire ad avere i dati e per la prima volta siamo riusciti ad ottenere, ad esempio • Anagrafe nazionale degli Studenti • Rilevazione sul personale scuola privata • Demo sul sistema di gestione dei Dottori di ricerca Per condividere metodi e modi per la presentazione dei risultati Nel percorso non è mancato nulla… 5
  • 6. prove muscolari, qualche imbarazzo, Intraprendere strade impercorribili illusione di essere giunti velocemente alla fine l dubbio di aver fatto un grande sforzo inutile E poi … il sollievo ad obiettivo raggiunto!! Nel percorso non è mancato nulla… 6
  • 7. Processo di integrazione delle fonti: primi risultati Integrazione in statistica Conclusioni: dalle sperimentazioni condotte emerge che le fasi del processo di produzione statistica (tradizionale) si possono avvantaggiare della integrazione di dati provenienti da più fonti, purché siano rispettate determinate condizioni. I casi di studio hanno affrontato come avvalersi della integrazione, ad esempio nel processo di produzione «tradizionale» (SDI): •prima della raccolta dei dati; •durante le operazioni sul campo; •durante le elaborazioni dei dati; •ai fini della diffusione dei dati. Mentre nel processo SDA la descrizione del fenomeno può cogliere sfaccettature inattese (es.: assicurati INPDAP). 7
  • 8. Processo di integrazione delle fonti: primi risultati Integrazione in statistica Prospettive: •Accompagnare l’archivio rilasciato con una «certificazione» •Agevolare l’accesso al SIM per evitare duplicazioni e disallineamenti rispetto alle azioni di aggiornamento/miglioramento di dati •Integrare i metadati secondo le varie loro declinazioni 8
  • 9. Processo di integrazione delle fonti: primi risultati L’analisi (a cura Sistan et al.) degli archivi amministrativi per l’uso statistico ha messo a disposizione le istruttorie sugli archivi della scuola e degli studenti universitari che il MIUR può al momento rilasciare. La costituzione (a cura DCCR et al. ) delle basi informative amministrative integrate è stata mirata al supporto: -delle indagini e delle analisi delle transizioni formazione-lavoro -della stima del personale per le istituzioni scolastiche con gestori privati L’innovazione di processo per la produzione di statistica ufficiale si è concretizzata nella produzione (a cura MIUR et al.) di statistiche sui laureati a partire dalla ANS 2012 e di cruscotti a supporto delle decisore istituzionale. La cooperazione applicativa tra sistemi statistici mirata (ad esempio) all’orientamento dà valore aggiunto alla diffusione delle singole informazioni amministrative o statistiche 9
  • 10. Processo di integrazione delle fonti: primi risultati Alcune delle criticità incontrate 10 • Chiave di abbinamento • Matching tra domanda e offerta (es.: variabile richiesta e variabile fornita) • Uso di variabili proxy in assenza di altre variabili Es.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale docente e personale non docente (il primo è l’aggregato richiesto da Eurostat). Una variabile che descrive la Posizione nella professione presente per una parte dei lavoratori della Base informativa integrata può fornire delle informazioni di proxy per distinguere il personale tra docente e non docente. • Discontinuità temporale di talune basi informative
  • 11. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) Nei casi di studio trattati e riferiti alle tre popolazioni campionarie totali (diplomati, laureati e dottori), è stata sperimentata l’integrazione: •Per chiave univoca: Codice Fiscale dell’individuo (exact matching) •Per variabili parziali di composizione della chiave univoca Codice Fiscale (nome, cognome, anno di nascita, comune di nascita) (senza gg e mm di nascita) E nel caso riferito ai lavoratori del mondo scuola •Mediante variabili indirette Tra i motivi di mancato abbinamento: •Chiave univoca totalmente mancante •Chiave errata (errore di registrazione o di trasformazione) •Variabili comuni rilevate in tempi distanti e sensibili a variazioni di stato E CODIFICHE E CLASSIFICAZIONI DIVERSE 11
  • 12. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) Record linkage Mediante Codice Fiscale: •Costruite le liste di campionamento complete di variabili aggiuntive (es.: dati anagrafici per il reperimento dell’individuo a fini di comunicazioni ufficiali e per la conduzione della rilevazione) •Completata la popolazione con unità mancanti •Corretti dati errati (es.: Genere, età, territorio, etc…) Ma soprattutto ….riprogettare la rilevazione statistica per •Contenere il numero della fasi •Utilizzare nel disegno del questionario le variabili disponibili dalle fonti amministrative: – Eliminazione di domande (riduzione del response burden) – Precaricare valore di variabili da visualizzazione (senza richiesta di conferma) – Precaricare valore da sottoporre a controllo e aggiornamento – Usare informazioni nelle fasi post rilevazione per controlli e correzioni 12
  • 13. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) •E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale maturata in ambito economico (ASIA)? •Ripercorrere la storia dell’individuo sembra semplice per la presenza del CF che accompagna ogni evento (amministrativo) della nostra vita? •La ricerca della ricostruzione si risolve nella sola risposta dicotomica trovato/non trovato? La costruzione dell’integrazione e l’interpretazione del risultato sono talvolta più complessi e richiedono una conoscenza approfondita degli eventi che determinano le registrazioni amministrative 13
  • 14. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) I casi trattati •La complessità del linkage è, in generale, dell’ordine di grandezza del prodotto cartesiano dei due insiemi; •Se il risultato dell’abbinamento è di tipo n:m per migliorare l’individuazione degli abbinamenti “corretti” si possono adottare altre tecniche (es.: riduzione di distanza mediante l’uso di funzioni di controllo) •Poiché le scelte che si fanno ad ogni passo della procedura di linkage possono introdurre errori di linkage (falsi abbinamenti o mancati abbinamenti), la accuratezza della documentazione è fondamentale: chi esegue il linkage deve fornire il maggior numero possibile di informazioni sul linkage, così che l’analisi possa essere fatta a sua volta di scelte consapevoli (le variabili usate per il linkage, l’esito della eventuale revisione manuale, etc…) 14
  • 15. SIM: realizzazioni e lavori in corso A carico DCCR/ADA: (…) •Costruzione della chiave univoca di identificazione per la navigazione all’interno del SIM •Caricamento dei Metadati in apposite tabelle e ricodifica di (alcune) variabili di classificazione a livello centralizzato. •E’ in corso di implementazione la produzione della documentazione dei contenuti del SIM e una specifica documentazione della qualità dei dati e dei processi di integrazione (Quality Report Card dei dati Amministrativi – QRCA) (da presentazioni DCCR/ADA) 15
  • 16. Processo di integrazione delle fonti: primi risultati Sistema integrato sull’istruzione e sulla formazione Strutture scolastiche Fonti: MIUR – ASIA, etc. Personale scolastico Fonti: MIUR-AT-INPS- INPDAP-etc.. Studenti scolastici Fonti: MIUR – LAC- etc.. Studenti Universitari Fonti: MIUR, LAC, AT, INPS, INPDAP, etc. Personale universitario Fonti: MIUR Strutture Universitarie Fonti: MIUR, ASIA Formazione professionale Fonti MIUR, LAC 16 E per DCSE…
  • 17. SIM: realizzazioni e lavori in corso esempio di trasmissione di metadati da SIM 17 ID Nome colonna Tipo Significato Note 1 CODICE_FISCALE "Testo" codice fiscale (cf) 2 CODICE_UNITA "Numero" codice unità (cu) 3 NSCUOLE "Numero" numero scuole numero scuole (calcolato sulle tipologie) 4 FLAG_STESSOTIPO_DIVERSOTIPO "Testo" flag stesso tipo o diverso tipo di scuola Se '1' ha la medesima tipologia di scuola, se '2' ha tipologia differente, se '3' ha almeno un caso di TIPOLOGIA='TUTTE' . 5 TUTTE "Numero" contatore tipologia TUTTE Se Desc_Tipologia in (Centro Territoriale - Convitto Annesso - Convitto Nazionale - Educandato - Istituto Comprensivo) 6 INFANZIA "Numero" contatore tipologia INFANZIA Se Desc_Tipologia in (SCUOLA INFANZIA - SCUOLA INFANZIA NON STATALE) 7 PRIMARIE "Numero" contatore tipologia PRIMARIE Se Desc_Tipologia in (SCUOLA PRIMARIA" , "SCUOLA PRIMARIA NON STATALE) 8 SECONDARIE_DI_PRIMO_GRADO "Numero" contatore tipologia SECONDARIE_DI_PRIMO_GRADO Se Desc_Tipologia in (SCUOLA PRIMO GRADO" , "SCUOLA SEC. PRIMO GRADO NON STATALE") 9 SECONDARIE_DI_SECONDO_GRADO "Numero" contatore tipologia SECONDARIE_DI_SECONDO_GRADO Se Desc_Tipologia in (tutte le restanti tipologie) 10 ANNO "Numero" ANNO 11 DESC_ENTE_GESTORE "Testo" descrizione ente gestore 12 FLAG_STATALI "Testo" flag scuola statale e non Se '1' è una scuola statale, se '0' allora è una scuola non statale, se ' ' ha associate sia scuole non statali che statali 13 NumStatali "Numero" numero scuole statali associate 14 NumNoStatali "Numero" numero scuole non statali associate 15 FLAG_MIUR_NOPROFIT "Testo" flag presenza in Miur e NoProfit Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte 16 NADDETTIUL "Numero" numero addetti per tutte le UL Variabile proveniente dalla fonte NoProfit 17 NVOLONTARIUL "Numero" numero volontari per tutte le UL Variabile proveniente dalla fonte NoProfit 18 FLAG_MIUR_ASIAUL "Testo" flag presenza in Miur e in AsiaUl Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte 19 FLAG_MIUR_EMENS "Testo" flag presenza in Miur e in Emens Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte 20 DIPEMENS "Numero" numero dipendenti da Emens 21 FLAG_MIUR_COLLINPS "Testo" flag presenza in Miur e in CollInps Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte 22 DIPCOLLINPS "Numero" numero dipendenti da CollInps 23 FLAG_MIUR_INPDAP "Testo" flag presenza in Miur e in Inpdap Se '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte 24 DIPINPDAP "Numero" numero dipendenti da Inpdap Tracciato record ScuoleMiur11 (chiave CODICE_FISCALE E CODICE_UNITA)
  • 18. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) Aspettative dal Record linkage Integrazione trasversale: •Arricchire la conoscenza di una popolazione con un maggiore numero di variabili provenienti da più fonti e caratterizzate da uno stesso riferimento temporale Integrazione longitudinale: •“seguire” nel tempo le storie professionali di differenti coorti di popolazione, nel nostro caso: – popolazioni di studenti, – popolazioni di addetti al mondo istruzione 18
  • 19. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) Integrazione trasversale: •La conoscenza iniziale sulle popolazioni campionarie per le interviste da condurre nel 2014 si arricchisce, ad esempio, con quanto disponibile dalle LAC e dall’archivio telefonia fissa: Elaborazioni: E. Manna Ricerca riferimenti telefonici           Fonte Popolazione numerosità iniziale CF distinti reperiti in LAC arricchite %  con CF distinti con almeno un telefono     valore aggiunto rispetto al già noto                       Atenei Dottori di ricerca 2008 e 2010            22.630        22.553                     20.469  100,0%       20.441                   8.412             276 casi    Italiani                       20.003  97,7%                   8.366          stranieri                            466  2,3%                        46                             ANS cineca Laureati 2011          289.661      289.631                   283.579  100,0%     283.332               154.895       100%    Italiani      286.011                   279.508  98,6%               154.369  1,00      stranieri          3.620                       4.071  1,4%                      526  0,003                         ANS Miur Diplomati 2011 (campione50% scuole)          192.506      192.241                   188.395  100,0%     188.295                 98.298       (in corso)   italiani  -                     182.332  96,8%                 97.424  0,99      stranieri  -                         5.563  3,0%                      750  0,01    19
  • 20. Focus n.0: Laureati 2011 La popolazione del 2011 è stata oggetto di analisi di benchmark: La nuova fonte amministrativa ANS 2011 è stata messa direttamente a confronto con la fonte rilevazione statistica: -È stato accelerato l’uso di ANS 2012 -È stato focalizzato il tema dell’offerta telematica -È stato individuato il nuovo bacino informativo amministrativo (OF.F Offerta Formativa, Dottorati e Dottori di ricerca, Docenti, etc…) 20
  • 21. Focus n.0: Laureati 2011 21 Dai valori % Ai valori assoluti
  • 22. Focus n.1: Laureati 2007 La popolazione del 2007 è stata oggetto nel 2009 di una rilevazione sull’esito professionale a tre anni dalla laurea. L’analisi per l’integrazione è stata articolata principalmente in: “Ricostruzione” del Codice Fiscale, non raccolto a suo tempo; Ricerca negli archivi amministrativi della evidenza lavorativa del laureato; •Confronto con il corrispondente dato di fonte rilevazione (in corso); 22
  • 23. Focus n.2: Rilevazioni statistiche del 2014 Le popolazioni campionarie: •Dottori di ricerca di vari anni (solari) •Laureati dell’anno solare 2011 •Diplomati dell’anno scolastico 2011/12 Per le rilevazione sull’esito professionale a tre anni (o più) dal conseguimento del titolo. L’analisi è articolata principalmente in: Completamento delle liste campionarie con le variabili non presenti in ANS Ricerca negli archivi amministrativi della evidenza lavorativa dell’individuo Confronto con il dato da rilevazione; 23
  • 24. Focus n.3: Istituzioni private – (non statale) Sono state condotte in parallelo due attività con l’obiettivo di colmare lacune informative e per rispettare la deadline del regolamento europeo (EC) No 452/2008 (e.g. : Number of classroom teachers (by isced levels 0-4) by sex, age group, employment status and type of institution (private)) •Analisi dei dati relativi all’a.s. 2011/2012 per il supporto alla produzione delle stime per il personale (docente e non docente) delle istituzioni private •Analisi preliminare all’utilizzo dei dati relativi all’a.s. 2012/2013 concentrata sulle variabili utili per il «linkage amministrativo» e per l’eventuale confronto con il dato statistico storico (da fonte rilevazione): – “spoglio” dell’archivio anagrafico delle scuole private e pubbliche_non_statali a.s. 2012/2013; – arricchimento delle definizioni (anche ai fini di un glossario) attraverso la ricostruzione del complesso quadro legislativo vigente per il sistema scolastico. 24
  • 25. Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private – (non statali) Anno scolastico 2011/2012 Ai fini del supporto richiesto dal MIUR per la produzione delle statistiche sul personale docente e non docente delle scuole private per ordine scolastico, per classe di età, genere e orario di lavoro a livello nazionale, (Regolamento (EC) No 452/2008) •Le informazioni su ciascuna Scuola si ottengono tramite il relativo Ente gestore (CF); •È stato concettualizzato il contenuto di una apposita estrazione dal SIM e costituzione della base informativa che tramite approccio LEED individua gli addetti degli Enti gestori delle scuole; •Mediante variabili proxy sono stati «selezionati» gli addetti che hanno evidenza di appartenenza al mondo della scuola (con gradi di certezza crescenti); 25
  • 26. Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private – (non statali) Anno scolastico 2011/2012 ( a cura DCSE-1) Es.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale docente e personale non docente (il primo è l’aggregato richiesto da Eurostat). Nella base informativa estratta da SIM la variabile che descrive la Posizione nella professione del lavoratore (valorizzata in diversi archivi che concorrono al popolamento della base informativa integrata) può fornire delle informazioni di proxy per distinguere il personale tra docente e non docente. 26
  • 27. Focus n.3: Istituzioni scolastiche pubbliche e private – (non statali) - segue Controllo ed analisi dei dati - Anno scolastico 2012/2013 L’analisi condotta ha riguardato da un lato il controllo delle chiavi di linkage dei dati, dall’altro l’elaborazione di alcune tabelle con la distribuzione delle Istituzioni scolastiche non statali secondo le caratteristiche della scuola e dell’Ente Gestore. A) INFORMAZIONI RELATIVE ALLA SCUOLA (O ISTITUZIONE SCOLASTICA)  Codice e Denominazione della scuola;  Indirizzo, Località, Comune e CAP;  Regione, Provincia e Sigla della Provincia;  Tipologia della scuola;  Tipologia della scuola secondaria di II grado. A) INFORMAZIONI RELATIVE ALL’ENTE GESTORE  Codice Fiscale e Descrizione dell’Ente gestore;  Indirizzo, Comune di residenza e CAP;  Comune di nascita;  Tipo di Ente;  Nome e Cognome del Rappresentante legale. I controlli di qualità sono stati finalizzati a verificare la completezza e la correttezza delle informazioni contenute nel file e la coerenza delle classificazioni adottate con le corrispondenti classificazioni utilizzate dall’Istat. 27
  • 28. L’analisi della distribuzione degli Enti gestori secondo il numero di Istituzioni scolastiche gestite conferma anche per a.s.2012/2013 che circa l’80% degli Enti gestori (pari a 6.297 unità) gestisce una sola istituzione scolastica, circa il 10% ne gestisce 2 e circa il 2% gestisce almeno 10 scuole. Elaborazioni e analisi: L. Brondi Focus 3: Istituzioni private – (non statale) (segue) NUMERO DI ISTITUZIONI SCOLASTICHE NON STATALI NUMERO ENTI GESTORI Valori assoluti Valori in % Frequenze cumulate % 1 6.297 79,27 6.297 79,27 2 789 9,93 7.086 89,20 3 296 3,73 7.382 92,93 4 155 1,95 7.537 94,88 5 88 1,11 7.625 95,98 6 67 0,84 7.692 96,83 7 52 0,65 7.744 97,48 8 27 0,34 7.771 97,82 9 17 0,21 7.788 98,04 10-15 86 1,08 7.874 99,12 16 e più 70 0,88 7.944 100,00 Totale 7.944 100,00 28
  • 29. 29 a.s. 2011/12 Fonte N.record Cod scuola e CF gestore Solo Cod scuola (unico) Solo CF gestore (unico) Anagrafe delle scuole Miur_anag_scuole 67.278 * 24905 § 42373 - Rilevazione Integrativa PersonaleNonStatali 15.350 - 15.350 di cui 15214 distinti - Estratto SIM Contadipscuolemiur11_dic11 18.141 - - 18.141 distinti Esito Record Linkage: Chiave ricostruita% 91% 1% - Chiave ricostruita 14.983 13969 # 1014 di cui 1011 distinti - *Di cui 14522 scuole non statali e 13.986 non statali paritarie. N.B.: Manca Bolzano in anagrafe scuole, ~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!! §Di cui 18.283 codici fiscali distinti. Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
  • 30. 30 Flag Miur Inpdap ENTE GESTORE Val. assoluti Valori in % Infanzia Primaria Secondaria di I grado Secondaria di II grado REGIONE - - 15 0 0 2 - PROVINCIA - - 0 0 0 3 - COMUNE - - 100 7 2 14 - ALTRO GESTORE PUBBLICO - - 228 2 1 15 - ALTRO GESTORE PRIVATO - - 2.739 247 110 986 - ENTE O PERSONA PRIVATA - - 296 35 11 87 - GESTORE PRIVATO RELIGIOSO - - 2.629 197 166 274 - SUBTOTALE - - 6.007 488 290 1.381 - REGIONE 9.914 4,45 169 28 0 0 49 PROVINCIA 21.555 9,67 1 0 0 14 1 COMUNE 158.393 71,05 1.449 6 1 2 2 ALTRO GESTORE PUBBLICO 1.203 0,54 141 12 2 0 2 ALTRO GESTORE PRIVATO 28.015 12,57 744 211 58 66 1 ENTE O PERSONA PRIVATA 80 0,04 12 7 4 2 0 GESTORE PRIVATO RELIGIOSO 3.780 1,70 1.574 836 340 313 4 SUBTOTALE 222.940 100,00 4.090 1.100 405 397 59 222.940 100,00 10.097 1.588 695 1.778 59 Elaborazioni a cura: L.Brondi 11 TOTALE Distribuzione della presenza di addetti Inpdap e delle istituzioni scolastiche per Ente gestore (a.s. 2011/2012) TIPO ENTE GESTORE E PRESENZE ADDETTI INPDAP Numero dipendenti Inpdap Tipologia Istituzioni scolastiche Altre tipologie 10
  • 31. 31 Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti The FREQ Procedure Analisi della differenza tra dato fonte sim e fonte rilevazione miur Cumulative Cumulative class_diff Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ -999 3 0.05 3 0.05 -99 6 0.10 9 0.15 -49 1040 17.48 1049 17.63 -9 1258 21.14 2307 38.77 -1 239 4.02 2546 42.79 0 165 2.77 2711 45.56 1 105 1.76 2816 47.33 9 435 7.31 3251 54.64 49 1103 18.54 4354 73.18 99 608 10.22 4962 83.39 999 988 16.61 5950 100.0 The MEANS Procedure Analysis Variable : diff_dip_sim_ril N Mean Maximum Minimum Range Std Dev ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 5950 34.8963025 324.0000000 -132.0000000 456.0000000 62.8744276 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ condotta sulle sole osservazioni con ente gestore con unica scuola
  • 32. Processo di integrazione delle fonti: primi risultati Il percorso non è completato … Control and editing/cleanig of the data is a never ending activity In ciascuna fonte ci si deve attendere che la qualità sia maggiore per le informazioni più strettamente necessarie per la finalità istituzionale che ha originato quella fonte presso l’ente produttore (soggetto titolare) La qualità dell’informazione amministrativa e dell’informazione statistica è un concetto multidimensionale Quale qualità? •Qualità attesa, qualità misurabile, qualità migliorabile •Valore aggiunto delle integrazioni Es.: uso forme contrattuali Incrocio con variabili demosociali della famiglia •Gestione degli scarti e dei residui dagli abbinamenti 32
  • 33. Processo di integrazione delle fonti: primi risultati Integrazione in statistica L’introduzione di innovazioni di processo e di prodotto comporta la assunzione di alcuni nuovi rischi. Aiuta a contenerli: • La scelta di metodologie di trattamento adatte alla nuova natura mista dei dati • La gestione dei dati, condivisa tra i vari produttori e utilizzatori, orientata alla qualità (secondo i principi declinati per la statistica ufficiale e per gli archivi amministrativi utili a fini statistici). • Etc… 33
  • 34. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) La fonte amministrativa, per la sua natura, potrebbe avere un ciclo di vita (inserimento, aggiornamento e cancellazione delle informazioni) molto diverso da quello di una base dati statistica. La trasformazione dell’input nel processo di produzione statistico: il passaggio da SDI a SDA Investire sulla innovazione dei prodotti per contenere la proliferazione di «manufatti». 34
  • 35. Processo di integrazione delle fonti: primi risultati Obiettivo: INTEGRAZIONE (di microdati) Alcuni dei problemi incontrati Protezione della identificazione dell’individuo: •Sostituzione della chiave identificativa con chiave anonima •Verifica dell’efficacia dell’intervento di anonimizzazione Problema della corretta interpretazione: •Carenza di memoria storica della registrazione amministrativa •Utilizzo nel disegno del questionario delle variabili disponibili presso le varie fonti Problema del riferimento temporale e dell’esito dell’abbinamento Problema della veridicità dei big data … 35
  • 36. e per migliorare il nostro restauro… Continuare ad investire: •sul miglioramento del protocollo di comunicazione tra soggetti Sistan per agevolare la fornitura dei dati Es.: normalizzare la struttura dei data base •sulla maggiore condivisione del sistema di classificazione e codifica dei dati Es.: Ovviare alla criticità legata alle “variazioni amministrative” aggiornate periodicamente dall’Istat •sulla maggiore linkabilità diretta dei dati Es.: Ovviare alla criticità della mancanza o correttezza delle di chiavi di linkage 36

Editor's Notes

  1. In pochi minuti cerco di sintetizzare il percorso fatto in questi mesi per conseguire gli obiettivi, molti dei quali raggiunti, e cercherò di completare la presentazione condividendo qualche riflessione emersa per l’indirizzo delle azioni future. Abbiamo avuto a disposizione alcuni strumenti, il protocollo di intesa tra MIUR e ISTAT, alcune indicazioni a priori, degli «ingredienti» di base E con questi abbiamo confezionato prodotti che hanno interessato contemporaneamente ben 8 processi produttivi: Analisi e validazione Anagrafi scolastiche di due annualità (2011/12 e 2012/13) Personale docente e non docente scuola di due annualità (2011/12 e 2012/13) Laureati di due annualità 2007 e 2011 Diplomati 2011 Dottori 2009 e 2011
  2. Abbiamo indicazioni di miglioramento da restituire ai produttori e indicazioni di miglioramento per snellire burocrazia, produrre statistiche in «diretta» e promuovere la conoscenza e competenza statistica negli informatici e negli amministrativi che governano le fasi di produzione degli archivi amministrativi sostitutivi delle rilevazioni sul campo.
  3. Percorso talvolta in salita che non ci ha risparmiato qualche bella sudata…
  4. NO: il tempo si guadagna dalla prossima estrazione dal SIM e per le prossime rielaborazioni.
  5. Come responsabile di un progetto presso la Direzione Centrale delle statistiche socio-economiche finalizzato a promuovere l’integrazione tra fonti di dati sull’istruzione, lasciatemi trarre subito le conclusioni: dalle sperimentazioni condotte in questo anno di lavoro, abbiamo dimostrato concretamente che anche le fasi del processo di produzione statistica demosociale si possono avvantaggiare della integrazione di dati provenienti da più fonti, purché siano rispettate determinate condizioni. I casi di studio hanno affrontato come avvalersi della integrazione, ad esempio: prima della raccolta dei dati: per una migliore individuazione della popolazione da intervistare durante le operazioni sul campo: per avere informazioni che agevolino il contatto del rispondente e riducano il burden durante le elaborazioni dei dati: per avere informazioni di raffronto ai fini della diffusione dei dati: per aumentare il potere espressivo dell’informazione
  6. Cosa ci aspettiamo per il futuro: Una maggiore condivisione delle iniziative di gestione per il miglioramento della qualità Da Competitors, da logiche CS a cooperazioni di vera Partnership Da Pianificazioni separate a pianificazioni condivise Da duplicazioni ad accessi diretti
  7. Quale esito lavorativo ha l’individuo, una volta conseguito il titolo di studio
  8. Non dedico troppo tempo a definizioni, ma molto ruota innanzitutto intorno alla disponibilità di una chiave univoca e corretta di abbinamento delle informazioni
  9. Le sperimentazioni hanno affrontato una gradualità crescente della complessità
  10. Per giungere all’obiettivo di riprogettare la rilevazione statistica per - Ridurre il numero della fasi e quindi costi diretti e tempi della rilevazione - Utilizzare nel disegno del questionario le variabili già disponibili
  11. Abbiamo citato spesso il CF: la domanda che ricorre maggiormente: E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale maturata in ambito economico? La presenza del CF consente di produrre statistiche rappresentative per l’intera popolazione? (stranieri?) La ricerca della ricostruzione si risolve nella sola risposta dicotomica trovato/non trovato? L’interpretazione del risultato è più complesso e richiede una conoscenza approfondita degli eventi che determinano le registrazioni amministrative; il record linkage richiede qualche cautela … una mano delicata…direi da restauratore
  12. La disponibilità di informazioni (metadata, metacontent, etc…) è un requisito necessario per ogni passaggio della nuova procedura Con il linkage si possono introdurre errori (falsi abbinamenti o mancati abbinamenti), la accuratezza della documentazione è fondamentale per consentire scelte e valutazione dell’esito delle analisi consapevoli (le variabili usate per il linkage, l’esito della eventuale revisione manuale, etc…)
  13. Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
  14. Qui in sintesi le fonti disponibili e che sono state oggetto delle sperimentazioni - finalizzate alla realizzazione di un sistema che integri un insieme più ampio di caratteristiche del fenomeno - da realizzare attraverso innovazioni di processo e innovazioni di prodotto della cui complessità ci stiamo rendendo conto attraverso le sperimentazioni
  15. l’esito di sperimentazioni condotte per le due finalità di integrazione trasversale e longitudinale…
  16. Non anticipo alcun risultato
  17. In questi circa 9 mesi abbiamo lavorato contemporaneamente su più linee produttive
  18. Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
  19. Le presentazioni riguardano sostanzialmente due problematiche, ma darei loro la parola per …
  20. Lo studio verrà replicato per l’anno scolastico 2012/13 in vista della fornitura richiesta dal regolamento europeo. Pertanto in parallelo è stata avviata l’analisi dell’anagrafe 2012/13 sempre nell’ottica dello studio della relazione Ente gestore - Unità scolatica
  21. E anche per il 2012713 viene confermata la percentuale
  22. *Di cui 14522 scuole non statali e 13986 non statali paritarie. N.B.: Manca Bolzano in anagrafe scuole, ~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!! §Di cui 18283 codici fiscali distinti. #Di 14847 scuole distinte risultano 13.836 record ricostruiti distinti e 7.773 gestori distinti MEMO: Occorre analizzare i residui, ad esempio i 142 CF dell’anagrafe delle scuole che non risultano avere riscontro in SIM vedi anche tabella dei 146   Considerando le 13.836 scuole distinte per le quali è stata ricostruita la chiave di linkage risulta che 6.070 gestori sono riferiti ad un solo istituto scolastico della rilevazione e 1.703 gestiscono più scuole facenti parte della rilevazione statistica. Di questi 571 gestori hanno scuole associate di stessa tipologia mentre 1132 gestiscono scuole di diversa tipologia.   Foucs su scuole secondarie di secondo grado: A seguito della ricostruzione risultano 1818 record relativi a Scuole secondarie di secondo grado facenti parti della rilevazione statistica relativi a 1685 istituti scolastici. Risultano per questi istituti 864 gestori distinti. 251 gestori gestiscono un’unica scuola secondaria di secondo grado non statale facente parte della rilevazione statistica. Dei 613 gestori che gestiscono più scuole 300 ne gestiscono un solo tipo e 313 gestiscono diverse tipologie di istituti. A seguito della ricostruzione della chiave di linkage tra l’anagrafe delle scuole Miur e la rilevazione statistica si opera un linkage con la banca dati SIM tramite il codice fiscale del gestore. Si ottiene un risultano per 7643 gestori sui 7773 individuati nelle scuole oggetto della rilevazione (pari al 98% di direct matching). Mancano quindi 130 gestori delle scuole oggetto della rilevazione che non risultano presenti in banca dati SIM. In dettaglio mancano 120 gestori a cui fa riferimento una sola scuola, 7 enti gestori che gestiscono scuole della stessa tipologia e 3 enti gestori che gestiscono scuole di diversa tipologia.  
  23. I COMUNI costituiscono il 75% dei gestori con addetti di fonte INPDAP e i gestori pubblici non statali raggiungono complessivamente l’85%
  24. Il racconto per oggi termina qui, ma il percorso non è ovviamente completato, occorre impegno per ottenere risultati della qualità richiesta dalla statistica ufficiale.
  25. Nelle presentazioni sono delineate metodologie tecniche e strumenti adottati per raggiungere risultati che ambiscono a diventare produzione di statistica ufficiale a regime: Non solo dati percentuali, ma dati assoluti riferiti a intere specifiche popolazioni di individui
  26. I colleghi del MIUR stanno mettendo a regime l’uso dei dati amministrativi nella produzione delle statistiche diffuse via web
  27. Lasciamo spazio a considerazioni e domande e quindi alla Tavola Rotonda, dalla quale attendiamo stimoli per un ricerca originale e di utilità per la comunità Sperando che l’esito del nostro restauro sia equilibrato, apprezzato e soprattutto non dia l’esito di quest’ultimo …