Verso le trusted smart statistics - prospettive di sviluppo e risultati del essnet big data pilots II
1. QUALITY AND METHODOLOGY
Istat | DCME/MEA
Istat, 05.05.2021
VERSO LE TRUSTED SMART STATISTICS.
PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA PILOTS II
GABRIELE ASCARI
2. Il WPK, per sua natura, è stato un work package trasversale, tra i cui scopi vi erano il raccordo e il
consolidamento della conoscenza sviluppata negli altri WP.
Avvio nel WP8 «Methodology» dell’ESSNet Big Data I.
Esperienza di lavoro svolta attraverso tre linee principali di attività:
o Linee guida per l’acquisizione e l’utilizzo dei big data (e lavori correlati)
o Typification matrix
o Ricerca metodologica sull’utilizzo dei big data nella statistica ufficiale
Introduzione
QUALITY AND METHODOLOGY | GABRIELE ASCARI
2
3. QGBD – Quality guidelines on the acquisition and usage of big data
QUALITY AND METHODOLOGY | GABRIELE ASCARI
3
La struttura
fonte: QGBD
4. o Nella fase di input vengono studiate le modalità di acquisizione del dato grezzo, con particolare rilievo sulla
cooperazione con i fornitori dei dati
o Attraverso la fase di throughput I il dato grezzo viene trasformato in dato statistico. Data la varietà di
tipologia di dati di input, il trattamento viene suddiviso per categoria di dati e per ogni categoria sono
approfonditi il ruolo della classe di dati, il processo di trasformazione e sono fornite specifiche linee guida.
o La seconda fase di throughput, throughput II, riguarda l’uso del dato statistico derivato per la produzione
dell’output. Questa fase è analizzata seguendo il tipo di scopo che viene fatto dei dati ottenuti dalle
trasformazioni precedenti, dalla validazione all’uso come informazione ausiliaria per le stime.
o Alla fase di output non è dedicato un capitolo apposito perché le tipiche fasi di output orientate alla
diffusione non vengono alterate in modo significativo dalla natura delle nuove fonti di dati.
QGBD – Quality guidelines on the acquisition and usage of big data
QUALITY AND METHODOLOGY | GABRIELE ASCARI
4
5. QGBD – Quality guidelines on the acquisition and usage of big data
QUALITY AND METHODOLOGY | GABRIELE ASCARI
5
Esempio (fase: throughput I; classe: smart meter)
6. QGBD – Quality guidelines on the acquisition and usage of big data
QUALITY AND METHODOLOGY | GABRIELE ASCARI
6
Esempio (fase: throughput I; classe: smart meter)
Descrizione della classe di dati
Ruolo della classe di dati
Trasformazione dal dato grezzo al dato statistico
7. QGBD – Quality guidelines on the acquisition and usage of big data
7
Esempio (fase: throughput I; classe: smart meter)
Linee guida per la classe di dati
(suddivise per aspetti di qualità,
incluse tipologie di errore)
8. La costruzione della cosiddetta typfication matrix è stata dettata dall’esigenza di comprendere i diversi gradi di
maturità nell’utilizzo di fonti big data, come aiuto agli Istituti di statistica nella pianificazione della strategia per la
loro acquisizione.
Gli aspetti presi in considerazione sono:
o accesso alla fonte dei dati
o metadati
o caratteristiche dei dati
Ciascuno di questi aspetti presenta una descrizione ed è analizzato secondo
o le sfide prospettate
o le procedure per rispondere alle sfide
o gli investimenti richiesti
o una roadmap di implementazione delle procedure
Typification matrix
QUALITY AND METHODOLOGY | GABRIELE ASCARI
8
9. Typification matrix
QUALITY AND METHODOLOGY | GABRIELE ASCARI
9
Description Challenges Treatments Investment Roadmap
Source
Metadata
Data
Struttura concettuale della typification matrix
fonte: deliverable K7
10. La matrice è stata compilata per ciascun WP grazie al feedback dei partecipanti.
Pur non essendo uno strumento di valutazione, può essere interpretata come uno strumento di self-
assessment con tre esiti rispetto al grado di maturità di una fonte, a seconda della conoscenza delle procedure
richieste e la possibilità di prevedere i relativi investimenti e roadmap: livello esplorativo, livello di piloting e
livello di implementazione.
La matrice, se sviluppata in modo sufficientemente generalizzabile, può permettere di anticipare problemi e
colli di bottiglia in fase esplorativa di una nuova fonte di dati, nonché l’identificazione di «building blocks»
comuni ad alcune fasi del processo.
Typification matrix
QUALITY AND METHODOLOGY | GABRIELE ASCARI
10
11. Le premesse per l’analisi metodologica svolta nel WPK si basano sull’osservazione che la letteratura corrente
nell’ambito della statistica ufficiale si concentra su dati di indagine e dati amministrativi.
L’approccio data-driven è nuovo per gli Istituti di Statistica.
L’osservazione del lavoro svolto negli altri WP ha permesso di identificare delle fasi, o «building blocks»,
comuni a molti processi utilizzatori di big data:
o selezione e riduzione (delle dimensionalità)
o estrazione dell’informazione
o creazione del frame
o inferenza
L’analisi della metodologia si è svolta approfondendo queste linee, portando alla fine alla formulazione di
domande di ricerca ancora aperte.
Metodologia
QUALITY AND METHODOLOGY | GABRIELE ASCARI
11
12. Metodologia
QUALITY AND METHODOLOGY | GABRIELE ASCARI
12
I quattro passi per la produzione statistica basata su big data
fonte: deliverable K10
13. o L’analisi si è svolta collegandosi alle Linee guida da un lato e alla Typification matrix dall’altro
o Si è evidenziato il collegamento con l’architettura BREAL (Big Data Reference Architecture and Layers)
o Due report principali come output: uno seguendo le macrofasi del processo (Input, Throughput I e II), uno
secondo gli step descritti in precedenza, con individuazione delle aree di esplorazione per il futuro.
Metodologia
QUALITY AND METHODOLOGY | GABRIELE ASCARI
13
14. Alcune aree di ricerca individuate per il futuro:
o Linking tra i big data e le fonti tradizionali
o Differenze tra la popolazione obiettivo e la popolazione di interesse
o Differenze tra le definizioni tra i big data e le variabili di interesse
o Validazione, trasparenza, ottimizzazione dei modelli di deep learning in particolare e data science in
generale
o Evoluzione delle condizioni per l’accesso ai dati
Metodologia
QUALITY AND METHODOLOGY | GABRIELE ASCARI
14
15. Partecipanti Istat al WPK
Tiziana Tuoto
Gabriele Ascari
Giovanna Brancato
Loredana Di Consiglio
Paolo Righi
QUALITY AND METHODOLOGY | GABRIELE ASCARI
15