C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle statistiche

40,709 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
40,709
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

C. Filippucci: Un “diluvio di dati”: una nuova sfida per la qualità delle statistiche

  1. 1. DECIMA CONFERENZA NAZIONALE DI STATISTICA Un “diluvio di dati”: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze Statistiche-Università di Bologna [email_address]
  2. 2. Il contesto <ul><li>Vicenda sociale connotata da: articolazione e da interrelazioni crescenti ; aumento eterogeneità degli agenti sociali ; turbolenza delle dinamiche </li></ul><ul><li>Le necessità conoscitive che la statistica ufficiale deve soddisfare più ampie, articolate perché riferite a fenomeni nuovi, più complessi e diversificati. </li></ul><ul><li>Difficoltà - del Sistan </li></ul><ul><li> - a cogliere esigenze e domanda utilizzatori </li></ul>
  3. 3. il contesto <ul><li>Difficoltà del Sistan </li></ul><ul><li>Debolezza della funzione statistica e della governance delle infrastrutture statistiche </li></ul><ul><li>Difficoltà ad affrontare le esigenze di uno stato fondato su una articolazione regionale </li></ul><ul><li>Eterogeneità di soluzioni locali </li></ul>
  4. 4. Qualche novità nell’informazione : il diluvio <ul><li>Sovrabbondanza di informazioni in larga parte di origine amministrativa – gestionale </li></ul><ul><li>Inimmaginabile e crescente disponibilità di informazioni in formato elettronico </li></ul><ul><li>Sempre maggiore numero di enti e soggetti privati che raccolgono, conservano, elaborano informazioni </li></ul><ul><li>pervasiva “ industrial revolution of data ” </li></ul>
  5. 5. Qualche novità nell’informazione : in principio oggi in futuro <ul><li>Disponibilità e Utilizzo Fonti Amministrative e della PA </li></ul><ul><li>- basi dati fiscali, previdenziali, assicurative, </li></ul><ul><li>- bilanci enti pubblici </li></ul><ul><li>- Basi dati sanità </li></ul><ul><li>- Basi dati ambientali…… </li></ul><ul><li>Progressiva estensione a molti fenomeni </li></ul><ul><li>Utilizzo sempre più esteso da parte di Istat, di molti enti ed ai livelli territoriali più piccoli </li></ul>
  6. 6. Qualche novità nell’informazione : oggi e in futuro <ul><li>Presenza di un numero sempre più ampio di soggetti indipendenti che raccolgono dati : </li></ul><ul><li>Qualche esempio </li></ul><ul><li>Distribuzione commerciale: Wall Mart: 1 mln di transazioni al giorno = 2,5 petabytes (1 mln di GB) </li></ul><ul><li>Basi dati clienti, banche /finanziarie </li></ul><ul><li>… . costruiscono indicatori e fanno analisi, producono trend macroeconomici, previsioni, analisi dei rischi </li></ul><ul><li>Oracle, IBM, Microsoft: 15 miliardi di $ acquisto software per gestione di dati e database </li></ul>
  7. 7. Qualche novità nell’informazione : oggi e in futuro cnt. <ul><li>La rivoluzione del web 2.0 </li></ul><ul><li>Il web diventa uno strumento per riunire i piccoli contributi di milioni di persone e migliorarli. </li></ul><ul><li>Piattaforma aperta che aumenta il libero flusso di informazione, arricchisce gli strumenti per il confronto politico e sociale ed amplia la diversità di opinioni. </li></ul><ul><li>Il Contenuto Creato dall’Utente cambia il modo in cui gli utilizzatori producono, distribuiscono, accedono e riusano l’informazione. </li></ul>
  8. 8. Qualche novità nell’informazione: i vantaggi <ul><li>Sul piano sostanziale : </li></ul><ul><li>Individuare, esplorare nuove problematiche arricchendo il quadro macro </li></ul><ul><li>Svelare nuovi punti di vista, approfondire e ampliare conoscenze specie sui comportamenti individuali e locali </li></ul><ul><li>Favorire analisi e politiche microeconomiche </li></ul><ul><li>Per la statistica : nuovi agguerriti competitors </li></ul><ul><li>Annotazione in margine : le rivoluzioni scientifiche sono state spesso precedute da quelle nei metodi di misura e osservazione </li></ul>
  9. 9. Qualche novità nell’informazione: i problemi <ul><li>Ma anche … </li></ul><ul><li>Numerose e crescenti disponibilità ed utilizzazioni di basi di dati da parte di svariati soggetti </li></ul><ul><li>scoordinate, </li></ul><ul><li>occasionali, </li></ul><ul><li>metodologie differenziate, </li></ul><ul><li>scarsa attenzione alla qualità fonti </li></ul><ul><li>Condizionamento </li></ul><ul><li>rischio di appiattirsi sulle informazioni disponibili </li></ul>
  10. 10. Qualche novità nell’informazione : Che fare ? <ul><li>Distinguiamo: </li></ul><ul><ul><li>Fonti di origine burocratica e amministrativa - tipicamente (PA ed enti collegati) </li></ul></ul><ul><ul><li>Altre fonti gestionali </li></ul></ul>
  11. 11. Altre fonti gestionali : Che fare cnt. <ul><li>Queste “fonti” avranno -e già hanno- un impatto rilevante nel Paese e su come le statistiche sono percepite e usate </li></ul><ul><li>Le Statistiche ufficiali possono utilizzare queste “fonti”? </li></ul><ul><li>E’ una grande sfida, ma anche una grande opportunita‘ che richiede nuove strategie per il sistema statistico ( che cosa, come, chi, con quali strumenti, quali tecniche ) </li></ul><ul><li>La statistica ufficiale può/deve interagire e come? </li></ul>
  12. 12. Altre fonti gestionali : un commento <ul><li>Le statistiche ufficiali sono beni pubblici irrinunciabili e i sistemi statistici nazionali devono costituire il nucleo fondamentale della conoscenza statistica </li></ul><ul><li>ma </li></ul><ul><li>oggi bisogna affrontare la sfida </li></ul><ul><li>posta dalla nuova dimensione della informazione </li></ul>
  13. 13. Altre fonti gestionali : Che fare cnt. <ul><li>Vigilanza e denuncia : un’A utority anche per la “statistica” privata </li></ul><ul><li>Codice etico per la “statistica” privata </li></ul><ul><li>Guidelines per l’utilizzo a fini statistici dei dati (tecniche, metodi, best practices) </li></ul><ul><li>Accreditamento delle fonti “bollino qualità” </li></ul>
  14. 14. Altre fonti gestionali : Che fare cnt. <ul><li>Ma anche : </li></ul><ul><li>Nuove dimensioni qualità fonti : Legittimità, Autorevolezza, Credibilità, Trasparenza </li></ul><ul><li>dimensioni qualità indicatori </li></ul><ul><li>Criteri per definirle e misurarle </li></ul>
  15. 15. Altre fonti gestionali : nuove dimensioni della qualità <ul><li>Legittimità : conformità della fonte ad un “codice etico” relativo alle modalità di raccolta delle informazioni </li></ul><ul><li>Autorevolezza : prestigio del produttore della fonte da valutare secondo vari parametri </li></ul><ul><li>Credibilità-attendibilità : esistenza di requisiti che assicurino il rispetto di metodi e prassi della rilevazione di dati </li></ul><ul><li>Trasparenza : disponibilità metadati </li></ul>
  16. 16. Fonti amministrative <ul><li>Utilizzo a fini statistici - richiede ancora lavoro e metodi (Nordbotten, 2008) </li></ul><ul><li>l’Istat e il sistema statistico nazionale hanno un ruolo primario da svolgere in particolare per orientare gli utilizzatori e su come validare una fonte statistica </li></ul>
  17. 17. Fonti amministrative - Le Sfide <ul><li>Contribuire al disegno-architettura delle FA </li></ul><ul><li>Delineare protocolli normativi e procedurali per accesso e condivisione delle fonti </li></ul><ul><li>Introdurre la valutazione dei costi uso FA e analisi ciclo di vita FA - modelli </li></ul><ul><li>Framework e metodi di integrazione indagini e FA - dettaglio territoriale, settoriale </li></ul>
  18. 18. Fonti amministrative – un quadro normativo <ul><li>Esistono serie barriere all’uso FA- da identificare e superare </li></ul><ul><li>Accesso e utilizzo FA – modelli di accordo e norme generali </li></ul><ul><li>Politiche in supporto ad accesso –informatico- e uso FA </li></ul><ul><li>Sicurezza </li></ul><ul><li>- privacy – consenso informato, vincoli </li></ul><ul><li>- confidentiality – accesso solo a chi è autorizzato (chi, come) </li></ul><ul><li>- responsabilità- penalità per la violazione </li></ul>
  19. 19. Fonti amministrative - La sfida della qualità cnt. <ul><li>Definire criteri e metodi per assicurare e controllare la qualità delle fonti e un loro corretto utilizzo a fini statistici </li></ul><ul><li>Qualche avvertenza : </li></ul><ul><li>Non si può affidare ai soli detentori FA il controllo di qualità </li></ul><ul><li>il CQ non deve essere solo interno alla fonte ma basato anche su verifiche esterne </li></ul><ul><li>attenzione a strategie empiriche che non sono conclusive e limitate alle occasioni considerate (p.e.:dati fiscali e da indagine possono combaciare per somma algebrica di errori diversi) </li></ul>Fonti amministrative: la sfida della qualità
  20. 20. Fonti amministrative: sulla qualità in particolare <ul><li>Quali categorie della qualità? Letteratura scarsa ( Grünewald Körner, 2005, Statistics Finland, 2004; Wallgren Wallgren, 2007; ESS, 2009) </li></ul><ul><li>Qualità ente : legittimità, autorevolezza, credibilità, trasparenza – vedi sopra </li></ul><ul><li>Qualità processo </li></ul><ul><li>Qualità informazione : pertinenza, affidabilità, accessibilità, tempestività-puntualità, coerenza , continuità-stabilità </li></ul><ul><li>Modelli per la qualità dei dati </li></ul><ul><li>Riferimenti utili: European Foundation for Quality Management exellence model; European statistical code of practice </li></ul>
  21. 21. Qualità del processo <ul><li>Ambiente in cui il processo ha luogo : indipendenza, professionalità, risorse, imparzialità, obbiettività </li></ul><ul><li>Conduzione delle fasi di raccolta informazione : adeguatezza metodi e procedure di raccolta e controllo </li></ul><ul><li>Metodi di gestione del controllo del processo e miglioramento continuo </li></ul>
  22. 22. Qualità informazione <ul><li>Pertinenza : corrispondenza tra i bisogni informativi e definizioni statistiche e FA </li></ul><ul><li>Affidabilità : esistenza e mantenimento di standard secondo linee stabilite - aderenza alla realtà </li></ul><ul><li>Accuratezza : correttezza dell’informazione- errori non campionari </li></ul><ul><li>Tempestività : distanza tra disponibilità ed eventi </li></ul><ul><li>Puntualità : lag tra rilascio e riferimento eventi </li></ul>
  23. 23. Qualità informazione cnt. <ul><li>Accessibilità : condizioni e modalità di utilizzo (disseminazione adeguata, accesso, documentazione – metadati). </li></ul><ul><li>Coerenza : informazioni mutualmente consistenti e integrabili </li></ul><ul><li>Comparabilità : consistenza temporale, spaziale, per i domini rilevanti </li></ul>
  24. 24. Errori <ul><li>Quali errori considerare? </li></ul><ul><li>Errori misura e errori rappresentazione </li></ul><ul><li>Documentare, calcolare, trattare gli errori e … rimuoverli </li></ul><ul><li>Linee guida e metodologie </li></ul><ul><li>Modelli dell’errore totale – Census Bureau USA </li></ul>
  25. 25. Errori di misura <ul><li>Dovuti allo strumento di misura, ai soggetti coinvolti </li></ul><ul><li>ii) Dovuti al processo derivanti da: </li></ul><ul><li>- trattamento dei dati in seguito ai controlli in fase di acquisizione informazione, </li></ul><ul><li>- trasformazione delle variabili FA in variabili statistiche e codifiche </li></ul><ul><li>- applicazione di specifiche regole di correzione e trattamento in sede di utilizzo statistico </li></ul>
  26. 26. Errori di misura cnt. <ul><li>iii) Dovuti alla diversa “qualità” e modalità di registrazione eventi raccolti in una fonte </li></ul><ul><li>Diversa qualità delle variabili a causa della maggiore attenzione produttore alle variabili rilevanti per ente stesso - insorge per l’utilizzo di strategie e metodi diversi per controllare le variabili </li></ul><ul><li>iv) Dovuti al riferimento temporale delle registrazioni </li></ul><ul><li>Gli eventi sono registrati in tempi diversi al loro verificarsi - si genera un problema è simile a quello delle risposte proxy </li></ul>
  27. 27. Errori di rappresentazione <ul><li>Errori di copertura ( né censimenti né campioni) </li></ul><ul><li>cutt-off , autoselezione: stima model-based ( Filippucci Drudi, 2000; Filippucci Bernardini, 2000; Thomsen Chang, 2008) </li></ul><ul><li>Errori di Linking : </li></ul><ul><li>link mancanti (quale è il processo generatore della MRT); </li></ul><ul><li>link errati (Fellegi & Sunter, 1969; Arts, Bakker & Van Lith, 2000) </li></ul><ul><li>Errori di correzione </li></ul><ul><li>Se non si può ottenere un link completo tra archivi e si ricorre a riponderazioni dei registri abbinati questo può portare ad errori se i modelli di riponderazione non sono adeguati </li></ul>
  28. 28. Dalla misura a posteriori al controllo del processo <ul><li>Essenziale riconoscere gli errori, documentarli, ma soprattutto esserne avvertiti e trattarli, chiarendo le conseguenze del trattamento </li></ul><ul><li>In pratica è difficile documentare e misurare gli errori , dipende dalla sensibilità e attenzione dei gestori degli archivi – da sviluppare </li></ul><ul><li>Il trattamento dell’errore è complesso perché è un’attività a posteriori e non assicura contro nuovi errori in una successiva occasione. </li></ul><ul><li>Occorre passare dalla misura a posteriori dell’errore al controllo e al miglioramento continuo del processo di produzione </li></ul>
  29. 29. Per concludere <ul><li>L’uso delle FA e una loro integrazione nei sistemi statistici non è una scappatoia semplice nella produzione di una informazione statistica moderna, articolata e diffusa sul territorio </li></ul><ul><li>L’uso statistico delle FA non è a costo zero </li></ul><ul><li>Analisi costi benefici </li></ul><ul><li>Ricerca teorica ed applicata </li></ul><ul><li>Criteri Metodologie e standard condivisi </li></ul><ul><li>Collaborazione tra enti </li></ul><ul><li>Ruolo più efficace del Sistan </li></ul>

×