M. Vichi - I media e la qualità delle statistiche: aiutare i cittadini a nuotare nel “diluvio di dati”
1. I media e la qualità delle statistiche: aiutare i
cittadini a nuotare nel “diluvio di dati”
Tavola rotonda 21.2.2013
14,30-16,00
Moderatore: Roberto Petrini, La Repubblica
Interventi
Maurizio Vichi, Sapienza Università di Roma
Monica Maggioni, Direttore RaiNews
Massimo Leoni, SkyTg24
Danilo Taino, Corriere della Sera
VICHI MAURIZIO (Ordinario di Statistica - SAPIENZA UNIVERSITÁ DI ROMA)
2. Statistica ufficiale: indipendenza degli Istituti di Statistica
L’Informazione statistica pubblica è sottoposta ad innumerevoli controlli di qualità e
standardizzazione della produzione a livello europeo (Eurostat) ed internazionale (OCSE, ONU,
Fondo Monetario Internazionale). La qualità è certificata dal sistema internazionale, ma …
la statistica pubblica deve essere indipendente dai Governi (indipendenza finanziaria e
politica) sul modello di indipendenza delle banche centrali nazionali e della BCE, con Eurostat con
funzioni di controllo
… altrimenti si arriva ai casi eclatanti di Grecia, Romania e Argentina
Le continue revisioni al ribasso delle statistiche sul debito e sul PIL della Grecia, troppo marcate
per essere vere, hanno aggravato la crisi greca e reso
il debito insostenibile.
A partire dal 2007 il governo dell’Argentina ha pubblicato statistiche sull’inflazione cresciuta dal
5% all’11%, anche se studi indipendenti rilevano che
l’inflazione si attesta tra il 25% e il 30%.
L’OCSE potrebbe emettere una «censura» se entro 3
mesi l’Argentina non fornirà stime attendibili del PIL e
dell’inflazione.
(Figura: Don’t lye to me Argentina (Economist 25.2.2012)
parafrasando la canzone Don’t Cry for me Argentina – musical Evita)
3. Società dell’Informazione: il diluvio degli accessi (fonti)
Siamo nella Società dell’informazione Dal 2007 la maggioranza delle famiglie UE-27 (55%) ha accesso ad internet (punte del 94%)
Famiglie connesse ad Intenet Utilizzatori giornalieri o settimanali di internet negli ultime 3
mesi (dati 2011).
21 posto 24 posto
Individui che hanno ordinato beni e servizi
su internet per uso privato (%individui 16-74 anni)
25 posto
4. L’Informazione non ufficiale: il diluvio dei dati
Si moltiplicano le fonti di produzione di dati (Varietà dei Dati)
I social networks producono dati destrutturati (tweet, messaggi, immagini)
Velocità di Produzione dei Dati (e-commerce)
Volume dei Dati (avanzamenti tecnologici)
Scienza: Open source, collaborare a distanza, Intelligenza collettiva
Zettabyte
1021
Exabyte
Incremento della dimensione e diffusione di dati
1018 BIG DATA BiG Data Governmentale
Petabyte BigScience sensori (acceleratori di particelle) Obama «Bid Data Big Dial program»
(The Economist 2010) 1015 Large Synoptic Survey Telescope 200m$
Human genome
Terabyte DATA BASES
1012 WEB LOGS - INTERNET Data Mining Amazon (simple DB)
Analisi multivariata dei dati Google (Big Table)
Gigabyte Sentiment Analysis Microsoft
109 Televisione Indagini Social Network Analysis
Video censuarie Data Stream analysis ANALISI STATISTICHE
Audio Open data social media
Interazioni fra Machine learning Data Mining Big Analytics
Predictive modeling
Megabyte Giornali Indagini Big Simulations
106 Libri Campionarie
Tabelle Statistica
Reports Classica
Incremento della complessità dell’informazione e delle analisi statistiche
5. Quando una Informazione è una notizia statistica?
Alla Commissione degli utenti dell’informazione statistica (CUIS) si è discusso di informazione
statistica e di norme di qualità-attendibilità per la statistica non ufficiale
OBIETTIVO: Offrire agli utenti informazioni statistiche non ufficiali di qualità ed
attendibili prodotte con uno standard qualitativo riconosciuto a livello internazionale
L’informazione è statistica, se essa assume una connotazione quantitativa, e si ottiene mediante
tecniche consolidate di rilevazione ed elaborazione statistica, sempre replicabili.
L’informazione statistica ha sempre una «notizialibità» (rilevanza, interesse), una
«attendibilità» e una «fonte». Le prime due sono legate ad aspetti tecnici relativi alla
rappresentatività della popolazione connessa con l’informazione.
Primo quesito Come riconoscere una informazione statistica, sapendo
distinguerla da una opinione quantitativa non statistica?
Secondo quesito Come garantire l’attendibilità e la qualità dell’informazione statistica privata?
Terzo quesito Come comunicare l’informazione statistica e renderla ‘digeribile’?
6. Riconoscere l’informazione statistica
Le migliori statistiche infondate (Dal Quotidiano Time, maggio 2011)
- George W. Bush nella visita di stato del 2005 in India ha salutato la classe media indiana di
300 milioni di persone (la middle class era di 50 milioni nel 2005).
- Nel 2009 si diceva che la recente crisi finanziaria avrebbe spinto 100 milioni di persone dei
paese in via di sviluppo verso la povertà assoluta, causando sommosse civili e forse anche
guerre. Nel 2009 solo il Sudafrica ha avuto una breve recessione. Gli altri 47 paesi in Africa
sono sfuggiti al peggio della crisi, e sono riusciti a crescere in media del 2% nel 2009,
tornando al 5% di crescita del PIL nel 2010 e nel 2011.
-Ci sono 3 milioni di rifugiati dello Zimbabwe in Sudafrica. Questo dato è stato utilizzato dai
giornalisti per descrivere l’entità del collasso economico. Una indagine di un ente di ricerca
specializzato ha stimato il valore tra 800.000 e 1.000.000 di profughi.
-Un americano su 10 possiede il passaporto (il 37% è il dato ufficiale).
- Saper riconoscere l’informazione statistica è un problema di cultura generale
- saper leggere scrivere e far di conto non sono più sufficienti per potersi inserire nella società
dell’informazione. Sono necessarie nuove competenze e abilità di base e tra queste la
statistica.
Saper leggere ed interpretare l’informazione quantitativa è un vantaggio competitivo molto
rilevante. La statistica deve entrare tra le competenze di base nella scuola.
- La figura del giornalista deve sempre più acquisire competenze quantitative che fino ad ora
sono appannaggio dei giornalisti che si occupano di economia e finanza.
7. Soluzioni per aiutare i cittadini a nuotare nel diluvio dei dati:1
TRE SOLUZIONI da discutere per l’informazione statistica privata
a) VALUTAZIONE DI ATTENDIBILTA’: FONTE - PRODOTTO
- Per il Produttore di statistica non ufficiale è auspicabile:
- l’Accreditamento (certificazione della fonte);
Per l’informazione statistica non ufficiale è necessaria
- la Valutazione del Prodotto da parte di un professionista statistico (certificazione del dato).
Soluzione internazionale :RSS (Royal Statistical Society), ASA (American Statistical Society), Stat. Society of Canada
Accreditano il professionista statistico che è utilizzato per realizzare e valutare il prodotto statistico.
Soluzione nazionale: accreditamento dello statistico da ente terzo (Società Italiana di Statistica) e
albo statistici da gestire con la nuova legge sulle professioni non regolamentate
(legge 4 del 2013).
8. Soluzioni per aiutare i cittadini a nuotare nel diluvio dei dati:2
b) AUTORITY STATISTICA che possa monitorare e valutare la pubblicazione delle informazioni
statistiche non ufficiali, ma di rilevanza nazionale, e che abbia competenze sanzionatorie (come
per i sondaggi d’opinione, politico elettorale)
L’Autority potrebbe essere l’ AGCOM che potrebbe realizzare un regolamento (code-of-practice),
per la qualità delle statistiche ed estendere il Registro degli Operatori di Comunicazione alle
imprese produttrici di statistiche.
Soluzione internazionale: Statistics Authority (UK) valutazione delle statistiche di rilevanza
nazionale, anche quelle pubbliche.
c) MEDIA E MEZZI DI COMUNICAZIONE. Presenza nei giornali e mezzi di comunicazione di uno
Statistics Editor con le funzioni di saper riconoscere l’informazione statistica e saperla comunicare
correttamente (Corriere della Sera Danilo Taino).
- Data Driven Journalism: analizzare e filtrare ampi insiemi di dati
per visualizzare e creare informazione statistica rilevante
Database Journalism:
Computational Journalism (2012, Columbia Journalism School )
Data Journalism School Roma 2012 (Fondazione <ahref e Istat)
Data Visualization in Journalism (Stanford.edu)
Guardian Data Store (http://www.guardian.co.uk/data)
Data Journalism at BBC (http://datajournalismhandbook.org/1.0/en/in_the_newsroom_1.html)
9. Attendibilità e qualità dell’informazione statistica
Qualità dell’informazione statistica
- European Code-of-practice ( ECOP, Eurostat); UNECE Quality model; OECD, IMF
Che cosa monitorare?
Criteri di qualità sul produttore di Informazione statistica
1. Indipendenza professionale
2. Mandato istituzionale ed obbligo di risposta (per la statistica ufficiale)
3. Imparzialità ed obiettività
Criteri di qualità sulla produzione statistica
1. Affidabilità delle Procedure statistiche
2. Appropriato peso per i rispondenti
3. Costo /efficacia e (soddisfazione)
Criteri di qualità dell’informazione statistica (criteri sul prodotto)
1. Rilevanza dell’informazione statistica
2. Accuratezza delle stime
3. Tempestività della diffusione e chiarezza nella comunicazione
4. Riproducibilità delle elaborazioni statistiche e comparabilità dei risultati
5. Accessibilità dei dati
10. Indagine CUIS (Applicabilità dei principi di ECOP) (1/2)
Per le statistiche prodotte da privati i principi del European Code of Practice (ECOP)
sono pertinenti? Sono rilevanti?
PERTINENZA su: si no non risponde
Criteri di qualità sul produttore 60% 23% 17%
Criteri di qualità sulla produzione statistica 64% 25% 11%
Criteri di qualità sul prodotto 62% 22% 16%
RILEVANZA su:
Criteri di qualità sul produttore 50% 16% 34%
Criteri di qualità sulla produzione statistica 56% 14% 30%
Criteri di qualità sul prodotto 52% 15% 33%
Il principio meno pertinente e rilevante è «obbligatorietà della risposta» (44% e 31%)
Principio poco rilevante «Adeguatezza delle risorse» 39%
Principio poco rilevante «Tempestività e puntualità» 39%
11. Indagine CUIS (Applicabilità dei principi di ECOP) (2/2)
Pertinenza (per categoria di rispondenti)
Criteri di qualità sul produttore si no nr
Mas media 61% 25% 4%
Organi costituzionali e regioni 79% 14% 7%
Enti di ricerca 69% 24% 7%
Banche 64% 10% 26%
Imprese 72% 28% 0%
Organizzazioni civiche 37% 32% 31%
Criteri di qualità sulla produzione statistica si no nr
Mas media 67% 33% 0%
Organi costituzionali e regioni 91% 9% 0%
Enti di ricerca 70% 23% 7%
Banche 59% 14% 27%
Imprese 59% 21% 20%
Organizzazioni civiche 38% 46% 16%
Criteri di qualità sul prodotto si no nr
Mas media 69% 31% 0%
Organi costituzionali e regioni 87% 10% 3%
Enti di ricerca 67% 26% 7%
Banche 41% 16% 43%
Imprese 72% 16% 12%
Organizzazioni civiche 43% 52% 5%
12. Qualità nella produzione dell’informazione statistica
Catena di produzione informazione statistica Qualità Totale
controllo : ciclo feedback interno
Sviluppo Concettuale
Rischio
Produttore Efficacia - Efficienza
Appropriato Peso per Rispondenti
Collezione Dati
Accessibilità dati
Errore Campionario
Errore non campionario
Elaborazione Dati
Affidabilità procedure
Accuratezza delle stime
Comparabilità dei risultati
controllo esterno
Diffusione Soddisfazione utenza
Utente
ROI – Costo/efficacia
Customer /satisfaction
IT.WEB
Media - Comunicazione
13. Comunicare le statistiche: nuove sfide
Necessità di un grande evoluzione della statistica
- Nuovi strumenti per migliorare la comunicazione statistica
Strumenti di visualizzazione grafica delle informazioni statistiche
Strumenti di visualizzazione dinamica per evoluzione temporale e la diffusione spaziale
- Nuovi strumenti per l’estrazione di informazioni da dati destrutturati
Analisi testuali (sentiment analysis, opinion mining, natural language processing)
Es: Twitter sentiment analysis: scoprire opinioni positive o negative su prodotti/persone
Analisi degli stream di dati (Data stream) (computer network traffic, phone conversations,
web searches, sensor data)
- Nuovi strumenti per l’elaborazione di grandi dati (BIG DATA)
- Classificazione e statistical learning