SlideShare a Scribd company logo
1 of 16
LE PAROLE PER CAPIRE I NUMERI
I NUMERI PER CAPIRE IL MONDO
Taranto 2019
Tanto quanto?
Per i livelli essenziali di statistica nel territorio.
Giovanni A. Barbieri, Usci
Taranto, 4 luglio 2019
2
Sommario
 L’esperienza dell’Istat
 I numeri per capire il mondo: quantificare e misurare
 Le parole per capire i numeri: meta-informazione e
linguaggio della statistica
 Un esempio: disoccupati, occupati, inattivi
 Dalla parte degli utenti: tradurre tra diversi meta-linguaggi
 Rifuggire dall’eccesso di semplificazione
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
3
L’esperienza dell’Istat
 Rendere i servizi della statistica pubblica utili, rilevanti e
affidabili per tutti
 D.Lgs. 322/1989 «I dati elaborati nell’ambito delle rilevazioni
statistiche comprese nel programma statistico nazionale sono
patrimonio della collettività» (art. 10)
 Fundamental Principles of Official Statistics (1992-94, 2013-14)
 Statistics: a Matter of Trust (24 febbraio 1998)
 L’esperienza del Rapporto annuale (1994-2018)
 Rilevanza e fiducia sono in primo luogo nelle mani degli
utenti
 Ascoltare le esigenze e i bisogni degli utenti
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
4
I numeri per capire il mondo
 Dell’esistenza di quello che non si può misurare, o quanto
meno quantificare, conviene dubitare
 «Dico spesso che quando si può misurare ciò di cui si sta parlando, ed
esprimerlo in numeri, si sa qualcosa al riguardo; ma quando non si
può misurare, quando non si può esprimere in numeri, la conoscenza
è magra e insoddisfacente; può essere l’inizio della conoscenza, ma si
è raramente avanzati allo stadio della scienza, quale che sia la
materia» [Lord Kelvin, 1883]
 Quantificare: introdurre precisi elementi di valutazione quantitativa;
tradurre in termini di quantità, tradurre in cifre, in valori numerici
 Misurare: determinare la misura di una grandezza (lunghezza,
distanza, superficie, peso…), confrontandolo con uno standard
predefinito
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
5
L’importanza della meta-informazione, ovvero la
risposta alla domanda fondamentale sulla vita,
l’universo e tutto quanto
 «Quarantadue! – urlò Loonquawl – Questo è tutto ciò che sai dire dopo un
lavoro di sette milioni e mezzo di anni?»
 «Ho controllato molto approfonditamente – disse il computer – e questa è
sicuramente la risposta. A essere sinceri, penso che il problema sia che voi
non abbiate mai saputo veramente qual è la domanda.»
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
6
Le parole per capire i numeri
 Un numero non dà alcun contributo alla conoscenza, se non
sai che cosa questo numero significa: l’insieme delle sue
ramificazioni semantiche
 Le parole dunque – anche nella statistica – sono importanti
 «Chi parla male, pensa male e vive male. Bisogna trovare le parole
giuste: le parole sono importanti!» [Michele Apicella in Palombella
rossa di Nanni Moretti]
 Le parole della scienza
 Le parole della statistica
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
7
Il linguaggio della statistica
 Il linguaggio della statistica usa una strategia di
classificazione
 Classi esaustive, mutuamente esclusive e organizzate gerarchicamente
 È una strategia di digitalizzazione in senso lato
 Migliora il rapporto segnale/rumore
 Minimizza gli errori
 L’operazione di codifica ha comunque un costo, il costo
dell’astrazione
 Si astrae dalla complessità implicita nel grande numero di variabili e
attori del processo modellizzato, ma questo significa che c’è un livello
di dettaglio in cui le ipotesi assunte sono false
 «All models are wrong, but some are useful» [George Box]
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
8
Il paese con le percezioni più sbagliate
 Duffy, Bobby. The Perils of Perception: Why We’re Wrong
About Nearly Everything. London: Atlantic Books. 2018 [I
rischi della percezione: perché ci sbagliamo su quasi tutto.
Torino: Einaudi. 2019]
 «Su 100 persone in età lavorative quante, secondo lei, sono
disoccupate e cercano lavoro?»
 49 (invece all’epoca della rilevazione erano 12)
 Siamo, per questa domanda e per l’insieme delle domande della
rilevazione Ipsos-MORI (30 quesiti, 13 Paesi, 50.000 interviste) il
Paese con le percezioni più sbagliate,
 Ma sbagliate rispetto a che?
 Educare al linguaggio tecnico
 Mettersi dalla parte degli utenti
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
9
Educare al linguaggio tecnico
Come usa le parole la statistica:
disoccupati
 In Italia i disoccupati sono circa 2,5 milioni
 Ma chi sono i disoccupati? Sono disoccupati (o in cerca di
occupazione) le persone non occupate tra i 15 e i 74 anni che:
 hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane
che precedono la settimana di riferimento
 e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due
settimane successive
 oppure, inizieranno un lavoro entro tre mesi dalla settimana di riferimento
 e sarebbero disponibili a lavorare (o ad avviare un’attività autonoma) entro le due
settimane successive, qualora fosse possibile anticipare l’inizio del lavoro
 Come verifico la disponibilità a lavorare nelle due settimane
successive all'intervista?
 E poi, per individuare i disoccupati in questa accezione tecnica, ho
necessità di distinguerli dagli occupati, da una parte, e dagli inattivi,
cioè da coloro che non lavorano e non cercano lavoro, dall’altra
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
10
Educare al linguaggio tecnico
Come usa le parole la statistica:
occupati
 In prima battuta: gli occupati sono quelli che lavorano; gli inattivi sono quelli che non
lavorano e non intendono lavorare perché studenti, o pensionati, o impegnati in attività
domestiche (‘casalinghe’)
 Quante ore alla settimana occorre lavorare per essere statisticamente occupati? «almeno
un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in
natura»
 Scandalo? Non proprio, perché oltre alla durata media della settimana lavorativa (su oltre
23 milioni di occupati, la maggioranza relativa, il 36%, lavora 40 ore la settimana), ci
sono anche delle ‘code’ di occupati che lavorano molto di più o molto di meno: il 19%
dalle 41 ore in su, ma soltanto il 3% dieci ore o meno
Le parole per capire i numeri
I numeri per capire il mondo
3 17 26 36 19
- 10 20 30 40 50 60 70 80 90 100
1-10 ore 11-25 ore 26-39 ore 40 ore 41 ore o più
Giovanni A. Barbieri
Taranto, 4 luglio 2019
11
Educare al linguaggio tecnico
Come usa le parole la statistica:
inattivi
 Almeno questo non dovrebbe creare problemi, perché sono definiti
in modo residuale, come la parte delle popolazione che non lavora
(altrimenti sarebbero occupati) e non cerca un’occupazione
(altrimenti sarebbe disoccupati)
 Coerenza con le altre definizioni, complicata ma fruttuosa:
 non hanno cercato lavoro nelle ultime 4 settimane e non sono disponibili a
lavorare entro 2 settimane dall'intervista (per lo più di studenti, ritirati dal
lavoro e ‘casalinghe’)
 pur non avendo cercato un lavoro nelle ultime 4 settimane si sono
dichiarati disponibili a iniziare un lavoro entro 2 settimane
 hanno cercato un lavoro nelle ultime 4 settimane, ma non sono disponibili
a iniziare un lavoro entro 2 settimane
 Forze di lavoro potenziali
 Confine fluido
 La ricerca di lavoro ha un costo
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
12
Le statistiche tra scienza, credenza ed evidenza
Giovanni A. Barbieri – 27 ottobre 2018
13
Mettersi dalla parte degli utenti:
tradurre tra diversi meta-linguaggi
 Il problema è che gli utenti pongono domande alla statistica
utilizzando il linguaggio naturale
 Ma il linguaggio naturale non funziona come il linguaggio tecnico
 Wittgenstein (Ricerche filosofiche) affronta il problema della meta-
informazione parlando di «somiglianze di famiglia» (e di fibre e fili)
 Un problema di traduzione
 Da una parte abbiamo il linguaggio della statistica (classi esaustive,
mutuamente esclusive e organizzate gerarchicamente)
 Dall’altro il linguaggio naturale (somiglianze di famiglie e fibre intrecciate)
 Chi lo deve fare?
 Lo scarto tra linguaggio naturale e linguaggio tecnico è una componente
dello statistical burden
 L’onere della traduzione deve ricadere sull’Istat
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
14
Verso un motore di ricerca semantico:
le prospettive sono buone
 Topic modelling: scoprire strutture semantiche nascoste in un
corpus di testo
 Un esempio: “divari retributivi di genere” vs. “diseguaglianze salariali
uomo/donna”  associazioni, declinazioni e sinonimie
(divario/diseguaglianza/differenza, genere/maschio-femmina/uomo-
donna, retribuzione/salario/stipendio)
 Obiettivi:
 classificare i risultati della ricerca per rilevanza e dare suggerimenti sulle
informazioni correlate
 agevolare la traduzione dei termini della lingua corrente in termini specifici
dei metadati statistici (lavorando sui due corpus)
 Tecniche:
 LDA (Latent Dirichlet Allocation)
 Word2Vec
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
15
Rifuggire dall’eccesso di semplificazione
 La semplificazione non è priva di rischi
 Non parlo soltanto della semplificazione nei modelli (Einstein 1933:
«Models should be as simple as possible, but not simpler»)
 Parlo della semplificazione dei concetti che si spaccia per semplificazione
del linguaggio: non ci sono spiegazioni semplici di fenomeni complessi
 «nello studio della scienza tutto sta nel prendere su di sé la fatica del concetto (die
Anstrengung des Begriffs)» [Hegel, Fenomenologia dello spirito, I, p. 48]
 Chiedersi sempre: Quale contributo all’informazione statistica, alla
conoscenza e allo sviluppo della cultura e della coscienza civile dà
il testo con cui commento i dati? In che modo contribuisce a
rendere i servizi della statistica pubblica utili, rilevanti e affidabili
per tutti?
 Dedicare alla cura dei commenti e alla scelta delle parole la stessa
maniacale attenzione che dedichiamo al controllo dei dati!
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
Grazie!
Per domande e commenti:
gabarbieri@gmail.com

More Related Content

Similar to Le parole per capire i numeri, i numeri per capire il mondo

Conosciamo la statistica
Conosciamo la statisticaConosciamo la statistica
Conosciamo la statisticaLaura Franchini
 
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...Giovanni Barbieri
 
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...Istituto nazionale di statistica
 
Title_g1p_la_costruzione_degli_alberi.pdf
Title_g1p_la_costruzione_degli_alberi.pdfTitle_g1p_la_costruzione_degli_alberi.pdf
Title_g1p_la_costruzione_degli_alberi.pdfcrescendoestudiando
 
Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Flavia Giannoli
 
L’approccio educativo nella ricerca attiva del lavoro
L’approccio educativo nella ricerca attiva del lavoroL’approccio educativo nella ricerca attiva del lavoro
L’approccio educativo nella ricerca attiva del lavoroluciabaruffaldi
 
Osservatorio Siel La Be L
Osservatorio Siel La Be LOsservatorio Siel La Be L
Osservatorio Siel La Be LMarta.S
 
Lavoro, partecipazione e futuro: una indagine sui giovani in Lombardia
Lavoro, partecipazione e futuro: una indagine sui giovani in LombardiaLavoro, partecipazione e futuro: una indagine sui giovani in Lombardia
Lavoro, partecipazione e futuro: una indagine sui giovani in LombardiaAres 2.0 - aresduezero
 
L'ambiente di lavoro del futuro: un'analisi del coworking - Tesi
L'ambiente di lavoro del futuro: un'analisi del coworking - TesiL'ambiente di lavoro del futuro: un'analisi del coworking - Tesi
L'ambiente di lavoro del futuro: un'analisi del coworking - TesiGiulia S
 
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...Istituto nazionale di statistica
 
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e Invalsi
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e InvalsiM@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e Invalsi
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e InvalsiFlavia Giannoli
 
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionaleF. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionaleIstituto nazionale di statistica
 
La comunicazione politica
La comunicazione politica La comunicazione politica
La comunicazione politica Reti
 
La comunicazione politica
La comunicazione politicaLa comunicazione politica
La comunicazione politicaReti
 
Da Zenacamp: verso un processo alle tecnologie nella didattica
Da Zenacamp: verso un processo alle tecnologie nella didatticaDa Zenacamp: verso un processo alle tecnologie nella didattica
Da Zenacamp: verso un processo alle tecnologie nella didatticaGiovanni Marconato
 

Similar to Le parole per capire i numeri, i numeri per capire il mondo (20)

Conosciamo la statistica
Conosciamo la statisticaConosciamo la statistica
Conosciamo la statistica
 
M. Sisti, Statistica al servizio delle decisioni
M. Sisti, Statistica al servizio delle decisioni   M. Sisti, Statistica al servizio delle decisioni
M. Sisti, Statistica al servizio delle decisioni
 
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...
Giovanni A. Barbieri – La digitalizzazione, strategia per addomesticare l'inf...
 
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...
G.A. Barbieri, La digitalizzazione come strategia per addomesticare l’informa...
 
Title_g1p_la_costruzione_degli_alberi.pdf
Title_g1p_la_costruzione_degli_alberi.pdfTitle_g1p_la_costruzione_degli_alberi.pdf
Title_g1p_la_costruzione_degli_alberi.pdf
 
Imparare ad apprendere
Imparare ad apprendereImparare ad apprendere
Imparare ad apprendere
 
Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010Didattica della matematica 1 - 2010
Didattica della matematica 1 - 2010
 
Festa #Pnsd
Festa  #PnsdFesta  #Pnsd
Festa #Pnsd
 
Numeri razionali2
Numeri razionali2Numeri razionali2
Numeri razionali2
 
L’approccio educativo nella ricerca attiva del lavoro
L’approccio educativo nella ricerca attiva del lavoroL’approccio educativo nella ricerca attiva del lavoro
L’approccio educativo nella ricerca attiva del lavoro
 
Osservatorio Siel La Be L
Osservatorio Siel La Be LOsservatorio Siel La Be L
Osservatorio Siel La Be L
 
Lavoro, partecipazione e futuro: una indagine sui giovani in Lombardia
Lavoro, partecipazione e futuro: una indagine sui giovani in LombardiaLavoro, partecipazione e futuro: una indagine sui giovani in Lombardia
Lavoro, partecipazione e futuro: una indagine sui giovani in Lombardia
 
Festa #Pnsd
Festa #PnsdFesta #Pnsd
Festa #Pnsd
 
L'ambiente di lavoro del futuro: un'analisi del coworking - Tesi
L'ambiente di lavoro del futuro: un'analisi del coworking - TesiL'ambiente di lavoro del futuro: un'analisi del coworking - Tesi
L'ambiente di lavoro del futuro: un'analisi del coworking - Tesi
 
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...
L.Quattrociocchi, Direzione centrale per le statistiche sociali e il censimen...
 
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e Invalsi
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e InvalsiM@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e Invalsi
M@t.abel come risposta ai risultati in Italia delle prove Ocse-Pisa e Invalsi
 
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionaleF. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
 
La comunicazione politica
La comunicazione politica La comunicazione politica
La comunicazione politica
 
La comunicazione politica
La comunicazione politicaLa comunicazione politica
La comunicazione politica
 
Da Zenacamp: verso un processo alle tecnologie nella didattica
Da Zenacamp: verso un processo alle tecnologie nella didatticaDa Zenacamp: verso un processo alle tecnologie nella didattica
Da Zenacamp: verso un processo alle tecnologie nella didattica
 

More from Giovanni Barbieri

Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...Giovanni Barbieri
 
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...Giovanni Barbieri
 
Le statistiche tra scienza, credenza ed evidenza
Le statistiche tra scienza, credenza ed evidenzaLe statistiche tra scienza, credenza ed evidenza
Le statistiche tra scienza, credenza ed evidenzaGiovanni Barbieri
 
Statistics, Reality, Truth – Giovanni A. Barbieri
Statistics, Reality, Truth – Giovanni A. BarbieriStatistics, Reality, Truth – Giovanni A. Barbieri
Statistics, Reality, Truth – Giovanni A. BarbieriGiovanni Barbieri
 
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...Giovanni Barbieri
 
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018Giovanni Barbieri
 
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondo
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondoGiovanni A. Barbieri – Il fatto è la cosa più ostinata del mondo
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondoGiovanni Barbieri
 
LMAs as Urban Areas: an Alternative to Italy's città metropolitane
LMAs as Urban Areas: an Alternative to Italy's città metropolitaneLMAs as Urban Areas: an Alternative to Italy's città metropolitane
LMAs as Urban Areas: an Alternative to Italy's città metropolitaneGiovanni Barbieri
 
Verso un sistema integrato di indicatori per le politiche locali
Verso un sistema integrato di indicatori per le politiche localiVerso un sistema integrato di indicatori per le politiche locali
Verso un sistema integrato di indicatori per le politiche localiGiovanni Barbieri
 
Dealing with Open Data in Istat
Dealing with Open Data in IstatDealing with Open Data in Istat
Dealing with Open Data in IstatGiovanni Barbieri
 
Barbieri De Francisci_Dealing with Open Data at ISTAT
Barbieri De Francisci_Dealing with Open Data at ISTATBarbieri De Francisci_Dealing with Open Data at ISTAT
Barbieri De Francisci_Dealing with Open Data at ISTATGiovanni Barbieri
 
La domanda d’informazione statistica integrata: nuovi usi e nuovi utenti
La domanda d’informazione statistica integrata: nuovi usi e nuovi utentiLa domanda d’informazione statistica integrata: nuovi usi e nuovi utenti
La domanda d’informazione statistica integrata: nuovi usi e nuovi utentiGiovanni Barbieri
 
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...Giovanni Barbieri
 
Istat, dal Rapporto annuale alle dimensioni locali
Istat, dal Rapporto annuale alle dimensioni localiIstat, dal Rapporto annuale alle dimensioni locali
Istat, dal Rapporto annuale alle dimensioni localiGiovanni Barbieri
 
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016Giovanni Barbieri
 
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...Giovanni Barbieri
 
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...Giovanni Barbieri
 
Barbieri & Ferrara Scorus2016
Barbieri & Ferrara Scorus2016Barbieri & Ferrara Scorus2016
Barbieri & Ferrara Scorus2016Giovanni Barbieri
 
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. BarbieriGiovanni Barbieri
 
2015.11.20 Barbieri Structural Business Statistics
2015.11.20 Barbieri Structural Business Statistics2015.11.20 Barbieri Structural Business Statistics
2015.11.20 Barbieri Structural Business StatisticsGiovanni Barbieri
 

More from Giovanni Barbieri (20)

Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
Giovanni A. Barbieri – Navigare fra le fonti statistiche per l'economia appli...
 
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...
Il Rapporto annuale dell'Istat. Dall'analisi dei soggetti a quella delle rela...
 
Le statistiche tra scienza, credenza ed evidenza
Le statistiche tra scienza, credenza ed evidenzaLe statistiche tra scienza, credenza ed evidenza
Le statistiche tra scienza, credenza ed evidenza
 
Statistics, Reality, Truth – Giovanni A. Barbieri
Statistics, Reality, Truth – Giovanni A. BarbieriStatistics, Reality, Truth – Giovanni A. Barbieri
Statistics, Reality, Truth – Giovanni A. Barbieri
 
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...
Giovanni A. Barbieri. Istat's Annual Report: Experimental Classification and ...
 
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018
G. A. Barbieri, Presentazione del Rapporto sulla conoscenza, 22 febbraio 2018
 
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondo
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondoGiovanni A. Barbieri – Il fatto è la cosa più ostinata del mondo
Giovanni A. Barbieri – Il fatto è la cosa più ostinata del mondo
 
LMAs as Urban Areas: an Alternative to Italy's città metropolitane
LMAs as Urban Areas: an Alternative to Italy's città metropolitaneLMAs as Urban Areas: an Alternative to Italy's città metropolitane
LMAs as Urban Areas: an Alternative to Italy's città metropolitane
 
Verso un sistema integrato di indicatori per le politiche locali
Verso un sistema integrato di indicatori per le politiche localiVerso un sistema integrato di indicatori per le politiche locali
Verso un sistema integrato di indicatori per le politiche locali
 
Dealing with Open Data in Istat
Dealing with Open Data in IstatDealing with Open Data in Istat
Dealing with Open Data in Istat
 
Barbieri De Francisci_Dealing with Open Data at ISTAT
Barbieri De Francisci_Dealing with Open Data at ISTATBarbieri De Francisci_Dealing with Open Data at ISTAT
Barbieri De Francisci_Dealing with Open Data at ISTAT
 
La domanda d’informazione statistica integrata: nuovi usi e nuovi utenti
La domanda d’informazione statistica integrata: nuovi usi e nuovi utentiLa domanda d’informazione statistica integrata: nuovi usi e nuovi utenti
La domanda d’informazione statistica integrata: nuovi usi e nuovi utenti
 
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...
Scuola e mercato del lavoro: una prospettiva storica, di Giovanni A. Barbieri...
 
Istat, dal Rapporto annuale alle dimensioni locali
Istat, dal Rapporto annuale alle dimensioni localiIstat, dal Rapporto annuale alle dimensioni locali
Istat, dal Rapporto annuale alle dimensioni locali
 
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016
Disparità territoriali e politiche di coesione: il ruolo dell'Istat 1926-2016
 
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...
La stima del valore aggiunto a livello territoriale: nuovi sviluppi (G. A. Ba...
 
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...
Relazioni tra imprese in Italia: un modello interpretativo (A. Righi, E. Pavo...
 
Barbieri & Ferrara Scorus2016
Barbieri & Ferrara Scorus2016Barbieri & Ferrara Scorus2016
Barbieri & Ferrara Scorus2016
 
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri
2015.12.21 L'uso di internet da parte delle imprese Giovanni A. Barbieri
 
2015.11.20 Barbieri Structural Business Statistics
2015.11.20 Barbieri Structural Business Statistics2015.11.20 Barbieri Structural Business Statistics
2015.11.20 Barbieri Structural Business Statistics
 

Le parole per capire i numeri, i numeri per capire il mondo

  • 1. LE PAROLE PER CAPIRE I NUMERI I NUMERI PER CAPIRE IL MONDO Taranto 2019 Tanto quanto? Per i livelli essenziali di statistica nel territorio. Giovanni A. Barbieri, Usci Taranto, 4 luglio 2019
  • 2. 2 Sommario  L’esperienza dell’Istat  I numeri per capire il mondo: quantificare e misurare  Le parole per capire i numeri: meta-informazione e linguaggio della statistica  Un esempio: disoccupati, occupati, inattivi  Dalla parte degli utenti: tradurre tra diversi meta-linguaggi  Rifuggire dall’eccesso di semplificazione Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 3. 3 L’esperienza dell’Istat  Rendere i servizi della statistica pubblica utili, rilevanti e affidabili per tutti  D.Lgs. 322/1989 «I dati elaborati nell’ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività» (art. 10)  Fundamental Principles of Official Statistics (1992-94, 2013-14)  Statistics: a Matter of Trust (24 febbraio 1998)  L’esperienza del Rapporto annuale (1994-2018)  Rilevanza e fiducia sono in primo luogo nelle mani degli utenti  Ascoltare le esigenze e i bisogni degli utenti Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 4. 4 I numeri per capire il mondo  Dell’esistenza di quello che non si può misurare, o quanto meno quantificare, conviene dubitare  «Dico spesso che quando si può misurare ciò di cui si sta parlando, ed esprimerlo in numeri, si sa qualcosa al riguardo; ma quando non si può misurare, quando non si può esprimere in numeri, la conoscenza è magra e insoddisfacente; può essere l’inizio della conoscenza, ma si è raramente avanzati allo stadio della scienza, quale che sia la materia» [Lord Kelvin, 1883]  Quantificare: introdurre precisi elementi di valutazione quantitativa; tradurre in termini di quantità, tradurre in cifre, in valori numerici  Misurare: determinare la misura di una grandezza (lunghezza, distanza, superficie, peso…), confrontandolo con uno standard predefinito Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 5. 5 L’importanza della meta-informazione, ovvero la risposta alla domanda fondamentale sulla vita, l’universo e tutto quanto  «Quarantadue! – urlò Loonquawl – Questo è tutto ciò che sai dire dopo un lavoro di sette milioni e mezzo di anni?»  «Ho controllato molto approfonditamente – disse il computer – e questa è sicuramente la risposta. A essere sinceri, penso che il problema sia che voi non abbiate mai saputo veramente qual è la domanda.» Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 6. 6 Le parole per capire i numeri  Un numero non dà alcun contributo alla conoscenza, se non sai che cosa questo numero significa: l’insieme delle sue ramificazioni semantiche  Le parole dunque – anche nella statistica – sono importanti  «Chi parla male, pensa male e vive male. Bisogna trovare le parole giuste: le parole sono importanti!» [Michele Apicella in Palombella rossa di Nanni Moretti]  Le parole della scienza  Le parole della statistica Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 7. 7 Il linguaggio della statistica  Il linguaggio della statistica usa una strategia di classificazione  Classi esaustive, mutuamente esclusive e organizzate gerarchicamente  È una strategia di digitalizzazione in senso lato  Migliora il rapporto segnale/rumore  Minimizza gli errori  L’operazione di codifica ha comunque un costo, il costo dell’astrazione  Si astrae dalla complessità implicita nel grande numero di variabili e attori del processo modellizzato, ma questo significa che c’è un livello di dettaglio in cui le ipotesi assunte sono false  «All models are wrong, but some are useful» [George Box] Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 8. 8 Il paese con le percezioni più sbagliate  Duffy, Bobby. The Perils of Perception: Why We’re Wrong About Nearly Everything. London: Atlantic Books. 2018 [I rischi della percezione: perché ci sbagliamo su quasi tutto. Torino: Einaudi. 2019]  «Su 100 persone in età lavorative quante, secondo lei, sono disoccupate e cercano lavoro?»  49 (invece all’epoca della rilevazione erano 12)  Siamo, per questa domanda e per l’insieme delle domande della rilevazione Ipsos-MORI (30 quesiti, 13 Paesi, 50.000 interviste) il Paese con le percezioni più sbagliate,  Ma sbagliate rispetto a che?  Educare al linguaggio tecnico  Mettersi dalla parte degli utenti Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 9. 9 Educare al linguaggio tecnico Come usa le parole la statistica: disoccupati  In Italia i disoccupati sono circa 2,5 milioni  Ma chi sono i disoccupati? Sono disoccupati (o in cerca di occupazione) le persone non occupate tra i 15 e i 74 anni che:  hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane che precedono la settimana di riferimento  e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive  oppure, inizieranno un lavoro entro tre mesi dalla settimana di riferimento  e sarebbero disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive, qualora fosse possibile anticipare l’inizio del lavoro  Come verifico la disponibilità a lavorare nelle due settimane successive all'intervista?  E poi, per individuare i disoccupati in questa accezione tecnica, ho necessità di distinguerli dagli occupati, da una parte, e dagli inattivi, cioè da coloro che non lavorano e non cercano lavoro, dall’altra Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 10. 10 Educare al linguaggio tecnico Come usa le parole la statistica: occupati  In prima battuta: gli occupati sono quelli che lavorano; gli inattivi sono quelli che non lavorano e non intendono lavorare perché studenti, o pensionati, o impegnati in attività domestiche (‘casalinghe’)  Quante ore alla settimana occorre lavorare per essere statisticamente occupati? «almeno un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in natura»  Scandalo? Non proprio, perché oltre alla durata media della settimana lavorativa (su oltre 23 milioni di occupati, la maggioranza relativa, il 36%, lavora 40 ore la settimana), ci sono anche delle ‘code’ di occupati che lavorano molto di più o molto di meno: il 19% dalle 41 ore in su, ma soltanto il 3% dieci ore o meno Le parole per capire i numeri I numeri per capire il mondo 3 17 26 36 19 - 10 20 30 40 50 60 70 80 90 100 1-10 ore 11-25 ore 26-39 ore 40 ore 41 ore o più Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 11. 11 Educare al linguaggio tecnico Come usa le parole la statistica: inattivi  Almeno questo non dovrebbe creare problemi, perché sono definiti in modo residuale, come la parte delle popolazione che non lavora (altrimenti sarebbero occupati) e non cerca un’occupazione (altrimenti sarebbe disoccupati)  Coerenza con le altre definizioni, complicata ma fruttuosa:  non hanno cercato lavoro nelle ultime 4 settimane e non sono disponibili a lavorare entro 2 settimane dall'intervista (per lo più di studenti, ritirati dal lavoro e ‘casalinghe’)  pur non avendo cercato un lavoro nelle ultime 4 settimane si sono dichiarati disponibili a iniziare un lavoro entro 2 settimane  hanno cercato un lavoro nelle ultime 4 settimane, ma non sono disponibili a iniziare un lavoro entro 2 settimane  Forze di lavoro potenziali  Confine fluido  La ricerca di lavoro ha un costo Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 12. 12 Le statistiche tra scienza, credenza ed evidenza Giovanni A. Barbieri – 27 ottobre 2018
  • 13. 13 Mettersi dalla parte degli utenti: tradurre tra diversi meta-linguaggi  Il problema è che gli utenti pongono domande alla statistica utilizzando il linguaggio naturale  Ma il linguaggio naturale non funziona come il linguaggio tecnico  Wittgenstein (Ricerche filosofiche) affronta il problema della meta- informazione parlando di «somiglianze di famiglia» (e di fibre e fili)  Un problema di traduzione  Da una parte abbiamo il linguaggio della statistica (classi esaustive, mutuamente esclusive e organizzate gerarchicamente)  Dall’altro il linguaggio naturale (somiglianze di famiglie e fibre intrecciate)  Chi lo deve fare?  Lo scarto tra linguaggio naturale e linguaggio tecnico è una componente dello statistical burden  L’onere della traduzione deve ricadere sull’Istat Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 14. 14 Verso un motore di ricerca semantico: le prospettive sono buone  Topic modelling: scoprire strutture semantiche nascoste in un corpus di testo  Un esempio: “divari retributivi di genere” vs. “diseguaglianze salariali uomo/donna”  associazioni, declinazioni e sinonimie (divario/diseguaglianza/differenza, genere/maschio-femmina/uomo- donna, retribuzione/salario/stipendio)  Obiettivi:  classificare i risultati della ricerca per rilevanza e dare suggerimenti sulle informazioni correlate  agevolare la traduzione dei termini della lingua corrente in termini specifici dei metadati statistici (lavorando sui due corpus)  Tecniche:  LDA (Latent Dirichlet Allocation)  Word2Vec Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 15. 15 Rifuggire dall’eccesso di semplificazione  La semplificazione non è priva di rischi  Non parlo soltanto della semplificazione nei modelli (Einstein 1933: «Models should be as simple as possible, but not simpler»)  Parlo della semplificazione dei concetti che si spaccia per semplificazione del linguaggio: non ci sono spiegazioni semplici di fenomeni complessi  «nello studio della scienza tutto sta nel prendere su di sé la fatica del concetto (die Anstrengung des Begriffs)» [Hegel, Fenomenologia dello spirito, I, p. 48]  Chiedersi sempre: Quale contributo all’informazione statistica, alla conoscenza e allo sviluppo della cultura e della coscienza civile dà il testo con cui commento i dati? In che modo contribuisce a rendere i servizi della statistica pubblica utili, rilevanti e affidabili per tutti?  Dedicare alla cura dei commenti e alla scelta delle parole la stessa maniacale attenzione che dedichiamo al controllo dei dati! Le parole per capire i numeri I numeri per capire il mondo Giovanni A. Barbieri Taranto, 4 luglio 2019
  • 16. Grazie! Per domande e commenti: gabarbieri@gmail.com

Editor's Notes

  1. Uno spunto di quasi un anno fa Il tema resta la cultura statistica, anche se per me molto è cambiato  Ci ho dedicato quasi 20 anni I numeri per capire il mondo. Quasi scontato. Lord Kelvin. Quantificare e misurare. Misurazione essenziale per i confronti nello spazio e nel tempo, purché effettuata in modo coerente.  Le parole allora.  Necessità di creare contenitori ben distinti. È una strategia comune: digitalizzazione. Linguaggio parlato e scritto.  L'esempio dell'occupazione.  Eppure non ci lascia soddisfatti. Per due motivi. Uno. Il linguaggio naturale non funziona così. Wittgenstein. Necessità di stabilire una comunicazione, una traduzione tra i due linguaggi. Verso un motore di ricerca semantico.  Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.
  2. Quando ho cominciato a lavorare all'Istat, 25 anni fa, ho avuto chiaro quasi subito che avevo un obiettivo (all'epoca non era ancora di moda dire mission e vision): quello di rendere i servizi della statistica pubblica utili, rilevanti e affidabili per tutti. Avevo lavorato per quasi 20 anni come economista applicato, quindi come utente, e come tutti gli utenti ero scandalizzato di quanto fosse frustrante usare i dati dell'Istat. Come fosse difficile districarsi tra le pubblicazioni (allora per lo più cartacee, con i numeri da copiare o da far copiare – i calcolatori), le diverse definizioni, le rotture di serie, il dettaglio territoriale o settoriale insufficiente. Mi sembrava mio dovere, una volta passato sull'altra sponda, correggere questa situazione.  Mi ha molto aiutato, su questa strada, il fatto che subito il presidente Zuliani mi abbia affidato la responsabilità del Rapporto annuale (insieme a Valerio Terra Abrami): era alla sua terza edizione... Mi ha anche molto confortato che la legge di riforma della statistica pubblica del 1989, e i principi della statistica ufficiale di quello stesso 1994, proponessero quegli stessi valori come fondanti: l'indipendenza dal potere politico, il riferimento ai cittadini, l'eguaglianza di trattamento degli utenti, i principi di qualità, la rilevanza come criterio discriminante dell'interesse pubblico della produzione statistica... All'inizio del 1998, poi, usci il Libro Verde per il rilancio della statistica pubblica nel Regno Unito, dopo il disastro thatcheriano, che si intitolava orgogliosamente: Statistics, a Matter of Trust. Ho poi capito che quelli che mi sembravano i più importanti di quei valori – la rilevanza e la fiducia – non erano immediatamente tra le leve che la statistica pubblica poteva azionare direttamente, perché entrambi erano in primo luogo nelle mani degli utenti: sono gli utenti a scegliere quali statistiche sono rilevanti per i loro processi di decisione e di valutazione; e sono sempre loro a stabilire in che misura fidarsi delle informazioni statistiche loro fornite. Certo, esistono accorgimenti indiretti per garantire rilevanza e fiducia: sono un esempio dei primi le procedure per la formazione del PSN, dai circoli di qualità al coinvolgimento del parlamento; ed esempi dei secondi i meccanismi di quality charter e di peer review messi in atto dalla comunità statistica europea e internazionale e le buone pratiche sui rilasci (dal calendario ai briefing alla simultaneità della pubblicazione). Ma sono comunque appunto, in fin dei conti, accorgimenti indiretti, che non possono far passare in secondo piano la via diretta: quella dell'ascolto delle esigenze e dei bisogni degli utenti stessi. Anche perché gli utenti – lo dico come corollario al discorso fatto finora, ma è tutt'altro che scontato – sono tutti i cittadini, senza privilegi di sorta (anche se può essere utile "segmentarli" in individui, imprese, istituzioni pubbliche, organi costituzionali, gruppi d'interesse, università ed enti di ricerca, ...): "I dati elaborati nell'ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività" (art. 10 D. Lgs. 322/1989).
  3. Il tema è chiaramente molto vasto, troppo per parlarne compiutamente oggi, anche se nella mia attività all'Istat mi sono occupato di molti degli aspetti rilevanti, dalla Carta dei servizi, alla rilevazione delle esigenze degli utenti (non solo attraverso quella che poi è diventata la CUIS). Mi concentro su un tema solo, quello del linguaggio, cioè delle parole per capire i numeri. Mi servono due premesse, che ritengo essenziali al discorso che intendo sviluppare. La prima è che l'informazione statistica è essenzialmente quantitativa. E quando dico essenzialmente non intendo dire principalmente, ma proprio essenzialmente: senza l'aspetto quantitativo non è informazione statistica. Do per scontato che tutti abbiamo ben presente la differenza tra quantificazione e misurazione (se qualcuno avesse dei dubbi ne discuto volentieri nelle pause caffè o andando insieme a cena). Possiamo discutere se ci possa essere scienza senza quantificazione: Lord Kelvin (1883) pensava di no, e lo penso anch'io. Possiamo anche discutere se ci possa essere informazione statistica senza misurazione: io penso di no, perché la misurazione è essenziale per i confronti nello spazio e nel tempo, purché sia effettuata in modo coerente. Del resto, quando l'Istat pubblicava soprattutto libri e volumi pieni di numeri aveva ben presenti questi aspetti. Semmai, come vedremo, è quando si sono aggiunte le parole che è emersa qualche sbavatura.
  4. La seconda è che i numeri senza parole sono privi di significato. È il tema della meta-informazione. C'è un apologo raccontato nella Guida galattica per gli autostoppisti, una serie di romanzi di fantascienza umoristica di Douglas Adams, che illustra bene il punto. Un gruppo di scienziati, appartenenti a una razza di esseri super-intelligenti , costruisce Pensiero Profondo, il più grande computer di tutti i tempi e di tutti gli spazi, per ottenere la risposta alla "Domanda Fondamentale sulla Vita, sull'Universo e Tutto quanto". Dopo un'elaborazione durata sette milioni e mezzo di anni, il computer fornisce come responso unicamente «42», lasciando smarriti e sbigottiti i committenti dell'impresa.
  5. Un numero non dà alcun contributo alla conoscenza, se non sai che cosa questo numero significa: l’insieme delle sue ramificazioni semantiche. Come dice Michele Apicella in Palombella rossa di Nanni Moretti, le parole sono importanti: «Chi parla male, pensa male e vive male. Bisogna trovare le parole giuste: le parole sono importanti!». Ma quali sono le parole giuste? Ci sono le parole della scienza: un discorso importante, che però ci porterebbe lontano. Mi limito a dire qui che ci sono parole "minate", il cui uso non va preso sottogamba: mostrare vs. dimostrare, evidenza vs. prova, falsificare vs. verificare, e così via. Poi ci sono le parole proprie del linguaggio statistico, che è un linguaggio tecnico.
  6. Il linguaggio della statistica usa una strategia di classificazione: costruisce contenitori che corrispondono in genere a classi mutuamente esclusive e organizzate gerarchicamente. Ve lo ricorderete dalle prime lezioni di statistica descrittiva all'università: mutabili e variabili, caratteri qualitativi sconnessi/ordinati (scala nominale/ordinale), scale a intervalli/di rapporti, insieme discreti e continui, e così via. È una strategia antica e universalmente usata: è una strategia di digitalizzazione in senso lato, antica come il linguaggio parlato e scritto. È molto efficace perché permette di migliorare il rapporto segnale/rumore e di minimizzare gli errori. Ne ho scritto su un articolo che non vi infliggerò oggi. Ma è importante sottolineare oggi che questa operazione non è priva di costi. La teoria dell’informazione di Shannon ci consente di affermare che l’informazione semantica è sostanzialmente indipendente dal suo supporto, dal mezzo che la codifica e dalla codifica stessa: si tratti dei fonemi, delle lettere dell’alfabeto o dei bit. Solo sostanzialmente, però, perché l’operazione di codifica ha comunque un costo, il costo dell’astrazione. L’operazione di codifica dell’informazione è infatti un processo di modellizzazione, basato sull'astrazione e la semplificazione: si astrae dalla complessità implicita nel grande numero di variabili e attori del processo modellizzato, ma questo significa che c'è un livello di dettaglio in cui le ipotesi assunte sono false. «All models are wrong, but some are useful».
  7. Perché questo modo di procedere è un problema per gli utenti? Evidentemente sì, se siamo il paese con le percezioni più sbagliate. «Su 100 persone in età lavorative quante, secondo lei, sono disoccupate e cercano lavoro?» 49 (invece all’epoca della rilevazione erano 12). Siamo, per questa domanda e per l’insieme delle domande della rilevazione Ipsos-MORI (30 quesiti, 13 Paesi, 50.000 interviste) il Paese con le percezioni più sbagliate [Duffy, Bobby. The Perils of Perception: Why We’re Wrong About Nearly Everything. London: Atlantic Books. 2018].
  8. Quando leggiamo che in Italia i disoccupati sono 2.522.000 (dato mensile di agosto 2018 - l'ultimo disponibile dal momento che il dato di settembre sarà pubblicato il 31 ottobre - https://www.istat.it/it/files//2018/10/CS_Occupati-e-disoccupati_AGOSTO_2018.pdf), che cosa ci dice questo numero? Come minimo, dobbiamo conoscere la definizione di "disoccupato". Su questo ci viene incontro il glossario allegato al comunicato dell'Istat: "Disoccupati (o in cerca di occupazione): comprendono le persone non occupate tra i 15 e i 74 anni che: hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane che precedono la settimana di riferimento  e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive; oppure, inizieranno un lavoro entro tre mesi dalla settimana di riferimento e sarebbero disponibili a lavorare (o ad avviare  un’attività autonoma) entro le due settimane successive, qualora fosse possibile anticipare l’inizio del lavoro." E però - prima considerazione - c'è uno scarto tra quello che immediatamente ci viene in mente quando pensiamo a un disoccupato e un significato tecnico pieno di specificazioni. Il significato corrente, come testimoniato dal Vocabolario Treccani online (http://www.treccani.it/vocabolario/disoccupato/) è quello di persona, non occupata in un lavoro, libera da occupazioni (non so stare disoccupato, senza far nulla; ha sempre qualcosa da fare e le capita di rado di essere disoccupata); e, in senso un po' più tecnico, chi "non ha o non trova un’occupazione; in senso ristretto, chi è stato privato della sua abituale occupazione (e del reddito relativo) ed è quindi in cerca di un’altra (distinto perciò da inoccupato)". Un'accezione, questa seconda, certo più vicina a quella dell'Istat, ma comunque distante, distinta da quella da una serie di puntualizzazioni: persone tra i 15 e i 74 anni, che hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane e sono disponibili a lavorare entro le due settimane successive oppure inizieranno un lavoro entro tre mesi (e sono disponibili a lavorare...). E abbiamo appena scalfito la superficie del concetto: quali sono le azioni attive di ricerca del lavoro? [Ha avuto contatti con un Centro pubblico per l’impiego (ex Ufficio di collocamento) per cercare lavoro; Ha sostenuto un colloquio di lavoro, una selezione presso privati; Ha sostenuto prove scritte e/o orali di un concorso pubblico; Ha inviato una domanda per partecipare ad un concorso pubblico; Ha esaminato offerte di lavoro sui giornali; Ha messo inserzioni sui giornali o ha risposto ad annunci; Ha fatto domande di lavoro e/o inviato (o consegnato) curriculum a privati; Si è rivolto a parenti, amici, conoscenti, sindacati; Ha cercato lavoro su Internet; Ha avuto contatti con una agenzia interinale o con una struttura di intermediazione diversa da un Centro pubblico per l’impiego per cercare lavoro; Ha cercato terreni, locali, attrezzature per avviare una attività autonoma; Ha chiesto permessi, licenze, finanziamenti per avviare una attività autonoma – http://siqual.istat.it/SIQual/files/Questionario_RCFL_2017_trim2_IT.pdf?ind=5000098&cod=5197&progr=1&tipo=4]. Come verifico la disponibilità a lavorare nelle due settimane successive all'intervista? E poi, per individuare i disoccupati in questa accezione tecnica, ho necessità di distinguerli dagli occupati, da una parte, e dagli inattivi - cioè da coloro che non lavorano e non cercano lavoro, dall'altra.
  9. Anche qui una risposta approssimata, tagliata con l'accetta, è sufficientemente agevole: gli occupati sono quelli che lavorano; gli inattivi sono quelli che non lavorano e non intendono lavorare perché studenti, o pensionati, o impegnati in attività domestiche ("casalinghe"). Va bene: ma quante ore alla settimana occorre lavorare per essere statisticamente occupati? "almeno un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in natura" nella settimana di riferimento, dice l'Istat (sempre nel Glossario che accompagna il comunicato-stampa)? Come, un'ora alla settimana, dicono l'uomo della strada (e qualche giornalista), scandalo! Non proprio, perché oltre alla durata media della settimana lavorativa (sugli oltre 23 milioni di occupati del 2017, la maggioranza relativa, il 36%, lavora 40 ore la settimana), ci sono anche delle "code" di occupati che lavorano molto di più o molto di meno: il 19% dalle 41 ore in su, ma soltanto il 3% dieci ore o meno [http://dati.istat.it/Index.aspx?QueryId=1625]. Per questo è necessario definire un limite inferiore. 
  10. E gli inattivi (l'Istat li definisce così, e non me ne vogliano le persone che svolgono attività non retribuite, in casa o fuori)? Poiché sono definiti in modo residuale, come quella parte delle popolazione che non lavora (altrimenti sarebbero occupati) e non cerca un'occupazione (altrimenti sarebbe disoccupati), almeno questa definizione non dovrebbe creare problemi. Ma poiché le definizioni tecniche di disoccupato e di occupato - come abbiamo appena visto - sono puntigliosamente dettagliate, anche quella di inattivo deve essere coerente con quelle, e fare dunque riferimento alle settimane precedenti e successive al periodo di riferimento. Ecco che allora la definizione tecnica di inattivo si complica, ma si complica fruttuosamente, perché permette di distinguere all'interno di questo aggregato posizione piuttosto diverse: coloro che non hanno cercato lavoro nelle ultime quattro settimane e non sono disponibili a lavorare entro due settimane dall'intervista (si tratta per lo più di studenti e persone ritirate dal lavoro - ricordiamoci che occupati e disoccupati sono di età compresa tra i 15 e i 74 anni, mentre gli inattivi sono definiti come complemento rispetto al totale della popolazione, ragion per cui le persone più giovani o più anziane sono per definizione inattive - e quelle persone che nel linguaggio corrente chiamiamo casalinghe); coloro che pur non avendo cercato un lavoro nelle ultime quattro settimane si sono dichiarati disponibili a iniziare un lavoro entro due settimane dall’intervista; coloro che hanno cercato un lavoro nelle ultime quattro settimane, ma che non sono disponibili a iniziare un lavoro entro due settimane dall’intervista [https://www.istat.it/it/metodi-e-strumenti/glossario, ad vocem]. Mentre il primo gruppo di persone corrisponde con una buona approssimazione all'idea che associamo al termine "inattivo" - chi per età o per scelta (spesso non del tutto libera)  si colloca più o meno stabilmente al di fuori del "mercato del lavoro" -, gli altri due rimandano a situazioni molto più fluide, in cui la ricerca di un'occupazione non è perseguita attivamente o è rinviata nel tempo (mancano i requisiti della ricerca nelle 4 settimane precedenti o la disponibilità nelle due successive) ma non esclusa. è una "zona grigia", che l'Istat definisce "forze di lavoro potenziali". Non è soltanto il frutto con la pignoleria che tutti siamo abituati ad associare alla categoria professionale degli statistici. è anche un arricchimento delle potenzialità di analisi dei comportamenti, perché il confine tra disoccupati e inattivi della zona grigia è un confine permeabile. Ad esempio, in un periodo di crisi, in cui le occasioni di lavoro scarseggiano, i disoccupati dubitano della possibilità di trovare un'occupazione e smettono di ricercarla attivamente. Anche perché, se ci riflettete un momento, la ricerca attiva ha un costo economico, non solo in termini di tempo e di sforzo (effort). è il fenomeno dello scoraggiamento, che può condurre a una diminuzione del numero dei disoccupati e a un aumento di quello degli inattivi. Per contro, quando le prospettive del mercato del lavoro migliorano, si può assistere a un temporaneo aumento del numero di disoccupati, perché una parte degli "scoraggiati" intraprendono nuovamente azioni di ricerca attiva. A margine di queste riflessioni, vi segnalo un articolo del linguista e lessicografo Silverio Novelli che ho trovato sul portale Treccani documentandomi per questa conferenza: lo trovate qui: http://www.treccani.it/magazine/lingua_italiana/articoli/parole/inattivo.html
  11. Il problema è che gli utenti pongono domande alla statistica utilizzando il linguaggio naturale. E il linguaggio naturale non funziona come il linguaggio tecnico. Ludwig Wittgenstein – che nella prima fase del suo pensiero, quella del Tractatus logico-philosophicus, aveva cercato di fondare scientificamente il legame tra mondo dei fatti e linguaggio (3. Das logische Bild der Tatsachen ist der Gedanke, L'immagine logica dei fatti è il pensiero) – nella maturità, in un passo celeberrimo, afferma che la meta-informazione non è fondata su classificazioni rigorose, ma solo su somiglianze di famiglia. § 65. Mi si potrebbe obiettare: «Te la fai facile! Parli di ogni sorta di giochi linguistici, ma non hai ancora detto che cosa sia l’essenziale del gioco linguistico, e quindi del linguaggio; che cosa sia comune a tutti questi processi, e ne faccia un linguaggio o parte di un linguaggio. Così ti esoneri proprio da quella parte della ricerca che a suo tempo ti ha dato i maggiori grattacapi: cioè quella riguardante la forma generale della proposizione e del linguaggio». E questo è vero. – Invece di mostrare quello che è comune a tutto ciò che chiamiamo linguaggio, io dico che questi fenomeni non hanno affatto in comune qualcosa, in base al quale impieghiamo per tutti la stessa parola, – ma che sono imparentati l’uno con l’altro in molti modi differenti. E grazie a questa parentela, o a queste parentele, li chiamiamo tutti «linguaggi». Voglio tentare di chiarire questo punto. § 66. Considera, ad esempio, i processi che chiamiamo «giochi». Intendo giochi da scacchiera, giochi di carte, giochi di palla, gare sportive, e via discorrendo. Cosa è comune a tutti questi giochi? – Non dire: «Deve esserci qualcosa di comune a tutti altrimenti non si chiamerebbero “giochi”» – ma guarda se ci sia qualcosa di comune a tutti. – Infatti, se li osservi, non vedrai certamente qualche cosa che sia comune a tutti, ma vedrai somiglianze, parentele, e anzi ne vedrai tutta una serie. Come ho detto: non pensare, ma osserva! – Osserva, ad esempio, i giochi da scacchiera, con le loro molteplici affinità. Ora passa ai giochi di carte; qui trovi molte corrispondenze con quelli della prima classe, ma molti tratti comuni sono scomparsi, altri sono subentrati. Se passiamo ora ai giochi di palla, qualcosa in comune si è conservato, ma molto è andato perduto. Sono tutti «divertenti»? Confronta il gioco degli scacchi con quello della tria. Oppure c’è dappertutto un perdere e un vincere, o una competizione tra i giocatori? Pensa allora ai solitari. Nei giochi con la palla c’è vincere e perdere; ma quando un bambino getta la palla contro un muro e la riacchiappa, questa caratteristica è sparita. Considera quale parte abbiano abilità e fortuna. E quanto sia differente l’abilità negli scacchi da quella nel tennis. Pensa ora ai girotondi: qui c’è l’elemento del divertimento, ma quanti altri tratti caratteristici sono scomparsi. E così via possiamo passare in rassegna molti altri gruppi di giochi. Vedere somiglianze emergere e sparire. E il risultato di questo esame suona: vediamo una rete complicata di somiglianze che si sovrappongono e si incrociano a vicenda. Somiglianze in grande e in piccolo. § 67. Non posso caratterizzare queste somiglianze meglio che con l’espressione «somiglianze di famiglia»; infatti le varie somiglianze che sussistono tra i membri di una famiglia si sovrappongono e s’incrociano nello stesso modo: corporatura, tratti del volto, colore degli occhi, modo di camminare, temperamento, ecc. ecc. – E dirò: i “giochi” formano una famiglia. E allo stesso modo formano una famiglia, ad esempio, i vari tipi di numeri. Perché chiamiamo una certa cosa «numero»? Forse perché ha una – diretta – parentela con qualcosa che finora si è chiamato numero; e in questo modo, possiamo dire, acquisisce una parentela indiretta con altre cose che chiamiamo anche così. Ed estendiamo il nostro concetto di numero così come, nel tessere un filo, intrecciamo fibra con fibra. E la robustezza del filo non è data dal fatto che una fibra corre per tutta la sua lunghezza, ma dal sovrapporsi di molte fibre una all’altra. Se però qualcuno dicesse: «Dunque c’è qualcosa di comune a tutte queste formazioni, – vale a dire la disgiunzione di tutte queste comunanze», io risponderei: qui ti limiti a giocare con una parola. Allo stesso modo si potrebbe dire: un qualcosa percorre tutto il filo, – cioè l’ininterrotto sovrapporsi di queste fibre.
  12. Gli utenti dell’informazione statistica si rivolgono al sito istituzionale dell’Istat (www.istat.it) alla ricerca di informazioni quantitative, affidabili e di buona qualità, al fine di soddisfare un’esigenza informativa specifica. L’attuale motore di ricerca interno (ma anche i principali motori di ricerca esterni, come Google) non offre una risposta adeguata, per due limiti principali. Il primo, è che le richieste degli utenti non sono formulate (di norma) nei termini rigorosi dei metadati statistici, ma espresse in linguaggio naturale e in forma non tecnica. Possono però essere tradotte in un linguaggio formale di metadati. Il punto è che l’onere di quella traduzione è dell’Istat, non degli utenti (questa difficoltà, ma anche quelle relative all’assetto delle informazioni sul sito, sono una componente dello statistical burden gravante sugli utenti). Il secondo limite è che i motori di ricerca restituiscono un elenco di possibili siti (URL) dove reperire l’informazione, e non l’informazione stessa. Per recuperare il medesimo contenuto “semantico” a prescindere dai termini usati si è fatto ricorso a  tecniche di elaborazione del linguaggio naturale, e in particolare di topic modelling (modellazione degli  argomenti), una tecnica statistica per scoprire gli “argomenti” astratti che si verificano in una raccolta di  documenti, attraverso l’estrazione di testi di uso frequente per la scoperta di strutture semantiche nascoste  in un corpus di testo. Un esempio per chiarire il punto: supponiamo che un utente sia interessato alle differenze di retribuzione  tra uomini e donne. Un utente esperto userebbe una frase di ricerca del tipo “divari retributivi di genere”,  mentre altri utenti potrebbero formulare la domanda come “diseguaglianze salariali uomo/donna” oppure  “stipendio femminile rispetto a maschile”. Si tratta evidentemente della stessa domanda e gli utenti si  aspettano la medesima risposta. Per garantire questo risultato, è necessaria una strategia che associ i  termini “divario/diseguaglianza/differenza”, “genere/maschio-femmina/uomo-donna” e  “retribuzione/salario/stipendio”, oltre a tutte le loro possibili declinazioni e sinonimie. In particolare, si tratta: Di sottoporre le frasi di ricerca a una “pulizia semantica” per rimuovere o sostituire i termini irrilevanti  ai fini della ricerca nell’ambito della statistica ufficiale; Di riconoscere e raggruppare i sinonimi. Per quanto riguarda il primo aspetto, la Latent Dirichlet Allocation (LDA) – introdotta nel 2003 – è un  modello probabilistico generativo particolarmente adatto al topic modelling. In estrema sintesi, assume  come input un grande corpus di testo, rileva automaticamente le parole che appaiono insieme e le  raggruppa in argomenti. A differenza delle tecniche tradizionali di clustering, l’LDA permette ai cluster di  sovrapporsi, in modo tale che i termini generici (es. statistiche, anno, periodo) possono appartenere a molti  argomenti, mentre quelli specifiche (es. coltello, omicidio) appartengono al solo argomento delle  statistiche sulla criminalità. Per il secondo, il modello Word2Vec – introdotto nel 2013 – si presta particolarmente a produrre una  rappresentazione distribuita delle parole. L’applicazione del modello può concorrere in due modi a  migliorare la ricerca nel sito www.istat.it: sotto il primo aspetto, concorrendo a classificare i risultati della  ricerca per rilevanza e dare suggerimenti sulle informazioni correlate; sotto il secondo, agevolando la  traduzione dei termini della lingua corrente in termini specifici dei metadati statistici. Entrambe le  applicazioni utilizzano lo stesso modello, con la differenza che, nel primo caso, si addestra il modello con le  pubblicazioni dell’Istat, e nel secondo, lo si addestra con un corpus di termini correnti.
  13. There is the one-liner attributed to Einstein (“Models should be as simple as possible, but not simpler”). Even if he never wrote exactly this concise phrase, he said something to this effect in the conference in “On the Method of Theoretical Physics” in Oxford on June 10th, 1933 (Einstein 1934): “It can scarcely be denied that the supreme goal of all theory is to make the irreducible basic elements as simple and as few as possible without having to surrender the adequate representation of a single datum of experience.”) Worauf es deswegen bei dem Studium der Wissenschaft ankommt, ist die Anstrengung des Begriffs auf sich zu nehmen. Sie erfodert die Aufmerksamkeit auf ihn als solchen, auf die einfachen Bestimmungen, zum Beispiel des An-sich-seins, des Für-sich-seins, der Sichselbstgleichheit und so fort; denn diese sind solche reine Selbstbewegungen, die man Seelen nennen könnte, wenn nicht ihr Begriff etwas Höheres bezeichnete als diese. Der Gewohnheit, an Vorstellungen fortzulaufen, ist die Unterbrechung derselben durch den Begriff ebenso lästig als dem formalen Denken, das in unwirklichen Gedanken hin und her räsoniert. Jene Gewohnheit ist ein materielles Denken zu nennen, ein zufälliges Bewußtsein, das in den Stoff nur versenkt ist, welchem es daher sauer ankömmt, aus der Materie zugleich sein Selbst rein herauszuheben und bei sich zu sein. Das andere, das Räsonieren, hingegen ist die Freiheit von dem Inhalt und die Eitelkeit über ihn; ihr wird die Anstrengung zugemutet, diese Freiheit aufzugeben, und statt das willkürlich bewegende Prinzip des Inhalts zu sein, diese Freiheit in ihn zu versenken, ihn durch seine eigne Natur, das heißt, durch das Selbst als das seinige, sich bewegen zu lassen und diese Bewegung zu betrachten. Sich des eignen Einfallens in den immanenten Rhythmus der Begriffe entschlagen, in ihn nicht durch die Willkür und sonst erworbene Weisheit eingreifen, diese Enthaltsamkeit ist selbst ein wesentliches Moment der Aufmerksamkeit auf den Begriff. Ma è altresì una nazione ricca di problemi irrisolti, talvolta a seguito di alcune eredità – una per tutti quella del tema ricorrente circa il “debito pubblico” - che certo avremmo preferito acquisire con “beneficio di inventario”. Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.
  14. Uno spunto di quasi un anno fa Il tema resta la cultura statistica, anche se per me molto è cambiato  Ci ho dedicato quasi 20 anni I numeri per capire il mondo. Quasi scontato. Lord Kelvin. Quantificare e misurare. Misurazione essenziale per i confronti nello spazio e nel tempo, purché effettuata in modo coerente.  Le parole allora.  Necessità di creare contenitori ben distinti. È una strategia comune: digitalizzazione. Linguaggio parlato e scritto.  L'esempio dell'occupazione.  Eppure non ci lascia soddisfatti. Per due motivi. Uno. Il linguaggio naturale non funziona così. Wittgenstein. Necessità di stabilire una comunicazione, una traduzione tra i due linguaggi. Verso un motore di ricerca semantico.  Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.