Le parole per capire i numeri, i numeri per capire il mondo
Giovanni A. Barbieri
StatCities Taranto 2019
Tanto quanto. Per i livelli essenziali di statistica nel territorio
Taranto, 4-5 luglio 2019
2015.11.20 Barbieri Structural Business Statistics
Le parole per capire i numeri, i numeri per capire il mondo
1. LE PAROLE PER CAPIRE I NUMERI
I NUMERI PER CAPIRE IL MONDO
Taranto 2019
Tanto quanto?
Per i livelli essenziali di statistica nel territorio.
Giovanni A. Barbieri, Usci
Taranto, 4 luglio 2019
2. 2
Sommario
L’esperienza dell’Istat
I numeri per capire il mondo: quantificare e misurare
Le parole per capire i numeri: meta-informazione e
linguaggio della statistica
Un esempio: disoccupati, occupati, inattivi
Dalla parte degli utenti: tradurre tra diversi meta-linguaggi
Rifuggire dall’eccesso di semplificazione
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
3. 3
L’esperienza dell’Istat
Rendere i servizi della statistica pubblica utili, rilevanti e
affidabili per tutti
D.Lgs. 322/1989 «I dati elaborati nell’ambito delle rilevazioni
statistiche comprese nel programma statistico nazionale sono
patrimonio della collettività» (art. 10)
Fundamental Principles of Official Statistics (1992-94, 2013-14)
Statistics: a Matter of Trust (24 febbraio 1998)
L’esperienza del Rapporto annuale (1994-2018)
Rilevanza e fiducia sono in primo luogo nelle mani degli
utenti
Ascoltare le esigenze e i bisogni degli utenti
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
4. 4
I numeri per capire il mondo
Dell’esistenza di quello che non si può misurare, o quanto
meno quantificare, conviene dubitare
«Dico spesso che quando si può misurare ciò di cui si sta parlando, ed
esprimerlo in numeri, si sa qualcosa al riguardo; ma quando non si
può misurare, quando non si può esprimere in numeri, la conoscenza
è magra e insoddisfacente; può essere l’inizio della conoscenza, ma si
è raramente avanzati allo stadio della scienza, quale che sia la
materia» [Lord Kelvin, 1883]
Quantificare: introdurre precisi elementi di valutazione quantitativa;
tradurre in termini di quantità, tradurre in cifre, in valori numerici
Misurare: determinare la misura di una grandezza (lunghezza,
distanza, superficie, peso…), confrontandolo con uno standard
predefinito
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
5. 5
L’importanza della meta-informazione, ovvero la
risposta alla domanda fondamentale sulla vita,
l’universo e tutto quanto
«Quarantadue! – urlò Loonquawl – Questo è tutto ciò che sai dire dopo un
lavoro di sette milioni e mezzo di anni?»
«Ho controllato molto approfonditamente – disse il computer – e questa è
sicuramente la risposta. A essere sinceri, penso che il problema sia che voi
non abbiate mai saputo veramente qual è la domanda.»
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
6. 6
Le parole per capire i numeri
Un numero non dà alcun contributo alla conoscenza, se non
sai che cosa questo numero significa: l’insieme delle sue
ramificazioni semantiche
Le parole dunque – anche nella statistica – sono importanti
«Chi parla male, pensa male e vive male. Bisogna trovare le parole
giuste: le parole sono importanti!» [Michele Apicella in Palombella
rossa di Nanni Moretti]
Le parole della scienza
Le parole della statistica
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
7. 7
Il linguaggio della statistica
Il linguaggio della statistica usa una strategia di
classificazione
Classi esaustive, mutuamente esclusive e organizzate gerarchicamente
È una strategia di digitalizzazione in senso lato
Migliora il rapporto segnale/rumore
Minimizza gli errori
L’operazione di codifica ha comunque un costo, il costo
dell’astrazione
Si astrae dalla complessità implicita nel grande numero di variabili e
attori del processo modellizzato, ma questo significa che c’è un livello
di dettaglio in cui le ipotesi assunte sono false
«All models are wrong, but some are useful» [George Box]
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
8. 8
Il paese con le percezioni più sbagliate
Duffy, Bobby. The Perils of Perception: Why We’re Wrong
About Nearly Everything. London: Atlantic Books. 2018 [I
rischi della percezione: perché ci sbagliamo su quasi tutto.
Torino: Einaudi. 2019]
«Su 100 persone in età lavorative quante, secondo lei, sono
disoccupate e cercano lavoro?»
49 (invece all’epoca della rilevazione erano 12)
Siamo, per questa domanda e per l’insieme delle domande della
rilevazione Ipsos-MORI (30 quesiti, 13 Paesi, 50.000 interviste) il
Paese con le percezioni più sbagliate,
Ma sbagliate rispetto a che?
Educare al linguaggio tecnico
Mettersi dalla parte degli utenti
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
9. 9
Educare al linguaggio tecnico
Come usa le parole la statistica:
disoccupati
In Italia i disoccupati sono circa 2,5 milioni
Ma chi sono i disoccupati? Sono disoccupati (o in cerca di
occupazione) le persone non occupate tra i 15 e i 74 anni che:
hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane
che precedono la settimana di riferimento
e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due
settimane successive
oppure, inizieranno un lavoro entro tre mesi dalla settimana di riferimento
e sarebbero disponibili a lavorare (o ad avviare un’attività autonoma) entro le due
settimane successive, qualora fosse possibile anticipare l’inizio del lavoro
Come verifico la disponibilità a lavorare nelle due settimane
successive all'intervista?
E poi, per individuare i disoccupati in questa accezione tecnica, ho
necessità di distinguerli dagli occupati, da una parte, e dagli inattivi,
cioè da coloro che non lavorano e non cercano lavoro, dall’altra
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
10. 10
Educare al linguaggio tecnico
Come usa le parole la statistica:
occupati
In prima battuta: gli occupati sono quelli che lavorano; gli inattivi sono quelli che non
lavorano e non intendono lavorare perché studenti, o pensionati, o impegnati in attività
domestiche (‘casalinghe’)
Quante ore alla settimana occorre lavorare per essere statisticamente occupati? «almeno
un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in
natura»
Scandalo? Non proprio, perché oltre alla durata media della settimana lavorativa (su oltre
23 milioni di occupati, la maggioranza relativa, il 36%, lavora 40 ore la settimana), ci
sono anche delle ‘code’ di occupati che lavorano molto di più o molto di meno: il 19%
dalle 41 ore in su, ma soltanto il 3% dieci ore o meno
Le parole per capire i numeri
I numeri per capire il mondo
3 17 26 36 19
- 10 20 30 40 50 60 70 80 90 100
1-10 ore 11-25 ore 26-39 ore 40 ore 41 ore o più
Giovanni A. Barbieri
Taranto, 4 luglio 2019
11. 11
Educare al linguaggio tecnico
Come usa le parole la statistica:
inattivi
Almeno questo non dovrebbe creare problemi, perché sono definiti
in modo residuale, come la parte delle popolazione che non lavora
(altrimenti sarebbero occupati) e non cerca un’occupazione
(altrimenti sarebbe disoccupati)
Coerenza con le altre definizioni, complicata ma fruttuosa:
non hanno cercato lavoro nelle ultime 4 settimane e non sono disponibili a
lavorare entro 2 settimane dall'intervista (per lo più di studenti, ritirati dal
lavoro e ‘casalinghe’)
pur non avendo cercato un lavoro nelle ultime 4 settimane si sono
dichiarati disponibili a iniziare un lavoro entro 2 settimane
hanno cercato un lavoro nelle ultime 4 settimane, ma non sono disponibili
a iniziare un lavoro entro 2 settimane
Forze di lavoro potenziali
Confine fluido
La ricerca di lavoro ha un costo
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
12. 12
Le statistiche tra scienza, credenza ed evidenza
Giovanni A. Barbieri – 27 ottobre 2018
13. 13
Mettersi dalla parte degli utenti:
tradurre tra diversi meta-linguaggi
Il problema è che gli utenti pongono domande alla statistica
utilizzando il linguaggio naturale
Ma il linguaggio naturale non funziona come il linguaggio tecnico
Wittgenstein (Ricerche filosofiche) affronta il problema della meta-
informazione parlando di «somiglianze di famiglia» (e di fibre e fili)
Un problema di traduzione
Da una parte abbiamo il linguaggio della statistica (classi esaustive,
mutuamente esclusive e organizzate gerarchicamente)
Dall’altro il linguaggio naturale (somiglianze di famiglie e fibre intrecciate)
Chi lo deve fare?
Lo scarto tra linguaggio naturale e linguaggio tecnico è una componente
dello statistical burden
L’onere della traduzione deve ricadere sull’Istat
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
14. 14
Verso un motore di ricerca semantico:
le prospettive sono buone
Topic modelling: scoprire strutture semantiche nascoste in un
corpus di testo
Un esempio: “divari retributivi di genere” vs. “diseguaglianze salariali
uomo/donna” associazioni, declinazioni e sinonimie
(divario/diseguaglianza/differenza, genere/maschio-femmina/uomo-
donna, retribuzione/salario/stipendio)
Obiettivi:
classificare i risultati della ricerca per rilevanza e dare suggerimenti sulle
informazioni correlate
agevolare la traduzione dei termini della lingua corrente in termini specifici
dei metadati statistici (lavorando sui due corpus)
Tecniche:
LDA (Latent Dirichlet Allocation)
Word2Vec
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
15. 15
Rifuggire dall’eccesso di semplificazione
La semplificazione non è priva di rischi
Non parlo soltanto della semplificazione nei modelli (Einstein 1933:
«Models should be as simple as possible, but not simpler»)
Parlo della semplificazione dei concetti che si spaccia per semplificazione
del linguaggio: non ci sono spiegazioni semplici di fenomeni complessi
«nello studio della scienza tutto sta nel prendere su di sé la fatica del concetto (die
Anstrengung des Begriffs)» [Hegel, Fenomenologia dello spirito, I, p. 48]
Chiedersi sempre: Quale contributo all’informazione statistica, alla
conoscenza e allo sviluppo della cultura e della coscienza civile dà
il testo con cui commento i dati? In che modo contribuisce a
rendere i servizi della statistica pubblica utili, rilevanti e affidabili
per tutti?
Dedicare alla cura dei commenti e alla scelta delle parole la stessa
maniacale attenzione che dedichiamo al controllo dei dati!
Le parole per capire i numeri
I numeri per capire il mondo
Giovanni A. Barbieri
Taranto, 4 luglio 2019
Uno spunto di quasi un anno fa
Il tema resta la cultura statistica, anche se per me molto è cambiato
Ci ho dedicato quasi 20 anni
I numeri per capire il mondo. Quasi scontato. Lord Kelvin. Quantificare e misurare. Misurazione essenziale per i confronti nello spazio e nel tempo, purché effettuata in modo coerente.
Le parole allora.
Necessità di creare contenitori ben distinti. È una strategia comune: digitalizzazione. Linguaggio parlato e scritto.
L'esempio dell'occupazione.
Eppure non ci lascia soddisfatti. Per due motivi.
Uno. Il linguaggio naturale non funziona così. Wittgenstein. Necessità di stabilire una comunicazione, una traduzione tra i due linguaggi. Verso un motore di ricerca semantico.
Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.
Quando ho cominciato a lavorare all'Istat, 25 anni fa, ho avuto chiaro quasi subito che avevo un obiettivo (all'epoca non era ancora di moda dire mission e vision): quello di rendere i servizi della statistica pubblica utili, rilevanti e affidabili per tutti. Avevo lavorato per quasi 20 anni come economista applicato, quindi come utente, e come tutti gli utenti ero scandalizzato di quanto fosse frustrante usare i dati dell'Istat. Come fosse difficile districarsi tra le pubblicazioni (allora per lo più cartacee, con i numeri da copiare o da far copiare – i calcolatori), le diverse definizioni, le rotture di serie, il dettaglio territoriale o settoriale insufficiente. Mi sembrava mio dovere, una volta passato sull'altra sponda, correggere questa situazione.
Mi ha molto aiutato, su questa strada, il fatto che subito il presidente Zuliani mi abbia affidato la responsabilità del Rapporto annuale (insieme a Valerio Terra Abrami): era alla sua terza edizione...
Mi ha anche molto confortato che la legge di riforma della statistica pubblica del 1989, e i principi della statistica ufficiale di quello stesso 1994, proponessero quegli stessi valori come fondanti: l'indipendenza dal potere politico, il riferimento ai cittadini, l'eguaglianza di trattamento degli utenti, i principi di qualità, la rilevanza come criterio discriminante dell'interesse pubblico della produzione statistica... All'inizio del 1998, poi, usci il Libro Verde per il rilancio della statistica pubblica nel Regno Unito, dopo il disastro thatcheriano, che si intitolava orgogliosamente: Statistics, a Matter of Trust.
Ho poi capito che quelli che mi sembravano i più importanti di quei valori – la rilevanza e la fiducia – non erano immediatamente tra le leve che la statistica pubblica poteva azionare direttamente, perché entrambi erano in primo luogo nelle mani degli utenti: sono gli utenti a scegliere quali statistiche sono rilevanti per i loro processi di decisione e di valutazione; e sono sempre loro a stabilire in che misura fidarsi delle informazioni statistiche loro fornite. Certo, esistono accorgimenti indiretti per garantire rilevanza e fiducia: sono un esempio dei primi le procedure per la formazione del PSN, dai circoli di qualità al coinvolgimento del parlamento; ed esempi dei secondi i meccanismi di quality charter e di peer review messi in atto dalla comunità statistica europea e internazionale e le buone pratiche sui rilasci (dal calendario ai briefing alla simultaneità della pubblicazione).
Ma sono comunque appunto, in fin dei conti, accorgimenti indiretti, che non possono far passare in secondo piano la via diretta: quella dell'ascolto delle esigenze e dei bisogni degli utenti stessi.
Anche perché gli utenti – lo dico come corollario al discorso fatto finora, ma è tutt'altro che scontato – sono tutti i cittadini, senza privilegi di sorta (anche se può essere utile "segmentarli" in individui, imprese, istituzioni pubbliche, organi costituzionali, gruppi d'interesse, università ed enti di ricerca, ...): "I dati elaborati nell'ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività" (art. 10 D. Lgs. 322/1989).
Il tema è chiaramente molto vasto, troppo per parlarne compiutamente oggi, anche se nella mia attività all'Istat mi sono occupato di molti degli aspetti rilevanti, dalla Carta dei servizi, alla rilevazione delle esigenze degli utenti (non solo attraverso quella che poi è diventata la CUIS). Mi concentro su un tema solo, quello del linguaggio, cioè delle parole per capire i numeri.Mi servono due premesse, che ritengo essenziali al discorso che intendo sviluppare.La prima è che l'informazione statistica è essenzialmente quantitativa. E quando dico essenzialmente non intendo dire principalmente, ma proprio essenzialmente: senza l'aspetto quantitativo non è informazione statistica. Do per scontato che tutti abbiamo ben presente la differenza tra quantificazione e misurazione (se qualcuno avesse dei dubbi ne discuto volentieri nelle pause caffè o andando insieme a cena). Possiamo discutere se ci possa essere scienza senza quantificazione: Lord Kelvin (1883) pensava di no, e lo penso anch'io. Possiamo anche discutere se ci possa essere informazione statistica senza misurazione: io penso di no, perché la misurazione è essenziale per i confronti nello spazio e nel tempo, purché sia effettuata in modo coerente. Del resto, quando l'Istat pubblicava soprattutto libri e volumi pieni di numeri aveva ben presenti questi aspetti. Semmai, come vedremo, è quando si sono aggiunte le parole che è emersa qualche sbavatura.
La seconda è che i numeri senza parole sono privi di significato. È il tema della meta-informazione. C'è un apologo raccontato nella Guida galattica per gli autostoppisti, una serie di romanzi di fantascienza umoristica di Douglas Adams, che illustra bene il punto.
Un gruppo di scienziati, appartenenti a una razza di esseri super-intelligenti , costruisce Pensiero Profondo, il più grande computer di tutti i tempi e di tutti gli spazi, per ottenere la risposta alla "Domanda Fondamentale sulla Vita, sull'Universo e Tutto quanto". Dopo un'elaborazione durata sette milioni e mezzo di anni, il computer fornisce come responso unicamente «42», lasciando smarriti e sbigottiti i committenti dell'impresa.
Un numero non dà alcun contributo alla conoscenza, se non sai che cosa questo numero significa: l’insieme delle sue ramificazioni semantiche. Come dice Michele Apicella in Palombella rossa di Nanni Moretti, le parole sono importanti: «Chi parla male, pensa male e vive male. Bisogna trovare le parole giuste: le parole sono importanti!».
Ma quali sono le parole giuste? Ci sono le parole della scienza: un discorso importante, che però ci porterebbe lontano. Mi limito a dire qui che ci sono parole "minate", il cui uso non va preso sottogamba: mostrare vs. dimostrare, evidenza vs. prova, falsificare vs. verificare, e così via. Poi ci sono le parole proprie del linguaggio statistico, che è un linguaggio tecnico.
Il linguaggio della statistica usa una strategia di classificazione: costruisce contenitori che corrispondono in genere a classi mutuamente esclusive e organizzate gerarchicamente. Ve lo ricorderete dalle prime lezioni di statistica descrittiva all'università: mutabili e variabili, caratteri qualitativi sconnessi/ordinati (scala nominale/ordinale), scale a intervalli/di rapporti, insieme discreti e continui, e così via. È una strategia antica e universalmente usata: è una strategia di digitalizzazione in senso lato, antica come il linguaggio parlato e scritto. È molto efficace perché permette di migliorare il rapporto segnale/rumore e di minimizzare gli errori. Ne ho scritto su un articolo che non vi infliggerò oggi. Ma è importante sottolineare oggi che questa operazione non è priva di costi. La teoria dell’informazione di Shannon ci consente di affermare che l’informazione semantica è sostanzialmente indipendente dal suo supporto, dal mezzo che la codifica e dalla codifica stessa: si tratti dei fonemi, delle lettere dell’alfabeto o dei bit. Solo sostanzialmente, però, perché l’operazione di codifica ha comunque un costo, il costo dell’astrazione. L’operazione di codifica dell’informazione è infatti un processo di modellizzazione, basato sull'astrazione e la semplificazione: si astrae dalla complessità implicita nel grande numero di variabili e attori del processo modellizzato, ma questo significa che c'è un livello di dettaglio in cui le ipotesi assunte sono false. «All models are wrong, but some are useful».
Perché questo modo di procedere è un problema per gli utenti? Evidentemente sì, se siamo il paese con le percezioni più sbagliate. «Su 100 persone in età lavorative quante, secondo lei, sono disoccupate e cercano lavoro?» 49 (invece all’epoca della rilevazione erano 12). Siamo, per questa domanda e per l’insieme delle domande della rilevazione Ipsos-MORI (30 quesiti, 13 Paesi, 50.000 interviste) il Paese con le percezioni più sbagliate [Duffy, Bobby. The Perils of Perception: Why We’re Wrong About Nearly Everything. London: Atlantic Books. 2018].
Quando leggiamo che in Italia i disoccupati sono 2.522.000 (dato mensile di agosto 2018 - l'ultimo disponibile dal momento che il dato di settembre sarà pubblicato il 31 ottobre - https://www.istat.it/it/files//2018/10/CS_Occupati-e-disoccupati_AGOSTO_2018.pdf), che cosa ci dice questo numero? Come minimo, dobbiamo conoscere la definizione di "disoccupato". Su questo ci viene incontro il glossario allegato al comunicato dell'Istat: "Disoccupati (o in cerca di occupazione): comprendono le persone non occupate tra i 15 e i 74 anni che:
hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane che precedono la settimana di riferimento e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive; oppure, inizieranno un lavoro entro tre mesi dalla settimana di riferimento e sarebbero disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive, qualora fosse possibile anticipare l’inizio del lavoro." E però - prima considerazione - c'è uno scarto tra quello che immediatamente ci viene in mente quando pensiamo a un disoccupato e un significato tecnico pieno di specificazioni. Il significato corrente, come testimoniato dal Vocabolario Treccani online (http://www.treccani.it/vocabolario/disoccupato/) è quello di persona, non occupata in un lavoro, libera da occupazioni (non so stare disoccupato, senza far nulla; ha sempre qualcosa da fare e le capita di rado di essere disoccupata); e, in senso un po' più tecnico, chi "non ha o non trova un’occupazione; in senso ristretto, chi è stato privato della sua abituale occupazione (e del reddito relativo) ed è quindi in cerca di un’altra (distinto perciò da inoccupato)". Un'accezione, questa seconda, certo più vicina a quella dell'Istat, ma comunque distante, distinta da quella da una serie di puntualizzazioni: persone tra i 15 e i 74 anni, che hanno effettuato almeno un’azione attiva di ricerca di lavoro nelle quattro settimane e sono disponibili a lavorare entro le due settimane successive oppure inizieranno un lavoro entro tre mesi (e sono disponibili a lavorare...). E abbiamo appena scalfito la superficie del concetto: quali sono le azioni attive di ricerca del lavoro? [Ha avuto contatti con un Centro pubblico per l’impiego (ex Ufficio di collocamento) per cercare lavoro; Ha sostenuto un colloquio di lavoro, una selezione presso privati; Ha sostenuto prove scritte e/o orali di un concorso pubblico; Ha inviato una domanda per partecipare ad un concorso pubblico; Ha esaminato offerte di lavoro sui giornali; Ha messo inserzioni sui giornali o ha risposto ad annunci; Ha fatto domande di lavoro e/o inviato (o consegnato) curriculum a privati; Si è rivolto a parenti, amici, conoscenti, sindacati; Ha cercato lavoro su Internet; Ha avuto contatti con una agenzia interinale o con una struttura di intermediazione diversa da un Centro pubblico per l’impiego per cercare lavoro; Ha cercato terreni, locali, attrezzature per avviare una attività autonoma; Ha chiesto permessi, licenze, finanziamenti per avviare una attività autonoma – http://siqual.istat.it/SIQual/files/Questionario_RCFL_2017_trim2_IT.pdf?ind=5000098&cod=5197&progr=1&tipo=4]. Come verifico la disponibilità a lavorare nelle due settimane successive all'intervista? E poi, per individuare i disoccupati in questa accezione tecnica, ho necessità di distinguerli dagli occupati, da una parte, e dagli inattivi - cioè da coloro che non lavorano e non cercano lavoro, dall'altra.
Anche qui una risposta approssimata, tagliata con l'accetta, è sufficientemente agevole: gli occupati sono quelli che lavorano; gli inattivi sono quelli che non lavorano e non intendono lavorare perché studenti, o pensionati, o impegnati in attività domestiche ("casalinghe"). Va bene: ma quante ore alla settimana occorre lavorare per essere statisticamente occupati? "almeno un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in natura" nella settimana di riferimento, dice l'Istat (sempre nel Glossario che accompagna il comunicato-stampa)? Come, un'ora alla settimana, dicono l'uomo della strada (e qualche giornalista), scandalo! Non proprio, perché oltre alla durata media della settimana lavorativa (sugli oltre 23 milioni di occupati del 2017, la maggioranza relativa, il 36%, lavora 40 ore la settimana), ci sono anche delle "code" di occupati che lavorano molto di più o molto di meno: il 19% dalle 41 ore in su, ma soltanto il 3% dieci ore o meno [http://dati.istat.it/Index.aspx?QueryId=1625]. Per questo è necessario definire un limite inferiore.
E gli inattivi (l'Istat li definisce così, e non me ne vogliano le persone che svolgono attività non retribuite, in casa o fuori)? Poiché sono definiti in modo residuale, come quella parte delle popolazione che non lavora (altrimenti sarebbero occupati) e non cerca un'occupazione (altrimenti sarebbe disoccupati), almeno questa definizione non dovrebbe creare problemi. Ma poiché le definizioni tecniche di disoccupato e di occupato - come abbiamo appena visto - sono puntigliosamente dettagliate, anche quella di inattivo deve essere coerente con quelle, e fare dunque riferimento alle settimane precedenti e successive al periodo di riferimento. Ecco che allora la definizione tecnica di inattivo si complica, ma si complica fruttuosamente, perché permette di distinguere all'interno di questo aggregato posizione piuttosto diverse:
coloro che non hanno cercato lavoro nelle ultime quattro settimane e non sono disponibili a lavorare entro due settimane dall'intervista (si tratta per lo più di studenti e persone ritirate dal lavoro - ricordiamoci che occupati e disoccupati sono di età compresa tra i 15 e i 74 anni, mentre gli inattivi sono definiti come complemento rispetto al totale della popolazione, ragion per cui le persone più giovani o più anziane sono per definizione inattive - e quelle persone che nel linguaggio corrente chiamiamo casalinghe);
coloro che pur non avendo cercato un lavoro nelle ultime quattro settimane si sono dichiarati disponibili a iniziare un lavoro entro due settimane dall’intervista;
coloro che hanno cercato un lavoro nelle ultime quattro settimane, ma che non sono disponibili a iniziare un lavoro entro due settimane dall’intervista [https://www.istat.it/it/metodi-e-strumenti/glossario, ad vocem].
Mentre il primo gruppo di persone corrisponde con una buona approssimazione all'idea che associamo al termine "inattivo" - chi per età o per scelta (spesso non del tutto libera) si colloca più o meno stabilmente al di fuori del "mercato del lavoro" -, gli altri due rimandano a situazioni molto più fluide, in cui la ricerca di un'occupazione non è perseguita attivamente o è rinviata nel tempo (mancano i requisiti della ricerca nelle 4 settimane precedenti o la disponibilità nelle due successive) ma non esclusa. è una "zona grigia", che l'Istat definisce "forze di lavoro potenziali".
Non è soltanto il frutto con la pignoleria che tutti siamo abituati ad associare alla categoria professionale degli statistici. è anche un arricchimento delle potenzialità di analisi dei comportamenti, perché il confine tra disoccupati e inattivi della zona grigia è un confine permeabile. Ad esempio, in un periodo di crisi, in cui le occasioni di lavoro scarseggiano, i disoccupati dubitano della possibilità di trovare un'occupazione e smettono di ricercarla attivamente. Anche perché, se ci riflettete un momento, la ricerca attiva ha un costo economico, non solo in termini di tempo e di sforzo (effort). è il fenomeno dello scoraggiamento, che può condurre a una diminuzione del numero dei disoccupati e a un aumento di quello degli inattivi. Per contro, quando le prospettive del mercato del lavoro migliorano, si può assistere a un temporaneo aumento del numero di disoccupati, perché una parte degli "scoraggiati" intraprendono nuovamente azioni di ricerca attiva.
A margine di queste riflessioni, vi segnalo un articolo del linguista e lessicografo Silverio Novelli che ho trovato sul portale Treccani documentandomi per questa conferenza: lo trovate qui: http://www.treccani.it/magazine/lingua_italiana/articoli/parole/inattivo.html
Il problema è che gli utenti pongono domande alla statistica utilizzando il linguaggio naturale. E il linguaggio naturale non funziona come il linguaggio tecnico. Ludwig Wittgenstein – che nella prima fase del suo pensiero, quella del Tractatus logico-philosophicus, aveva cercato di fondare scientificamente il legame tra mondo dei fatti e linguaggio (3. Das logische Bild der Tatsachen ist der Gedanke, L'immagine logica dei fatti è il pensiero) – nella maturità, in un passo celeberrimo, afferma che la meta-informazione non è fondata su classificazioni rigorose, ma solo su somiglianze di famiglia.
§ 65. Mi si potrebbe obiettare: «Te la fai facile! Parli di ogni sorta di giochi linguistici,
ma non hai ancora detto che cosa sia l’essenziale del gioco linguistico, e
quindi del linguaggio; che cosa sia comune a tutti questi processi, e ne faccia un
linguaggio o parte di un linguaggio. Così ti esoneri proprio da quella parte della
ricerca che a suo tempo ti ha dato i maggiori grattacapi: cioè quella riguardante
la forma generale della proposizione e del linguaggio».
E questo è vero. – Invece di mostrare quello che è comune a tutto ciò che chiamiamo
linguaggio, io dico che questi fenomeni non hanno affatto in comune
qualcosa, in base al quale impieghiamo per tutti la stessa parola, – ma che sono
imparentati l’uno con l’altro in molti modi differenti. E grazie a questa parentela,
o a queste parentele, li chiamiamo tutti «linguaggi». Voglio tentare di chiarire
questo punto.
§ 66. Considera, ad esempio, i processi che chiamiamo «giochi». Intendo giochi da
scacchiera, giochi di carte, giochi di palla, gare sportive, e via discorrendo. Cosa
è comune a tutti questi giochi? – Non dire: «Deve esserci qualcosa di comune a
tutti altrimenti non si chiamerebbero “giochi”» – ma guarda se ci sia qualcosa di
comune a tutti. – Infatti, se li osservi, non vedrai certamente qualche cosa che sia
comune a tutti, ma vedrai somiglianze, parentele, e anzi ne vedrai tutta una serie.
Come ho detto: non pensare, ma osserva! – Osserva, ad esempio, i giochi da scacchiera,
con le loro molteplici affinità. Ora passa ai giochi di carte; qui trovi molte
corrispondenze con quelli della prima classe, ma molti tratti comuni sono scomparsi,
altri sono subentrati. Se passiamo ora ai giochi di palla, qualcosa in comune
si è conservato, ma molto è andato perduto. Sono tutti «divertenti»? Confronta il
gioco degli scacchi con quello della tria. Oppure c’è dappertutto un perdere e
un vincere, o una competizione tra i giocatori? Pensa allora ai solitari. Nei giochi
con la palla c’è vincere e perdere; ma quando un bambino getta la palla contro
un muro e la riacchiappa, questa caratteristica è sparita. Considera quale parte
abbiano abilità e fortuna. E quanto sia differente l’abilità negli scacchi da quella
nel tennis. Pensa ora ai girotondi: qui c’è l’elemento del divertimento, ma quanti
altri tratti caratteristici sono scomparsi. E così via possiamo passare in rassegna
molti altri gruppi di giochi. Vedere somiglianze emergere e sparire.
E il risultato di questo esame suona: vediamo una rete complicata di somiglianze che
si sovrappongono e si incrociano a vicenda. Somiglianze in grande e in piccolo.
§ 67. Non posso caratterizzare queste somiglianze meglio che con l’espressione
«somiglianze di famiglia»; infatti le varie somiglianze che sussistono tra i membri
di una famiglia si sovrappongono e s’incrociano nello stesso modo: corporatura,
tratti del volto, colore degli occhi, modo di camminare, temperamento, ecc. ecc.
– E dirò: i “giochi” formano una famiglia.
E allo stesso modo formano una famiglia, ad esempio, i vari tipi di numeri. Perché
chiamiamo una certa cosa «numero»? Forse perché ha una – diretta – parentela
con qualcosa che finora si è chiamato numero; e in questo modo, possiamo dire,
acquisisce una parentela indiretta con altre cose che chiamiamo anche così. Ed
estendiamo il nostro concetto di numero così come, nel tessere un filo, intrecciamo
fibra con fibra. E la robustezza del filo non è data dal fatto che una fibra corre
per tutta la sua lunghezza, ma dal sovrapporsi di molte fibre una all’altra.
Se però qualcuno dicesse: «Dunque c’è qualcosa di comune a tutte queste formazioni,
– vale a dire la disgiunzione di tutte queste comunanze», io risponderei: qui
ti limiti a giocare con una parola. Allo stesso modo si potrebbe dire: un qualcosa
percorre tutto il filo, – cioè l’ininterrotto sovrapporsi di queste fibre.
Gli utenti dell’informazione statistica si rivolgono al sito istituzionale dell’Istat (www.istat.it) alla ricerca di informazioni quantitative, affidabili e di buona qualità, al fine di soddisfare un’esigenza informativa specifica. L’attuale motore di ricerca interno (ma anche i principali motori di ricerca esterni, come Google) non offre una risposta adeguata, per due limiti principali. Il primo, è che le richieste degli utenti non sono formulate (di norma) nei termini rigorosi dei metadati statistici, ma espresse in linguaggio naturale e in forma non tecnica. Possono però essere tradotte in un linguaggio formale di metadati. Il punto è che l’onere di quella traduzione è dell’Istat, non degli utenti (questa difficoltà, ma anche quelle relative all’assetto delle informazioni sul sito, sono una componente dello statistical burden gravante sugli utenti). Il secondo limite è che i motori di ricerca restituiscono un elenco di possibili siti (URL) dove reperire l’informazione, e non l’informazione stessa.
Per recuperare il medesimo contenuto “semantico” a prescindere dai termini usati si è fatto ricorso a tecniche di elaborazione del linguaggio naturale, e in particolare di topic modelling (modellazione degli argomenti), una tecnica statistica per scoprire gli “argomenti” astratti che si verificano in una raccolta di documenti, attraverso l’estrazione di testi di uso frequente per la scoperta di strutture semantiche nascoste in un corpus di testo.
Un esempio per chiarire il punto: supponiamo che un utente sia interessato alle differenze di retribuzione tra uomini e donne. Un utente esperto userebbe una frase di ricerca del tipo “divari retributivi di genere”, mentre altri utenti potrebbero formulare la domanda come “diseguaglianze salariali uomo/donna” oppure “stipendio femminile rispetto a maschile”. Si tratta evidentemente della stessa domanda e gli utenti si aspettano la medesima risposta. Per garantire questo risultato, è necessaria una strategia che associ i termini “divario/diseguaglianza/differenza”, “genere/maschio-femmina/uomo-donna” e “retribuzione/salario/stipendio”, oltre a tutte le loro possibili declinazioni e sinonimie.
In particolare, si tratta:
Di sottoporre le frasi di ricerca a una “pulizia semantica” per rimuovere o sostituire i termini irrilevanti ai fini della ricerca nell’ambito della statistica ufficiale;
Di riconoscere e raggruppare i sinonimi.
Per quanto riguarda il primo aspetto, la Latent Dirichlet Allocation (LDA) – introdotta nel 2003 – è un modello probabilistico generativo particolarmente adatto al topic modelling. In estrema sintesi, assume come input un grande corpus di testo, rileva automaticamente le parole che appaiono insieme e le raggruppa in argomenti. A differenza delle tecniche tradizionali di clustering, l’LDA permette ai cluster di sovrapporsi, in modo tale che i termini generici (es. statistiche, anno, periodo) possono appartenere a molti argomenti, mentre quelli specifiche (es. coltello, omicidio) appartengono al solo argomento delle statistiche sulla criminalità.
Per il secondo, il modello Word2Vec – introdotto nel 2013 – si presta particolarmente a produrre una rappresentazione distribuita delle parole. L’applicazione del modello può concorrere in due modi a migliorare la ricerca nel sito www.istat.it: sotto il primo aspetto, concorrendo a classificare i risultati della ricerca per rilevanza e dare suggerimenti sulle informazioni correlate; sotto il secondo, agevolando la traduzione dei termini della lingua corrente in termini specifici dei metadati statistici. Entrambe le applicazioni utilizzano lo stesso modello, con la differenza che, nel primo caso, si addestra il modello con le pubblicazioni dell’Istat, e nel secondo, lo si addestra con un corpus di termini correnti.
There is the one-liner attributed to Einstein (“Models should be as simple as possible, but not simpler”). Even if he never wrote exactly this concise phrase, he said something to this effect in the conference in “On the Method of Theoretical Physics” in Oxford on June 10th, 1933 (Einstein 1934): “It can scarcely be denied that the supreme goal of all theory is to make the irreducible basic elements as simple and as few as possible without having to surrender the adequate representation of a single datum of experience.”)
Worauf es deswegen bei dem Studium der Wissenschaft ankommt, ist die Anstrengung des Begriffs auf sich zu nehmen. Sie erfodert die Aufmerksamkeit auf ihn als solchen, auf die einfachen Bestimmungen, zum Beispiel des An-sich-seins, des Für-sich-seins, der Sichselbstgleichheit und so fort; denn diese sind solche reine Selbstbewegungen, die man Seelen nennen könnte, wenn nicht ihr Begriff etwas Höheres bezeichnete als diese. Der Gewohnheit, an Vorstellungen fortzulaufen, ist die Unterbrechung derselben durch den Begriff ebenso lästig als dem formalen Denken, das in unwirklichen Gedanken hin und her räsoniert. Jene Gewohnheit ist ein materielles Denken zu nennen, ein zufälliges Bewußtsein, das in den Stoff nur versenkt ist, welchem es daher sauer ankömmt, aus der Materie zugleich sein Selbst rein herauszuheben und bei sich zu sein. Das andere, das Räsonieren, hingegen ist die Freiheit von dem Inhalt und die Eitelkeit über ihn; ihr wird die Anstrengung zugemutet, diese Freiheit aufzugeben, und statt das willkürlich bewegende Prinzip des Inhalts zu sein, diese Freiheit in ihn zu versenken, ihn durch seine eigne Natur, das heißt, durch das Selbst als das seinige, sich bewegen zu lassen und diese Bewegung zu betrachten. Sich des eignen Einfallens in den immanenten Rhythmus der Begriffe entschlagen, in ihn nicht durch die Willkür und sonst erworbene Weisheit eingreifen, diese Enthaltsamkeit ist selbst ein wesentliches Moment der Aufmerksamkeit auf den Begriff.
Ma è altresì una nazione ricca di problemi irrisolti, talvolta a seguito di alcune eredità – una per tutti quella del tema ricorrente circa il “debito pubblico” - che certo avremmo preferito acquisire con “beneficio di inventario”.
Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.
Uno spunto di quasi un anno fa
Il tema resta la cultura statistica, anche se per me molto è cambiato
Ci ho dedicato quasi 20 anni
I numeri per capire il mondo. Quasi scontato. Lord Kelvin. Quantificare e misurare. Misurazione essenziale per i confronti nello spazio e nel tempo, purché effettuata in modo coerente.
Le parole allora.
Necessità di creare contenitori ben distinti. È una strategia comune: digitalizzazione. Linguaggio parlato e scritto.
L'esempio dell'occupazione.
Eppure non ci lascia soddisfatti. Per due motivi.
Uno. Il linguaggio naturale non funziona così. Wittgenstein. Necessità di stabilire una comunicazione, una traduzione tra i due linguaggi. Verso un motore di ricerca semantico.
Due. Limita la nostra comprensione. Troppa semplificazione per fenomeni complessi. L'utilità dei modelli. Combattere la pretesa della semplificazione. La fatica del concetto.