-l'uso dei big data a supporto della statistica -
Intervento di Daniela fusco - Istat Campania
al Seminario del #23maggio 2019 tenutosi presso
l'Università degli Studi “#UniParthenope” di Napoli
Dipartimento di Studi aziendali e quantitativi
Via Generale Parisi, 13
Abstract:
Nuovi dati e nuove fonti: le statistiche sperimentali e i big data è Il seminario, curato dall’ Ufficio territoriale Istat
per la Campania e la Basilicata e dall'Università degli studi di Napoli Parthenope con l’obiettivo di consolidare la
conoscenza delle nuove fonti dati ad uso statistico, utilizzate dall’Istat. In particolare in questo evento il focus è sulle
statistiche sperimentali e i big data.
I destinatari dell’iniziativa sono ricercatori e studenti universitari che intendono utilizzare o approfondire la conoscenza
dei principali sistemi di diffusione dell’Istat e le modalità di interrogazione dei principali Open Data forniti
dall’Istituto.
Link: https://lnkd.in/dqAmRRW
Esperimenti_laboratorio di fisica per la scuola superiore
Daniela Fusco - L’uso dei Big Data a supporto della statistica - 23 maggio 2019 UniParthenope
1. L’uso dei Big Data a supporto della statistica
Daniela Fusco
dafusco@istat.it
Nuovi dati e nuove fonti: le statistiche sperimentali a misura di comune
Università degli studi «Parthenope», Napoli 23 maggio 2019
1
2. • Cosa sono i Big Data
• Un po’ di «storia»
• Indicazioni europee sull’uso dei Big Data a supporto della
statistica
• Vantaggi e svantaggi di utilizzo
• Aspetti normativi
• Principali fonti di Big Data ed esempi
• Aspetti qualitativi
2
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Sommario
4. 4
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Il sistema delle fonti
Fonte statistica:
Raccolta diretta dei dati: L’informazione viene espressamente raccolta al fine di conoscere
un determinato fenomeno sociale (ad es. censimento). L’attività statistica dell’Istat
confluisce nel PROGRAMMA STATISTICO NAZIONALE che comprende l'insieme di
rilevazioni ed elaborazioni considerate indispensabili per il Paese.
Fonte amministrativa:
Raccolta indiretta dei dati: L’informazione viene raccolta da enti titolari di processi in
ragione dei loro fini istituzionali. L’attività dell’Istat è di elaborazione di dati non statistici
che costituiscono patrimonio dell'ente titolare del processo, per renderli adatti all’uso
statistico (ad es. anagrafe comunale).
Altre fonti:
Open data, Big Data
5. Col termine Big Data “intendiamo una raccolta di dati così estesa in
termini di volume, velocità e varietà da richiedere tecnologie e metodi
analitici specifici per l'estrazione di valore”. (De Mauro et al. 2016)
5
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
6. Le Tre «V»
6
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
VOLUME
Equivale alla quantità dei big data, sia che essi siano stati generati dagli
utenti sia che, in maniera automatica, da macchine. Big data come
transazioni bancarie e movimenti sui mercati finanziari assumono
naturalmente valori mastodontici che non possono in alcun modo
essere gestiti con i tradizionali strumenti database.
7. 7
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
VARIETY
Riguarda la diversità dei formati e, spesso, l’assenza di una struttura
rappresentabile attraverso una tabella in un database relazionale. La
varietà dei big data è dovuta anche alla loro mancata strutturazione: tra
essi sono infatti inclusi anche documenti di vario genere (txt, csv, PDF,
Word, Excel, ecc.), blog post, commenti sui social network o sulle
piattaforme di microblogging come Twitter. I big data sono vari anche
nelle fonti: alcuni sono generati automaticamente da macchine, come i
dati provenienti da sensori o i log di accesso a un sito web o quelli del
traffico su un router, altri sono generati dagli utenti del web.
VELOCITY
E’ la velocità con cui i nuovi dati si rendono disponibili il terzo fattore di
identificazione dei big data, e proprio in funzione di questo parametro è
necessario l’utilizzo di strumenti in grado di garantirne il corretto
immagazzinamento.
8. 8
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
Ad oggi, i Big Data possono essere caratterizzati da ulteriori
discriminanti:
Variabilità: una caratteristica riferita alla possibile
inconsistenza dei dati analizzati;
Complessità: che aumenta in maniera direttamente
proporzionale alla dimensione del dataset;
Veridicità: relativa al valore informativo che è possibile
estrarre dai dati.
9. 9
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
10. 10
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Caratteristiche dei Big Data
11. 11
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Perché usare i Big Data
LE NECESSITA’ DI FONDO:
"MISURARE" LA SOCIETÀ E L’ECONOMIA È UN COMPITO SEMPRE PIÙ
COMPLESSO.
È IN AUMENTO LA DOMANDA DI INFORMAZIONE STATISTICA NELLA
SOCIETÀ.
CRESCE LA CAPACITÀ DI ARCHIVIARE, PROCESSARE E ANALIZZARE QUANTITÀ
SEMPRE MAGGIORI DI DATI.
È ESSENZIALE CONTENERE IL FASTIDIO STATISTICO SUI RISPONDENTI E
RIDURRE I COSTI COMPLESSIVI DELLA PRODUZIONE STATISTICA UFFICIALE.
IL SETTORE PRIVATO INVESTE UNA QUANTITÀ CRESCENTE DI RISORSE PER
ELABORARE DATI E INFORMAZIONI.
12. 12
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Perché usare i Big Data
SURVEY (CAMPIONARIE O CENSUARIE):
INDAGINI STATISTICHE PIANIFICATE AD HOC SPECIFICA POPOLAZIONE
OBIETTIVO DEFINIZIONI, CONCETTI E CLASSIFICAZIONI DEFINITE EX-
ANTE QUESITI MIRATI STIME BASATE SUL PARADIGMA INFERENZIALE
TRADIZIONALE (NEL CASO DI CAMP.) TECNOLOGIE E STRUMENTI DI
ANALISI NON PARTICOLARMENTE SOFISTICATI
MA…
• COSTI ELEVATI
• ELEVATA PRESSIONE STATISTICA SUI RISPONDENTI
NEL TEMPO I TASSI DI RISPOSTA DELLE SURVEY SONO
PROGRESSIVAMENTE DIMINUITI.
13. 13
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Perché usare i Big Data
ARCHIVI AMMINISTRATIVI (ANAGRAFI, BANCHE DATI
REDDITUALI, ARCHIVI MINISTERI, ETC.)
RIDUZIONE DEI COSTI E DEL FASTIDIO STATISTICO AUMENTO DEL DETTAGLIO
(SOTTO-POPOLAZIONI E LIVELLI TERRITORIALI) COERENZA DEL CONTESTO IN
CUI VENGONO PRODOTTI I DATI
MA…
• POPOLAZIONE OBIETTIVO ≠ POPOLAZIONE AMMINISTRATIVA
• DEFINIZIONI E CLASSIFICAZIONI POSSONO NON COINCIDERE CON QUELLI
UTILIZZATI DALLA STATISTICA UFFICIALE (AD ES. UNITÀ AMMINISTRATIVA ≠
UNITÀ STATISTICA)
• L’ACCESSO AI DATI PUÒ ESSERE PROBLEMATICO
• VALUTARE DISPONIBILITÀ E QUALITÀ DEI DATI AMMINISTRATIVI
È NECESSARIO TRADURRE IL SEGNALE AMMINISTRATIVO IN INFORMAZIONE
STATISTICA DI QUALITÀ!
14. 14
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Perché usare i Big Data
BIG DATA
• REGISTRANO EVENTI, SPESSO REGISTRANO "COMPORTAMENTI"
(SPONTANEI)
• AMPLIANO LE OPPORTUNITÀ DI ANALISI E LE INFORMAZIONI DISPONIBILI
• DATI TEMPESTIVI, GENERATI AD UN COSTO ESTREMAMENTE CONTENUTO
MA…
NEL FUTURO I BIG DATA
SARANNO UTILI PER
AMPLIARE LE OPPORTUNITÀ
DI ANALISI, AUMENTARE LA
TEMPESTIVITÀ DELLE
INFORMAZIONI,
CONTRIBUIRE A
MIGLIORARE LA QUALITÀ
DELLE STIME.
15. 15
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Un po’ di storia
Febbraio 2013: viene istituita una prima Commissione sui
Big Data di cui fanno parte per la maggior parte
accademici, unitamente a rappresentanti di AGID, Google,
Cisco e Banca d’Italia.
Immediatamente dopo, viene costituito un Gruppo di
lavoro interno, visto come «braccio operativo» della
Commissione, di cui fanno parte appartenenti ai settori IT e
metodologico
16. 16
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Un po’ di storia
Settembre 2013: viene adottato il memorandum
Scheveningen, il primo documento formale che afferma le
potenzialità dei Big Data e incoraggia gli Istituti di Statistica
ad esaminare le opportunità che essi offrono.
Settembre 2014: viene adottato Big Data Action Plan and
Roadmap, con l’obiettivo di preparare gli Istituti
all’integrazione dei Big Data nella statistica ufficiale. La
roadmap individua obiettivi di breve, medio e lungo
termine, tra il 2014 e il 2020.
17. 17
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Indicazioni europee sull’uso dei Big Data
ESS VISION 2020
KEY AREA 3: New data sources
Esplorare la possibilità di usare i Big Data nella produzione:
- Integrare le fonti tradizionali
- Ripetere le informazioni delle fonti tradizionali
- Stimare variabili ausiliarie allo studio di fenomeni sociali
ed economici
- Stimare fenomeni sociali ed ambientali attraverso i dati
geospaziali
Fonte complementare e non sostitutiva
18. 18
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Indicazioni europee sull’uso dei Big Data
Aprile 2015: la Commissione sui Big Data conclude i suoi lavori. Nel
documento conclusivo viene delineata la seguente roadmap:
1. Investimento sulle fonti Big oggetto delle sperimentazioni per una
messa in produzione nei prossimi 12-18 mesi.
2. Investimento su sperimentazioni con altre fonti Big Data: Social Media,
Immagini (sia da Webcam che satellitari).
3. Predisposizione di un Laboratorio Informatico interno, per “tuning” e
analisi di applicazioni.
4. Investimenti sui nuovi skill, sia mediante formazione interna sia
mediante collaborazioni accademiche.
5. Gestione delle problematiche connesse al trattamento ed alla privacy
dei dati Big, mediante accordi specifici con il Garante per la Privacy.
6. Gestione di accordi con Provider di dati Big per la fornitura secondo
modelli di business da definire.
19. 19
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Aspetti normativi
Legislazione specifica
Privacy
Copyright
20. 20
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Aspetti normativi
Legislazione specifica
articolo 64-sexies della legge 633/1941 e successive modifiche
Privacy
Decreto legislativo 196/2003
Copyright
Legge 633/1941
21. 21
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Aspetti normativi
Rispetto dei diritti umani e
della libertà fondamentale
Rispetto dei diritti
Netiquette
22. 22
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Netiquette: suggerimenti
• Identificatevi nella stringa utente-agente e fornite un mezzo per il sito Web
per contattarvi, che potrebbe essere tramite un collegamento a una pagina
Web
• Siate trasparenti sulle attività di Web scraping, possibilmente fornendo
informazioni sul proprio sito Web
• Informate i proprietari di siti Web se viene raccolta una quantità
considerevole di dati
• Cercate di ridurre al minimo l'onere sui proprietari dei siti Web, ad esempio
lavorando in un momento della giornata durante il quale il sito Web non è
sotto carico
• Eseguite la scansione dei dati per la produzione di sistemi operativi
nell'ambito del vostro mandato e non riutilizzate o distribuite i dati per
nessun altro scopo
• Gestire i dati scaricati in rete in modo sicuro secondo tutti i protocolli e le
leggi pertinenti
23. 23
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Le fonti di Big Data
Internet
Social
media
Mobile
data
Transazioni
carte di
credito
Transazioni
commerciali
E-commerce
Sensori
di
traffico
Sensori
meteo
Mobile
position data
Immagini
satellitari
24. 24
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Internet e il web scraping
Lo Scraping (dall’inglese to scrape che significa
“grattare”, “raschiare”, “racimolare”) è una
tecnica informatica che consiste nell’estrazione
di dati in modo automatizzato attraverso
strumenti in grado di scandagliare risorse web
e collezionare informazioni.
25. 25
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Internet e il web scraping
Generico Specifico
26. 26
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Internet e il web scraping
27. 27
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Internet e il web scraping
28. 28
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Internet e il web scraping
Alcuni strumenti:
PYTHON è un linguaggio di programmazione interpretato (non serve
la compilazione) molto versatile e facile da usare. Data la quantità
spropositata di moduli liberamente scaricabili e utilizzabili, Python è
estremamente versatile. Consente di creare scraper con i pacchetti
REQUEST e BEAUTIFULSOUP.
R-vest è un nuovo pacchetto di R che consente di fare scraping ed è
ispirato alla libreria BEAUTIFULSOUP di Python.
SAS attraverso la PROC HTTP e funzioni di parsing come FIND e
SCAN
29. 29
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
Quali informazioni poter ricavare
• Quanto frequentemente un determinato utente comunica con un altro?
• Quanto è simmetrica la comunicazione fra gli utenti di una rete sociale?
• Quali sono gli utenti più influenti (e/o popolari)?
• Quali sono gli argomenti principalmente affrontati e discussi da un utente?
• Quali sono gli argomenti verso i quali un determinato insieme (e. g.,
geografico) di utenti prova maggiore interesse?
• Qual è l’opinione di un utente o un insieme di utenti relativamente a un
argomento?
30. 30
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
API (Application Programming Interface):
un insieme di procedure rese disponibili all’esterno, di
solito raggruppate a formare un insieme di strumenti
specifici per l’espletamento di un determinato compito
all’interno di un certo programma.
Tutti i maggiori Social Network esistenti forniscono delle
API.
31. 31
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
API twitter twitteR package
32. 32
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
Pacchetti R richiesti:
"twitteR“
"RCurl“
"tm“
"wordcloud“
Chiavi richieste proventi dall’API
consumer_key <- 'xxxxxxxxxxxxxxxxxxxxxx'
consumer_secret <- xxxxxxxxxxxxxxxxxxxxxx'
access_token <- 'xxxxxxxxxxxxxxxxxxxxxx'
access_secret <- 'xxxxxxxxxxxxxxxxxxxxxx'
33. 33
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
34. 34
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Social Network
Semantic
Brand
Score
Prevalenza
Diversità Connettività
Prevalenza: quante volte
viene menzionato un
brand
Diversità: del contesto
lessicale
Connettività: quante volte
ricorre connesso ad altri
Andrea Fronzetti Colladon, Università di Perugia
35. 35
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Scanner data
36. 36
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Scanner data
Indice dei prezzi al consumo:
- Accordi con la GDO
- Rilevazione su 2.146 punti vendita
- 1.800.000 referenze
37. 37
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Transazioni delle carte di credito
Tipologie di transazione pagatore/ricevente:
- business-to-business (B2B)
- consumer-to-business (C2B)
- consumer-to-consumer (C2C)
Obiettivo: miglioramento delle stime anticipate sia del
tasso di crescita del PIL attraverso dati dei flussi dei
pagamenti elettronici e di carte di credito del sistema dei
pagamenti della BCE
38. 38
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Transazioni delle carte di credito
“ESSnet Big Data”, WPG Financial Transactions Data
Fase 1 – utilizzo delle serie aggregate relative ai Circuiti di
scambio e regolamento interbancario del Sistema dei
pagamenti internazionale su transazioni elettroniche a fine
di previsione delle serie del GDP, o di altri macro aggregati
Fase 2 – in collaborazione con la Banca d’Italia, si vorrebbe
produrre delle stime delle serie delle transazioni
elettroniche per la stima delle vendite totali o per tipologie
(e-commerce, spese turistiche, etc.) o per la previsione
delle componenti del PIL o dei consumi
39. 39
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Sensori di traffico
Cosa rilevano:
- Veicoli in transito
- Targhe
- Velocità
- Direzione
Cosa si può ottenere:
- Stima dei flussi di traffico
- Definizione degli archi stradali
- Incidenti stradali
- Costruzione di indicatori di
traffico (es. veicoli teorici medi
giornalieri)
40. 40
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Sensori di traffico
Obiettivo del progetto Open street map*:
Misurazione dei flussi sulla rete stradale italiana per stimare la probabilità
di essere coinvolti nel sinistro, tenendo conto della diversa esposizione al
rischio.
Stato dell’arte:
Integrazione tra Video ANAS e Google traffic per misurare l’intensità di
traffico rilevata nel punto.
*Broccoli M., Buzzone S. - Istat
41. 41
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
Call Detail Records (CDR) e
Data Detail Records (DDR):
eventi di chiamata e/o
connessione a internet da
cellulare, che consentono di
individuare la real time location
di un individuo.
Possibili sviluppi:
- SLL
- Domanda turistica
- Trasporti
Grosse potenzialità ma molte
problematiche
42. 42
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
Problematiche:
- Accordi con i gestori;
- Rigorosa tutela della privacy;
- Comunicazione al cittadino;
- Identificazione della popolazione di
interesse;
- Copertura
43. 43
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
“Sperimentazione per l’utilizzo di big data su telefonia mobile nell’ambito delle
statistiche sulla domanda turistica”*
Obiettivo: Migliorare le statistiche sui flussi turistici
Obiettivi di medio termine:
- Definizione della metodologia
- Sperimentazione e confronto con le fonti tradizionali
Obiettivi di lungo termine:
- Costruzione di indicatori sul turismo locale
- Confronto con i risultati delle statistiche sull’offerta turistica
*Dattilo B., Sabato M. - Istat
44. 44
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
Nuovo modulo del Focus Viaggi (dal 2015):
1) l’utilizzo del cellulare in viaggio (quanto il cellulare è utilizzato durante lo
spostamento turistico);
2) le modalità di utilizzo del cellulare in viaggio (per effettuare chiamate,
inviare messaggi, connettersi a internet);
3) il numero delle SIM viaggianti;
4) le tipologie di intestatari delle SIM viaggianti (partecipanti/non partecipanti
al viaggio, aziende, ecc.).
Utilizzo:
- Studio del contesto;
- Grado di copertura dei mobile phone rispetto al fenomeno del turismo;
- Base informativa per il calcolo di coefficienti correttivi da applicare in futuro
45. 45
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
Quali dati arrivano
- SIM criptata
- Tipo di CDR (Chiamata, WA, SMS)
- Ora e data della chiamata
- Localizzazione (inizio e fine)
“Unique in the crowd: The privacy bounds of human mobility (MIT)”:
Fissato tempo e spazio solo un telefono fa quel tipo di CDR
46. 46
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Mobile position data
“Re-identification risk in mobile phone data”*
(Istat):
- Residenza
- Luogo di lavoro
- Operatore telefonico
Rik = 1,3% con P(Iik)>=0,02
Rik 0 con P(Iik)>=0,5
* De Fausti F., Radini R., Tuoto T., Valentino L. - Istat
47. • Disponibilità
• Continuità della fornitura dei dati
• Presenza di metadati
• Dati temporali
• Unità di osservazione
• Variabili osservate
47
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Aspetti qualitativi
48. 48
L’uso dei Big Data a supporto della statistica
Uni Parthenope, 23 maggio 2019
Grazie per l’attenzione!