F. Altarocca, F. Amato, F. Brogi, M. Bruno, E. Cerasti, S. Causo, F. De Fausti, B. Guardabascio, P. Pizzo, M. Scannapieco, D. Zardetto
5 maggio 2021 -
European big data hackaton: cosmopolitics
Ecosystem Interactions Class Discussion Presentation in Blue Green Lined Styl...
Verso le trusted smart statistics - prospettive di sviluppo e risultati del essnet big data pilots II
1. EUROPEAN BIG DATA HACKATHON: COSMOPOLITICS
Team Istat:
F. Altarocca, F. Amato, F. Brogi, M. Bruno, E. Cerasti, S. Causo, F. De Fausti, B. Guardabascio, P. Pizzo,
M. Scannapieco, D. Zardetto
Istat, 5 Maggio 2021
ESSnet Big Data Pilots II: Risultati e prospettive di sviluppo verso le Trusted Smart Statistics
2. o Cos’è l’Hackaton (MAURO)
o Cosmopolitics: architettura (FRANCESCO)
o Analizzare il commercio estero via Big Data: integrazione di nuove informazioni e prospettive (SERENA)
o Evoluzione degli scambi al tempo del Covid-19: (ERIKA)
o Metodologia (Social Network Analysis)
o Risultati
o Misurare l’impatto del Covid-19 su Import ed Export: (FEDERICO)
o Metodologia (Interrupted Time Series Model)
o Risultati
o Demo (PAOLO)
Indice della presentazione
COSMOPOLITICS | MAURO BRUNO
2
3. o L'European Big Data Hackathon è un evento biennale organizzato dalla Commissione Europea
(Eurostat) a partire dal 2017:
E’ un evento che fa parte della conferenza NTTS
Riunisce team da tutta Europa in una competizione
Lo scopo è realizzare un prodotto che combina statistiche ufficiali e big data
L’obiettivo è supportare i decisori politici su una pressante questione che l'Europa deve affrontare.
o Scopi della competizione
Sviluppo di algoritmi e utilizzo di grandi moli di dati rilevanti disponibili
Interazione tra sviluppatori e data scientist in tutta Europa
Promozione dei big data per iniziative statistiche in Europa
Produzione di prodotti e strumenti innovativi, soprattutto nella data visualisation, per stimolare l'uso di
dati aperti e file di uso pubblico.
Cos’è l’Hackaton
COSMOPOLITICS | MAURO BRUNO
3
4. o Policy question:
Creare una applicazione (dashboard) per prevedere e simulare le relazioni commerciali internazionali in
un network ad alta risoluzione per prodotto e tempo
Analisi di scenario e sostegno alle politiche di commercio internazionale
Dashboard interattiva
Capacità di rappresentare i network internazionali di scambio globale
Rappresentare relazioni per partner, prodotti e mezzi di trasporto
Analisi a livello di prodotto più disaggregato possibile
Simulazione di scenario per interruzioni di mezzo di trasporto
Ulteriori analisi suggerite: studio dell’impatto sui prodotti COVID, etc.
o 22 squadre partecipanti
o Vincitori: 1° Italia, 2° Polonia, 3° Lituania
L'European Big Data Hackathon 2021
COSMOPOLITICS | MAURO BRUNO
4
5. Cosmopolitics: architectural context
5 COSMOPOLITICS | FRANCESCO AMATO
Solution
Smart & Light
Dashboard
Heterogeneou
s processing
Microservices
architecture
6. Cosmopolitics: architectural solution
6 COSMOPOLITICS | FRANCESCO AMATO
<Cosmopolitcs UI>
<Microservices Back-end>
BD
Hackathon
{JSON-Server}
visualization
processing
Data
{JSON}
7. Cosmopolitics: in action
7 COSMOPOLITICS | FRANCESCO AMATO
Data Collection
Data Processing
Data Visualization
{JSON-Server}
Automated
data
retrieval
Light
components
Easy deploy
Run anywhere
Embeddable
views
components
9. Fonti dati
9
Utilizzo integrato di Open Data di diversa natura per rispondere alla policy question
COSMOPOLITICS | M.SERENA CAUSO
Fonti Eurostat
o Dati statistici ufficiali sul commercio estero prodotti dai 27 Paesi
Membri secondo metodologie armonizzate basate su regolamenti
comunitari: massima granularità temporale (frequenza mensile)
e merceologica, interscambio commerciale tra singoli Paesi, per
modo di trasporto e per natura della transazione.
o FIGARO tavole statistiche sperimentali: tavole inter-country
supply, use, input-output, prodotte a partire da dati ufficiali
utilizzando metodi per stimare dai dati la struttura globalizzata
dei fenomeni di produzione e commercializzazione.
Fonte Istat «Hackathon 2021» di integrazione fonti Eurostat
o Prodotto sperimentale che estende ai dati ufficiali Eurostat a
massima granularità la struttura di globalizzazione delle tavole
sperimentali FIGARO
Google mobility open data
o Rapporti sugli spostamenti della
comunità: indicatori basati su GPS big
data per misurare le politiche di
restrizione applicate nel contenimento
della pandemia
10. L’opportuna combinazione e integrazione delle fonti, insieme alla ricchezza informativa delle fonti stesse, ha
consentito lo sviluppo di strumenti di analisi dinamici ed interattivi in grado di mettere in luce:
o Le rapide dinamiche che durante la pandemia hanno modificato i flussi commerciali non solo nei volumi di
scambio, ma anche in termini di composizione del paniere di beni scambiati, di centralità nei flussi assunta
nel momento di crisi da determinati paesi per specifiche classi di prodotti
o Cambiamenti nei «path» di interconnessione tra paesi, in cui paesi «intermedi» nelle catene del valore
posso assumere ruoli centrali in una fase di crisi degli scambi
o L’effetto dell’interruzione degli scambi bilaterali per determinate modalità di trasporto sui flussi complessivi di
determinate categorie di prodotti
o L’effetto delle restrizioni di mobilità per una più rapida ripresa successiva
Potenzialità nell’utilizzo integrato delle fonti per rispondere alla
domanda di policy
COSMOPOLITICS | M.SERENA CAUSO
10
11. Sebbene sviluppato per un focus specifico sugli effetti dell’emergenza Covid sui flussi di commercio estero, il prodotto
si configura come uno strumento statistico sperimentale del tutto generale, utile per:
o Analizzare l’evoluzione temporale dei flussi di beni attraverso le strutture delle catene del valore
o Studiare correlazioni tra indicatori di trade costruiti su dati statistici ufficiali e fenomeni sociali misurabili da big data
o Consentire al policy maker di valutare in anticipo l’effetto di modifiche nelle relazioni bilaterali tra paesi
(investimenti logistici o sui traporti, incremento di investimenti esteri, etc.)
Ulteriori potenzialità di utilizzo:
o Possibilità di estensione a domini statistici diversi (analisi delle relazioni tra paesi mediante imprese
multinazionali, o tra territori in ambito nazionale nel contesto della delocalizzazione produttiva)
o Alta versatilità nella possibilità di interfacciarsi con regolarità ad open-data di natura diversa per aggiornare le basi
dati utilizzate
o Limitata necessità di intervento manuale.
Potenzialità del prodotto sviluppato per la produzione di
statistiche sperimentali «a regime»
COSMOPOLITICS | M.SERENA CAUSO
11
12. o La Network Analysis può essere applicata
a diversi domini di interesse
o Si basa sullo studio di relazioni, quindi
fornisce approfondimenti sulle dinamiche
che coinvolgono le interazioni tra diversi
elementi.
o Sfrutta la teoria dei grafi: i grafi sono usati
per modellare molti tipi di relazioni,
dimensione strutturale, interdipendenza.
Adatta per l'analisi dei dati del commercio
internazionale
Perché usare la Network Analysis
COSMOPOLITICS | ERIKA CERASTI
12
13. Abbiamo utilizzato i “Dati mensili COMEXT per mezzo di trasporto” per costruire
grafo delle relazioni commerciali internazionali e utilizzare misure grafiche standard
per caratterizzare le strutture delle relazioni.
Filtri
• Periodo: periodo di tempo di interesse
• Percentuale: % del flusso commerciale preso in considerazione per creare il
grafo (cutoff)
• Transporto: unknown, marittimo, ferroviario, su strada, aereo, postale,
meccanismo fisso, via navigabile itnerna, auto propulsione. (dal database
Comext)
• Prodotto: un prodotto di interesse o tutti insieme
• Flusso: Import o Export
• Peso: Vero o Falso per il grafico ponderato o non ponderato (importi scambiati)
Una volta che tutti i filtri sono stati istanziati, viene creato e visualizzato un grafico.
Le posizioni relative sono date dall’ “Algoritmo di layout della molla”.
Network Analysis per i dati di Trade
COSMOPOLITICS | ERIKA CERASTI
13
Cosmopolitics dashboard
14. Le misure di centralità vengono calcolate e visualizzate nella dashboard:
• Diffusione del prodotto: corrisponde alla graph density e rappresenta
quanto il prodotto viene distribuito nel grafico
• Vulnerabilità: (1 - indegree centrality) per ogni paese. Trasmette il
messaggio che se un paese riceve un prodotto da diversi paesi è meno
dipendente dai singoli paesi per la fornitura del prodotto.
• Forza dell’export: corrisponde alla outdegree centrality fuori grado di
ciascun paese.
• Hubness: corrisonde alla centralità betweenness di ciascun paese.
GRAPH DENSITY
Network Analysis per i dati di Trade
COSMOPOLITICS | ERIKA CERASTI
14
La dashboard consente di visualizzare diversi grafici e misure per diverse
combinazioni di valori di filtri.
15. ANALISI DI SCENARIO
La dashboard permette di eliminare uno o più link dal grafico e vedere
come cambia la struttura delle rete e le sue misure. In questo modo è
possibile rilevare i cambiamenti e di valutare l’effetto di azioni (connesse
a decisioni politiche ed economiche) nell’analisi di scenario.
Resultati – Analisi di scenario e rilevamento delle modifiche
COSMOPOLITICS | ERIKA CERASTI
15
16. Rilevamento – Effetto Brexit
COSMOPOLITICS | ERIKA CERASTI
16
Febbraio - Marzo 2020
Il grafico mostra l’effetto “Brexit”, con il cambiamento della posizione relativa alla Gran Bretagna in un'area più
periferica del grafico rispetto ai paesi europei
Effetto
Brexit
Gennaio 2020 Febbraio 2020
17. Effetto pandemico sul commercio mondiale – il caso Cina
COSMOPOLITICS | ERIKA CERASTI
17
Marzo – Aprile 2020
Effetto della pandemia: cambiamento del ruolo della Cina nel commercio mondiale di manufatti tessili, a causa
della vendita di maschere.
La Cina assume un ruolo più centrale nel grafico: aumento della misura di “centralità” per la Cina.
Marzo 2020
Centralità=0.38
Aprile 2020
Centralità=0.66
18. Google COVID-19 Community Mobility Reports
o Dati giornalieri sulla variazione delle visite presso luoghi diversi rispetto a un riferimento (valore mediano
di un dato giorno della settimana rispetto al periodo 3 gennaio - 6 febbraio 2020)
o Categorie di luoghi: Alimentari e farmacie, Parchi, Stazioni trasporto pubblico, Retail e tempo libero,
Zone residenziali, Verso Luoghi residenziali e Luoghi di lavoro
Metodologia
o Analisi in Componenti Principiali dei dati giornalieri delle 6 categorie
o Estrazione della prima componente principale (che massimizza la maggiore variabilità nella mobilità)
o Valori riscalati per costruire un indicatore nel range (0,1) con la formula
𝑦𝑡 =
𝑥𝑡 − min 𝑥𝑡
max(𝑥𝑡) − min 𝑥𝑡
L’indicatore sintetico giornaliero POLICY INDICATOR è ottenuto con l’intento di rappresentare le restrizioni
di mobilità introdotte in ciascun paese UE, con 1 = lockdown totale e 0 = nessuna restrizione.
Analisi della mobilità
COSMOPOLITICS | FEDERICO BROGI
18
21. Impatto della pandemia su Import/Export per paese, partner e BEC in mln. Euro
o BEC: Food And Beverages, Industrial Supplies, Fuels And Lubricants, Capital Goods, Transport Equipment,
Consumer Goods
o I dati: serie delle variazioni tendenziali di COMEXT (mensili) + Policy Indicator (in media mensile)
o Modello delle Serie storiche interrotte controfattuale: «cosa sarebbe accaduto senza il COVID?»
𝑌𝑡 = 𝛽0 + 𝛽1 ∙ 𝑇 + 𝛽2 ∙ 𝐷 + 𝛽3 ∙ 𝑃𝑜𝑙𝑖𝑐𝑦 𝐼𝑛𝑑𝑖𝑐𝑎𝑡𝑜𝑟
o Risultati
Stima dell'effetto mensile e cumulato (fino all’ultimo dato di COMEXT disponibile)
Nowcasting della serie utilizzando le osservazioni disponibili del Policy Indicator mensile successive
all'ultimo dato di COMEXT
Forecasting fino a ulteriori 6 mesi utilizzando il livello di restrizioni mensile imposto dall'utente
Analisi dei BEC (Broad Economic Categories)
COSMOPOLITICS | FEDERICO BROGI
21