SlideShare a Scribd company logo
A Big Data approach for error detection
in weather data
SOON
Marco Venturini
• Chi è Amigo Climate
• Dati climatici e error detection
• Architetture e tecnologie
• Algoritmi e Machine Learning
• Deployment
• Risultati
SUMMARY
ABOUT US
Amigo è la prima SME italiana dedicata ai Servizi Climatici.
Il clima sta cambiando.
AdattarsiContrastare
ABOUT US
Amigo è la prima SME italiana dedicata ai Servizi Climatici.
Il clima sta cambiando.
AdattarsiContrastare
ABOUT US
Amigo è la prima SME italiana dedicata ai Servizi Climatici.
Consulenza e supporto decisionale.
Assicurazioni
Water Utilities
Energia
CLIMATE DATA
Stazioni
metereologiche
Dati satellitari
Radiosondaggi
Sensori IoT
Reanalisi
Allerte meteo
Modellizzazione
Analisi
DATA
CLIMATE DATA
Stazioni
metereologiche
Dati satellitari
Radiosondaggi
Sensori IoT
Reanalisi
Allerte meteo
Modellizzazione
Analisi
CHALLENGE
Sviluppare un framework di quality control delle osservazioni
climatiche attraverso un approccio Big Data, salvaguardando gli
eventi estremi
Free funding Tech and business
support
Work environment
Data
Analisi multi-dimensionale
COMPONENTI
900
920
940
960
980
1000
hPa
Pressure
Temporale
Spaziale
Parametrico
ARCHITETTURA
Analytics Engine
Machine Learning e analytics
Apache Spark
PySpark
Data Visualization
Web-service
HTML5
D3js
Data Routing Framework
Routing Framework
Apache NiFi
HDFS
Kerberos and Apache Ranger
NoSQL Datastore
Data
ARCHITETTURA
Apache HBase
Columns Family
NoSQL DataStore Machine Learning and
Analytics
BackendFrontend
D3js
JavaScript Visualization
Framework
Web-Service
Data Routing Framework
ARCHITETTURA
Apache NiFi
È una piattaforma integrata di
logistica dei dati per
automatizzare il movimento
di dati tra sistemi diversi.
Fornisce un controllo in
tempo reale che semplifica la
gestione dei movimenti di
dati tra qualsiasi sorgente e
qualsiasi destinazione.
Event Processor
Input Output
Pre-processing ML Processing
Filtro valori
non fisici
Dataset
enrichment
Temporale
Score assignment
Identificazione
outliers
Rilevamento
eventi estremi
Spaziale
Parametrico
WORKFLOW
MACHINE LEARNING
K-Means Clustering
• Aumento della precisione
predittiva
• Necessità di allenare K
modelli
• Parallelizzabile
• Facile da implementare
• Features adattabili
MACHINE LEARNING
Feature (!) Feature (!)
∑
Random Forest Regressor
Random Forest
• Versatile
• Alte prestazioni su grandi moli
di dati
• Parallelizzabile
• Efficiente su dataset non
bilanciati
• Robusto ad errori ed outliers
MACHINE LEARNING
24 osservazioni precedentiTemporal
Osservazioni dei primi 5 vicini disponibiliSpatial
Altre variabili scelte mediante analisi correlativaParametric
Predizione
TRAINING
Il dataset pilota consiste in osservazioni, più o meno omogenee, provenienti da stazioni meteorologiche e
dispositive IoT
• 7 variabili meteorologiche (temperatura, pressione atmosferica, wind speed, wind gust, accumulo
precipitativo, dewpoint temperature, nuvolosità).
• Metadati: posizione geografica e altitudine di ogni singola stazione
• Intervallo temporale: 2004-01-01 to 2014-11-08, con step di 1 ora.
• 9656 stazioni su tutta l’Europa.
• 80 milioni di dati osservati
• 210 GB di dati
COMPUTING
La predizione è comparata all’osservazione corrente
dove !"#$ è una approssimazione dell’errore minimo, calcolato sul training set, e % è il
modulo, & per quello temporale, ' per quello spaziale e ( per quello parametrico
#)* =
, − .,
3 0 !"#$
predictions scores
Ogni modulo ha fornisce il
proprio score -> indice di
errore
COMPUTING
Lo score finale è calcolato attraverso la media pesata. I pesi sono relativi all’affidabilità dei
modelli (sia per il cluster che per la tipologia di analisi)
final score
!" =
$%!"% + $'!"' + $(!"(
$% + $' + $(
Score maggiore a 1 -> Errore
EVENTI ESTREMI
Inizializzazione
Fitting
Definizione della
threashold
Filtering errors
Raccolta tutti i dati estremi
per ogni cluster
Generalized Pareto
Distribution
Dai risultati del fitting
Valori inferiori alla soglia
non vengono più etichettati
come errori
VISUALIZZAZIONE
VISUALIZZAZIONE
APPLICAZIONI
CONTATTI
The Commercial team
has a strong
experience in
entrepreneurship,
commercialization,
business and product
design
The Technical team
has a strong
scientific
background and an
impressive
programming skills
based on previous
experience of the
members
Marco Venturini
Data Engineer
Sara Dal Gesso
Physicist
Marcello Petitta
CEO
Elisa Arnone
Scientist
Livia Ortolani
Economist
Brian Baldassarre
Strategic Designer
www.amigoclimate.com
info@amigoclimate.com
Vuoi entrare nel team?
Grazie!

More Related Content

Similar to A big data approach for error detection in weather data (Marco Venturini, Amigo Climate)

Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
Webinar “Dati e servizi meteorologici digitali al servizio delle utility”Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
Servizi a rete
 
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
convegnonazionaleaiic
 
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
walk2talk srl
 
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
Confindustria Emilia-Romagna Ricerca
 
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
Servizi a rete
 
Book impianti Centralizzati TV e SAT-FTE Maximal Italia
Book impianti Centralizzati TV e SAT-FTE Maximal ItaliaBook impianti Centralizzati TV e SAT-FTE Maximal Italia
Book impianti Centralizzati TV e SAT-FTE Maximal Italia
Massimo Talia
 
SWAMM
SWAMMSWAMM
Previsione della radiazione solare mediante modelli basati su reti neurali ar...
Previsione della radiazione solare mediante modelli basati su reti neurali ar...Previsione della radiazione solare mediante modelli basati su reti neurali ar...
Previsione della radiazione solare mediante modelli basati su reti neurali ar...
Università degli Studi di Milano - Sede di Crema
 
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
Confindustria Emilia-Romagna Ricerca
 
DatiSME - software di monitoraggio ambientale | opus automazione spa
DatiSME - software di monitoraggio ambientale | opus automazione spaDatiSME - software di monitoraggio ambientale | opus automazione spa
DatiSME - software di monitoraggio ambientale | opus automazione spa
opus automazione spa
 
Milano Air Quality: Interactive Data Visualization
Milano Air Quality: Interactive Data VisualizationMilano Air Quality: Interactive Data Visualization
Milano Air Quality: Interactive Data Visualization
Giorgio Carbone
 
Analisi Energetiche e BIM
Analisi Energetiche e BIMAnalisi Energetiche e BIM
Analisi Energetiche e BIM
Andrea Denza
 
Energy Manament
Energy Manament Energy Manament
Energy Manament
SENECA
 
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
Servizi a rete
 
Presentazione GarganoLab - Forum PA 2014
Presentazione GarganoLab - Forum PA 2014 Presentazione GarganoLab - Forum PA 2014
Presentazione GarganoLab - Forum PA 2014
Apulian ICT Living Labs
 
Android ed utilizzo_dei_sensori
Android ed utilizzo_dei_sensoriAndroid ed utilizzo_dei_sensori
Android ed utilizzo_dei_sensori
Danilo Riso
 
Integrazione di dati meteorologici nei processi delle Utility come strumento ...
Integrazione di dati meteorologici nei processi delle Utility come strumento ...Integrazione di dati meteorologici nei processi delle Utility come strumento ...
Integrazione di dati meteorologici nei processi delle Utility come strumento ...
Servizi a rete
 
Smart water 3 novembre
Smart water 3 novembreSmart water 3 novembre
Smart water 3 novembrecanaleenergia
 
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersioneEmissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
ARIANET
 
the Energy Audit - caso coop centrale adriatica
the Energy Audit - caso coop centrale adriaticathe Energy Audit - caso coop centrale adriatica
the Energy Audit - caso coop centrale adriatica
TheEnergyAudit
 

Similar to A big data approach for error detection in weather data (Marco Venturini, Amigo Climate) (20)

Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
Webinar “Dati e servizi meteorologici digitali al servizio delle utility”Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
Webinar “Dati e servizi meteorologici digitali al servizio delle utility”
 
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
MANAGEMENT DELLA CATENA DEL FREDDO: VALUTAZIONE DEL CICLO DI VITA E DI INDICA...
 
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
CCI 2019 - Strumenti Azure per l'Anomaly Detection in ambito Industria 4.0
 
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
Smart City e Qualità dell’Aria: può la tecnologia soddisfare le aspettative?
 
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
Webinar 25/11 "Soluzioni Digitali per i Gestori Pubblici"
 
Book impianti Centralizzati TV e SAT-FTE Maximal Italia
Book impianti Centralizzati TV e SAT-FTE Maximal ItaliaBook impianti Centralizzati TV e SAT-FTE Maximal Italia
Book impianti Centralizzati TV e SAT-FTE Maximal Italia
 
SWAMM
SWAMMSWAMM
SWAMM
 
Previsione della radiazione solare mediante modelli basati su reti neurali ar...
Previsione della radiazione solare mediante modelli basati su reti neurali ar...Previsione della radiazione solare mediante modelli basati su reti neurali ar...
Previsione della radiazione solare mediante modelli basati su reti neurali ar...
 
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
Il progetto EffiCity: Sistemi energetici efficienti per distretti urbani inte...
 
DatiSME - software di monitoraggio ambientale | opus automazione spa
DatiSME - software di monitoraggio ambientale | opus automazione spaDatiSME - software di monitoraggio ambientale | opus automazione spa
DatiSME - software di monitoraggio ambientale | opus automazione spa
 
Milano Air Quality: Interactive Data Visualization
Milano Air Quality: Interactive Data VisualizationMilano Air Quality: Interactive Data Visualization
Milano Air Quality: Interactive Data Visualization
 
Analisi Energetiche e BIM
Analisi Energetiche e BIMAnalisi Energetiche e BIM
Analisi Energetiche e BIM
 
Energy Manament
Energy Manament Energy Manament
Energy Manament
 
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
PNRR: sprint per il rilancio sostenibile dell'industria idrica | 8 aprile, Gr...
 
Presentazione GarganoLab - Forum PA 2014
Presentazione GarganoLab - Forum PA 2014 Presentazione GarganoLab - Forum PA 2014
Presentazione GarganoLab - Forum PA 2014
 
Android ed utilizzo_dei_sensori
Android ed utilizzo_dei_sensoriAndroid ed utilizzo_dei_sensori
Android ed utilizzo_dei_sensori
 
Integrazione di dati meteorologici nei processi delle Utility come strumento ...
Integrazione di dati meteorologici nei processi delle Utility come strumento ...Integrazione di dati meteorologici nei processi delle Utility come strumento ...
Integrazione di dati meteorologici nei processi delle Utility come strumento ...
 
Smart water 3 novembre
Smart water 3 novembreSmart water 3 novembre
Smart water 3 novembre
 
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersioneEmissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
 
the Energy Audit - caso coop centrale adriatica
the Energy Audit - caso coop centrale adriaticathe Energy Audit - caso coop centrale adriatica
the Energy Audit - caso coop centrale adriatica
 

More from Data Driven Innovation

Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Data Driven Innovation
 
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
Data Driven Innovation
 
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
Data Driven Innovation
 
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Data Driven Innovation
 
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
Data Driven Innovation
 
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Data Driven Innovation
 
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Data Driven Innovation
 
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Data Driven Innovation
 
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
Data Driven Innovation
 
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Data Driven Innovation
 
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Data Driven Innovation
 
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
Data Driven Innovation
 
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
Data Driven Innovation
 
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Data Driven Innovation
 
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Data Driven Innovation
 
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Data Driven Innovation
 
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Data Driven Innovation
 
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Data Driven Innovation
 
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Driven Innovation
 
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data Driven Innovation
 

More from Data Driven Innovation (20)

Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
 
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
 
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
 
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
 
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
 
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
 
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
 
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
 
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
 
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
 
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
 
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
 
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
 
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
 
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
 
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
 
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
 
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
 
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
 
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
 

A big data approach for error detection in weather data (Marco Venturini, Amigo Climate)

  • 1. A Big Data approach for error detection in weather data SOON Marco Venturini
  • 2. • Chi è Amigo Climate • Dati climatici e error detection • Architetture e tecnologie • Algoritmi e Machine Learning • Deployment • Risultati SUMMARY
  • 3. ABOUT US Amigo è la prima SME italiana dedicata ai Servizi Climatici. Il clima sta cambiando. AdattarsiContrastare
  • 4. ABOUT US Amigo è la prima SME italiana dedicata ai Servizi Climatici. Il clima sta cambiando. AdattarsiContrastare
  • 5. ABOUT US Amigo è la prima SME italiana dedicata ai Servizi Climatici. Consulenza e supporto decisionale. Assicurazioni Water Utilities Energia
  • 6. CLIMATE DATA Stazioni metereologiche Dati satellitari Radiosondaggi Sensori IoT Reanalisi Allerte meteo Modellizzazione Analisi DATA
  • 7. CLIMATE DATA Stazioni metereologiche Dati satellitari Radiosondaggi Sensori IoT Reanalisi Allerte meteo Modellizzazione Analisi
  • 8. CHALLENGE Sviluppare un framework di quality control delle osservazioni climatiche attraverso un approccio Big Data, salvaguardando gli eventi estremi Free funding Tech and business support Work environment Data
  • 10. ARCHITETTURA Analytics Engine Machine Learning e analytics Apache Spark PySpark Data Visualization Web-service HTML5 D3js Data Routing Framework Routing Framework Apache NiFi HDFS Kerberos and Apache Ranger NoSQL Datastore Data
  • 11. ARCHITETTURA Apache HBase Columns Family NoSQL DataStore Machine Learning and Analytics BackendFrontend D3js JavaScript Visualization Framework Web-Service Data Routing Framework
  • 12. ARCHITETTURA Apache NiFi È una piattaforma integrata di logistica dei dati per automatizzare il movimento di dati tra sistemi diversi. Fornisce un controllo in tempo reale che semplifica la gestione dei movimenti di dati tra qualsiasi sorgente e qualsiasi destinazione. Event Processor
  • 13. Input Output Pre-processing ML Processing Filtro valori non fisici Dataset enrichment Temporale Score assignment Identificazione outliers Rilevamento eventi estremi Spaziale Parametrico WORKFLOW
  • 14. MACHINE LEARNING K-Means Clustering • Aumento della precisione predittiva • Necessità di allenare K modelli • Parallelizzabile • Facile da implementare • Features adattabili
  • 15. MACHINE LEARNING Feature (!) Feature (!) ∑ Random Forest Regressor Random Forest • Versatile • Alte prestazioni su grandi moli di dati • Parallelizzabile • Efficiente su dataset non bilanciati • Robusto ad errori ed outliers
  • 16. MACHINE LEARNING 24 osservazioni precedentiTemporal Osservazioni dei primi 5 vicini disponibiliSpatial Altre variabili scelte mediante analisi correlativaParametric Predizione
  • 17. TRAINING Il dataset pilota consiste in osservazioni, più o meno omogenee, provenienti da stazioni meteorologiche e dispositive IoT • 7 variabili meteorologiche (temperatura, pressione atmosferica, wind speed, wind gust, accumulo precipitativo, dewpoint temperature, nuvolosità). • Metadati: posizione geografica e altitudine di ogni singola stazione • Intervallo temporale: 2004-01-01 to 2014-11-08, con step di 1 ora. • 9656 stazioni su tutta l’Europa. • 80 milioni di dati osservati • 210 GB di dati
  • 18. COMPUTING La predizione è comparata all’osservazione corrente dove !"#$ è una approssimazione dell’errore minimo, calcolato sul training set, e % è il modulo, & per quello temporale, ' per quello spaziale e ( per quello parametrico #)* = , − ., 3 0 !"#$ predictions scores Ogni modulo ha fornisce il proprio score -> indice di errore
  • 19. COMPUTING Lo score finale è calcolato attraverso la media pesata. I pesi sono relativi all’affidabilità dei modelli (sia per il cluster che per la tipologia di analisi) final score !" = $%!"% + $'!"' + $(!"( $% + $' + $( Score maggiore a 1 -> Errore
  • 20. EVENTI ESTREMI Inizializzazione Fitting Definizione della threashold Filtering errors Raccolta tutti i dati estremi per ogni cluster Generalized Pareto Distribution Dai risultati del fitting Valori inferiori alla soglia non vengono più etichettati come errori
  • 24. CONTATTI The Commercial team has a strong experience in entrepreneurship, commercialization, business and product design The Technical team has a strong scientific background and an impressive programming skills based on previous experience of the members Marco Venturini Data Engineer Sara Dal Gesso Physicist Marcello Petitta CEO Elisa Arnone Scientist Livia Ortolani Economist Brian Baldassarre Strategic Designer www.amigoclimate.com info@amigoclimate.com Vuoi entrare nel team?