SlideShare a Scribd company logo
1 of 21
A cura di
Giuseppe Carlino
Milano, 30/01/2020
Comparazione di Modelli Machine Learning
Discesa di scala da simulazioni con modello FARM.
2
I risultati mostrati sono stati ottenuti grazie
alla collaborazione con il progetto BEEP.
In particolare, grazie ai contributi, discussioni, commenti di:
• Claudio Gariazzo (INAIL)
• Massimo Stafoggia, Simone Bucci, Matteo Renzi (DEP Lazio)
• Camillo Silibello et al. (Arianet)
• Rossella Prandi (Simularia)
3
Modelli ad Albero Decisionale
• Gli algoritmi basati sugli Alberi Decisionali (AD) sono una classe di modelli
Machine Learning (ML) supervisionato.
• Sono tra i più popolari perché intuitivi da capire e da interpretare e sono
considerati molto efficaci per dati tabulari/strutturati.
• L’obiettivo è addestrare un modello sulla base di osservazioni da usare per
predire una variabile di risposta dato un insieme di valori di input:
• Alberi di classificazione se la variabile di risposta è discreta.
• Alberi di regressione se la variabile di risposta è continua.
• L’AD classifica le osservazioni riordinandole dal nodo radice alle foglie
attraverso una bipartizione ricorsiva delle variabili di input secondo delle
regole di splitting. Le foglie forniscono la classificazione della variabile di
risposta.
Radice
Nodo
decisionale
Nodo
decisionale
Nodo
decisionale
Nodo
decisionale
Foglia
Foglia Foglia
Foglia
Modelli ad Albero Decisionale
Foglia Foglia
Splitting rule
4
Dati di input
Variabile di risposta
Albero Decisionale
Bagging Random
Forest
• Problema di overfitting degli AD: nel caso estremo avremo un nodo terminale per ogni
osservazione del set di dati di apprendimento.
• Gli ensemble di modelli forniscono soluzioni più accurate:
• Ensemble sequenziali: i singoli modelli sono costruiti in sequenza premiando i
modelli precedenti con performance migliore;
• Ensemble paralleli: i singoli modelli sono costruiti in parallelo e l’accuratezza del
modello è migliorata mediando i risultati.
Due (tra tanti) modi di costruire ensemble omogenei di modelli:
Boosting Gradient
Boosting
Extreme
Gradient
Boosting
5
Ensemble di Alberi Decisionali
6
Random Forest
• Ensemble di AD paralleli relativamente poco correlati
tra di loro, costruiti grazie ai seguenti meccanismi:
• Bagging: per ogni AD campionamento delle
osservazioni con sostituzione.
• Ad ogni biforcazione dei nodi viene selezionato
un sottoinsieme casuale delle variabili di
input.
• Il risultato finale si ottiene per votazione
(classificazione) o media (regressione) di tutte le
risposte dei singoli AD.
• Funziona anche con variabili di input correlate tra di
loro.
• Gestisce variabile di input di tutti i tipi (continue,
discrete).
• Minimizza l’overfitting e la varianza.
Rodriguez-Galiano, Victor et al. Modelling interannual variation in the spring
and autumn land surface phenology of the European forest. Biogeosciences
13(11):3305-3317 (2016).
7
XGBoost: extreme gradient boosting
• XGBoost è una delle ultime evoluzioni più di successo dei modelli basati
sugli alberi decisionali.
• Autori: Tianqi Chen e Carlos Guestrin (arXiv 2016).
• Su github: 4025 commits, 389 contributors; 7300 forks.
• Boosting: i modelli dell’ensemble sono costruiti sequenzialmente
minimizzando gli errori dei modelli precedenti aumentando (boosting) il
peso dei modelli che hanno performance migliore.
• Gradient boosting: la minimizzazione della funzione di costo è
effettuata con l’algoritmo gradient descent.
• Extreme gradient boosting: introduce molteplici ottimizzazioni per
migliorare la scalabilità per grandi moli di dati e la velocità dell’algoritmo.
8
Dati di input
Dominio di calcolo:
Risoluzione spaziale 200 m
Risoluzione temporale 1 giorno
Estensione temporale 1 anno (2015)
Numero complessivo di celle 201781125
Numero di predittori 37
Addestramento
NO2 28715 misure da 85 centraline (2015).
PM10 24508 misure da 74 centraline (2015).
Predittori spazio-temporali:
Concentrazioni medie giornaliere di NO2 (PM10)
modellate da FARM (intero anno solare 2015)
Normalized Difference Vegetation Index
(risoluzione originale 300m, valori decadali)
Giorno giuliano e Giorno della settimana
Mese
Predittori spaziali:
Popolazione residente
Altitudine
Imperviousness: superficie impenetrabile
(risoluzione originale 100 m)
Uso suolo CORINE 22 classi (risoluzione
originale 100 m)
Codice regione, provincia e comune
Flussi di traffico veicolare da Open Transport
Map separato per strade principali e secondarie.
• Addestramento effettuato in ambiente R:
• caret per la regolazione fine dei parametri.
• ranger per il training di Random Forest.
• xgboost per il training di XGBoost.
9
Performance dei modelli
NO2 PM10
R2 RMSE R2 RMSE
Random Forest 0.87 7.88 0.84 7.55
XGBoost 0.92 6.04 0.90 6.12
• Cross validazione “by observations”: misure dalla stessa stazione vengono
campionate contemporaneamente nei dataset di testing e training, quindi la
performance è sovrastimata.
10
10-fold Cross-Validation “by monitor”
La CV by monitor permette di stimare meglio la performance del modello
quando andremo a predire le concentrazioni nelle celle dove non ci sono
misure:
1. Le centraline di misura vengono suddivise in 10 gruppi a caso.
2. Il dataset di addestramento viene suddiviso nei corrispondenti 10
gruppi.
3. Il modello ML viene addestrato su 9 gruppi (training) e si predice sul
decimo (testing).
4. Si ripete 10 volte cambiando gruppo di testing.
5. Si confrontano le misure delle centraline con le predizioni effettuate nel
testing.
6. Si riporta la performance del modello in termini di R2, RMSE,
pendenza e intercetta del fit lineare.
R2 RMSE Slope Intercept
RF 0.62 13.48 1.02 -1.08
XGB 0.65 12.82 1.01 -0.59
Scatterplot complessivo con tutti le coppie di
punti misure/predizione.
10-fold Cross-Validation “by monitor”
RandomForestXGBoost
10-fold Cross-Validation “by monitor”
RandomForestXGBoost
10-fold Cross-Validation “by monitor”
R2 RMSE Slope Intercept
RF 0.76 9.32 1.03 -1.52
XGB 0.81 8.31 1.08 -2.35
10-fold Cross-Validation “by monitor”
Scatterplot complessivo con tutti le coppie di
punti misure/predizione.
RandomForestXGBoost
10-fold Cross-Validation “by monitor”
RandomForestXGBoost
10-fold Cross-Validation “by monitor”
RandomForestXGBoost
RandomForestXGBoost
RandomForestXGBoost
RandomForestXGBoost
21
Considerazioni finali
• I risultati ottenuti con i modelli ML sono utilizzati con successo negli studi in
campo epidemiologico (progetto BEEP).
• La qualità dei dati di input è fondamentale per l’addestramento e quindi per
conseguire risultati accurati.
• Gli output del modello di dispersione (FARM) sono i predittori più significativi.
Sono anche più semplici da usare rispetto ai dati satellitari.
• La costruzione dei set di dati input è la parte più onerosa della metodologia ma è
quella da cui ci attendiamo un miglioramento significativo delle performance.
• La scelta del modello ML è meno importante, tuttavia XGBoost fornisce risultati
migliori rispetto a Random Forest (soprattuto per NO2.)
• I modelli ML sono molto meno onerosi in termini di CPU rispetto ai modelli di
dispersione ma sono più avidi di memoria.

More Related Content

Similar to Comparazione di Modelli Machine Learning

Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Università degli Studi di Trieste
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnAlina Gnerre
 
Metodi_Iterativi_28_10_2016
Metodi_Iterativi_28_10_2016Metodi_Iterativi_28_10_2016
Metodi_Iterativi_28_10_2016Michele Scipioni
 
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...Istituto nazionale di statistica
 
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-item
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-itemModelli di gestione delle parti di ricambio per sistemi multi-echelon multi-item
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-itemGiulio Celestini
 
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Vrije Universiteit Brussel
 
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di Re
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di ReIntroduzione all'ottimizzazione strutturale: elaborato di Paolo Di Re
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di ReFranco Bontempi Org Didattica
 
Design Exploration: Sviluppo telaio per vettura formula sae
Design Exploration: Sviluppo telaio per vettura formula saeDesign Exploration: Sviluppo telaio per vettura formula sae
Design Exploration: Sviluppo telaio per vettura formula saeMarco Basilici
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsGiuseppe Ricci
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaGiuseppe Ricci
 
Presentazione Extended Summary of "Ensemble Genetic Programming"
Presentazione Extended Summary of "Ensemble Genetic Programming"Presentazione Extended Summary of "Ensemble Genetic Programming"
Presentazione Extended Summary of "Ensemble Genetic Programming"AlessandroViol
 
Metodi di ricostruzione delle immagini in medicina nucleare
Metodi di ricostruzione delle immagini in medicina nucleare Metodi di ricostruzione delle immagini in medicina nucleare
Metodi di ricostruzione delle immagini in medicina nucleare lararalferri
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”StefanoChen1
 
Sift - Scale Invariant Feature Transform
Sift - Scale Invariant Feature TransformSift - Scale Invariant Feature Transform
Sift - Scale Invariant Feature TransformAlain Bindele
 
Sistema di acquisizione in banda multispettrale
Sistema di acquisizione in banda multispettraleSistema di acquisizione in banda multispettrale
Sistema di acquisizione in banda multispettraleGiovanni Schettino
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...MichaelFuser
 

Similar to Comparazione di Modelli Machine Learning (20)

Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
 
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
 
Metodi_Iterativi_28_10_2016
Metodi_Iterativi_28_10_2016Metodi_Iterativi_28_10_2016
Metodi_Iterativi_28_10_2016
 
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...
C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the S...
 
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-item
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-itemModelli di gestione delle parti di ricambio per sistemi multi-echelon multi-item
Modelli di gestione delle parti di ricambio per sistemi multi-echelon multi-item
 
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
 
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di Re
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di ReIntroduzione all'ottimizzazione strutturale: elaborato di Paolo Di Re
Introduzione all'ottimizzazione strutturale: elaborato di Paolo Di Re
 
Design Exploration: Sviluppo telaio per vettura formula sae
Design Exploration: Sviluppo telaio per vettura formula saeDesign Exploration: Sviluppo telaio per vettura formula sae
Design Exploration: Sviluppo telaio per vettura formula sae
 
Presentazione master
Presentazione masterPresentazione master
Presentazione master
 
Tecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systemsTecniche di fattorizzazione applicate ai recommender systems
Tecniche di fattorizzazione applicate ai recommender systems
 
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori PugliaPresentazione Aggiornamento Agile Club Sviluppatori Puglia
Presentazione Aggiornamento Agile Club Sviluppatori Puglia
 
Presentazione Extended Summary of "Ensemble Genetic Programming"
Presentazione Extended Summary of "Ensemble Genetic Programming"Presentazione Extended Summary of "Ensemble Genetic Programming"
Presentazione Extended Summary of "Ensemble Genetic Programming"
 
Remote Sensing
Remote SensingRemote Sensing
Remote Sensing
 
Metodi di ricostruzione delle immagini in medicina nucleare
Metodi di ricostruzione delle immagini in medicina nucleare Metodi di ricostruzione delle immagini in medicina nucleare
Metodi di ricostruzione delle immagini in medicina nucleare
 
Hog processing
Hog processingHog processing
Hog processing
 
TSELM
TSELMTSELM
TSELM
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
 
Sift - Scale Invariant Feature Transform
Sift - Scale Invariant Feature TransformSift - Scale Invariant Feature Transform
Sift - Scale Invariant Feature Transform
 
Sistema di acquisizione in banda multispettrale
Sistema di acquisizione in banda multispettraleSistema di acquisizione in banda multispettrale
Sistema di acquisizione in banda multispettrale
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
 

More from ARIANET

Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...
Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...
Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...ARIANET
 
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...ARIANET
 
Sistemi di previsione innestati per Regione Marche e comune di Ancona
Sistemi di previsione innestati per Regione Marche e comune di AnconaSistemi di previsione innestati per Regione Marche e comune di Ancona
Sistemi di previsione innestati per Regione Marche e comune di AnconaARIANET
 
Caratterizzazione delle specie vegetali per la stima delle emissioni biogeniche
Caratterizzazione delle specie vegetali per la stima delle emissioni biogenicheCaratterizzazione delle specie vegetali per la stima delle emissioni biogeniche
Caratterizzazione delle specie vegetali per la stima delle emissioni biogenicheARIANET
 
Prandi incendi giornata arianet_2021
Prandi incendi giornata arianet_2021Prandi incendi giornata arianet_2021
Prandi incendi giornata arianet_2021ARIANET
 
Attività modellistiche nel campo degli odori all'interno del progetto NOSE
Attività modellistiche nel campo degli odori all'interno del progetto NOSEAttività modellistiche nel campo degli odori all'interno del progetto NOSE
Attività modellistiche nel campo degli odori all'interno del progetto NOSEARIANET
 
Verifica delle previsioni di ozono e PM10 per il Veneto
Verifica delle previsioni di ozono e PM10 per il VenetoVerifica delle previsioni di ozono e PM10 per il Veneto
Verifica delle previsioni di ozono e PM10 per il VenetoARIANET
 
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPI
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPIQualità dell'aria ed epidemiologia: progetti BEEP e BIGEPI
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPIARIANET
 
VEG-GAP LIFE+: Vegetation for urban green air quality plans
VEG-GAP LIFE+: Vegetation for urban green air quality plansVEG-GAP LIFE+: Vegetation for urban green air quality plans
VEG-GAP LIFE+: Vegetation for urban green air quality plansARIANET
 
Modelling the Notre-Dame de Paris fire
Modelling the Notre-Dame de Paris fireModelling the Notre-Dame de Paris fire
Modelling the Notre-Dame de Paris fireARIANET
 
Gruppo di lavoro WMO-GAW Covid-19
Gruppo di lavoro WMO-GAW Covid-19Gruppo di lavoro WMO-GAW Covid-19
Gruppo di lavoro WMO-GAW Covid-19ARIANET
 
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...ARIANET
 
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersioneEmissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersioneARIANET
 
Source apportionment approaches and non-linearities
Source apportionment approaches and non-linearitiesSource apportionment approaches and non-linearities
Source apportionment approaches and non-linearitiesARIANET
 
FAIRMODE CT4 modellistica a microscala
FAIRMODE CT4 modellistica a microscalaFAIRMODE CT4 modellistica a microscala
FAIRMODE CT4 modellistica a microscalaARIANET
 
On-line source apportionment in FARM
On-line source apportionment in FARMOn-line source apportionment in FARM
On-line source apportionment in FARMARIANET
 
Suite modellistiche 2020 novità principali
Suite modellistiche 2020 novità principaliSuite modellistiche 2020 novità principali
Suite modellistiche 2020 novità principaliARIANET
 
Disaggregazione delle emissioni di BaP da riscaldamento a legna
Disaggregazione delle emissioni di BaP da riscaldamento a legnaDisaggregazione delle emissioni di BaP da riscaldamento a legna
Disaggregazione delle emissioni di BaP da riscaldamento a legnaARIANET
 
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50ARIANET
 
Source apportionment spaziale e settoriale con Sherpa e FARM
Source apportionment spaziale e settoriale con Sherpa e FARMSource apportionment spaziale e settoriale con Sherpa e FARM
Source apportionment spaziale e settoriale con Sherpa e FARMARIANET
 

More from ARIANET (20)

Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...
Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...
Gruppo di lavoro Olores: New guideline on assessment of odour exposure by usi...
 
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...
Valutazione dell'impatto di un'infrastruttura verde CityTree su concentrazion...
 
Sistemi di previsione innestati per Regione Marche e comune di Ancona
Sistemi di previsione innestati per Regione Marche e comune di AnconaSistemi di previsione innestati per Regione Marche e comune di Ancona
Sistemi di previsione innestati per Regione Marche e comune di Ancona
 
Caratterizzazione delle specie vegetali per la stima delle emissioni biogeniche
Caratterizzazione delle specie vegetali per la stima delle emissioni biogenicheCaratterizzazione delle specie vegetali per la stima delle emissioni biogeniche
Caratterizzazione delle specie vegetali per la stima delle emissioni biogeniche
 
Prandi incendi giornata arianet_2021
Prandi incendi giornata arianet_2021Prandi incendi giornata arianet_2021
Prandi incendi giornata arianet_2021
 
Attività modellistiche nel campo degli odori all'interno del progetto NOSE
Attività modellistiche nel campo degli odori all'interno del progetto NOSEAttività modellistiche nel campo degli odori all'interno del progetto NOSE
Attività modellistiche nel campo degli odori all'interno del progetto NOSE
 
Verifica delle previsioni di ozono e PM10 per il Veneto
Verifica delle previsioni di ozono e PM10 per il VenetoVerifica delle previsioni di ozono e PM10 per il Veneto
Verifica delle previsioni di ozono e PM10 per il Veneto
 
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPI
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPIQualità dell'aria ed epidemiologia: progetti BEEP e BIGEPI
Qualità dell'aria ed epidemiologia: progetti BEEP e BIGEPI
 
VEG-GAP LIFE+: Vegetation for urban green air quality plans
VEG-GAP LIFE+: Vegetation for urban green air quality plansVEG-GAP LIFE+: Vegetation for urban green air quality plans
VEG-GAP LIFE+: Vegetation for urban green air quality plans
 
Modelling the Notre-Dame de Paris fire
Modelling the Notre-Dame de Paris fireModelling the Notre-Dame de Paris fire
Modelling the Notre-Dame de Paris fire
 
Gruppo di lavoro WMO-GAW Covid-19
Gruppo di lavoro WMO-GAW Covid-19Gruppo di lavoro WMO-GAW Covid-19
Gruppo di lavoro WMO-GAW Covid-19
 
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...
CREATE H2020 - Modellistica per l'ottimizzazione ambientale delle rotte aeron...
 
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersioneEmissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
Emissioni dell'Aeroporto di Venezia: monitoraggio e modellistica di dispersione
 
Source apportionment approaches and non-linearities
Source apportionment approaches and non-linearitiesSource apportionment approaches and non-linearities
Source apportionment approaches and non-linearities
 
FAIRMODE CT4 modellistica a microscala
FAIRMODE CT4 modellistica a microscalaFAIRMODE CT4 modellistica a microscala
FAIRMODE CT4 modellistica a microscala
 
On-line source apportionment in FARM
On-line source apportionment in FARMOn-line source apportionment in FARM
On-line source apportionment in FARM
 
Suite modellistiche 2020 novità principali
Suite modellistiche 2020 novità principaliSuite modellistiche 2020 novità principali
Suite modellistiche 2020 novità principali
 
Disaggregazione delle emissioni di BaP da riscaldamento a legna
Disaggregazione delle emissioni di BaP da riscaldamento a legnaDisaggregazione delle emissioni di BaP da riscaldamento a legna
Disaggregazione delle emissioni di BaP da riscaldamento a legna
 
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50
Sviluppo modellistico del modello nazionale nel secondo anno di CAMS50
 
Source apportionment spaziale e settoriale con Sherpa e FARM
Source apportionment spaziale e settoriale con Sherpa e FARMSource apportionment spaziale e settoriale con Sherpa e FARM
Source apportionment spaziale e settoriale con Sherpa e FARM
 

Comparazione di Modelli Machine Learning

  • 1. A cura di Giuseppe Carlino Milano, 30/01/2020 Comparazione di Modelli Machine Learning Discesa di scala da simulazioni con modello FARM.
  • 2. 2 I risultati mostrati sono stati ottenuti grazie alla collaborazione con il progetto BEEP. In particolare, grazie ai contributi, discussioni, commenti di: • Claudio Gariazzo (INAIL) • Massimo Stafoggia, Simone Bucci, Matteo Renzi (DEP Lazio) • Camillo Silibello et al. (Arianet) • Rossella Prandi (Simularia)
  • 3. 3 Modelli ad Albero Decisionale • Gli algoritmi basati sugli Alberi Decisionali (AD) sono una classe di modelli Machine Learning (ML) supervisionato. • Sono tra i più popolari perché intuitivi da capire e da interpretare e sono considerati molto efficaci per dati tabulari/strutturati. • L’obiettivo è addestrare un modello sulla base di osservazioni da usare per predire una variabile di risposta dato un insieme di valori di input: • Alberi di classificazione se la variabile di risposta è discreta. • Alberi di regressione se la variabile di risposta è continua. • L’AD classifica le osservazioni riordinandole dal nodo radice alle foglie attraverso una bipartizione ricorsiva delle variabili di input secondo delle regole di splitting. Le foglie forniscono la classificazione della variabile di risposta.
  • 4. Radice Nodo decisionale Nodo decisionale Nodo decisionale Nodo decisionale Foglia Foglia Foglia Foglia Modelli ad Albero Decisionale Foglia Foglia Splitting rule 4 Dati di input Variabile di risposta
  • 5. Albero Decisionale Bagging Random Forest • Problema di overfitting degli AD: nel caso estremo avremo un nodo terminale per ogni osservazione del set di dati di apprendimento. • Gli ensemble di modelli forniscono soluzioni più accurate: • Ensemble sequenziali: i singoli modelli sono costruiti in sequenza premiando i modelli precedenti con performance migliore; • Ensemble paralleli: i singoli modelli sono costruiti in parallelo e l’accuratezza del modello è migliorata mediando i risultati. Due (tra tanti) modi di costruire ensemble omogenei di modelli: Boosting Gradient Boosting Extreme Gradient Boosting 5 Ensemble di Alberi Decisionali
  • 6. 6 Random Forest • Ensemble di AD paralleli relativamente poco correlati tra di loro, costruiti grazie ai seguenti meccanismi: • Bagging: per ogni AD campionamento delle osservazioni con sostituzione. • Ad ogni biforcazione dei nodi viene selezionato un sottoinsieme casuale delle variabili di input. • Il risultato finale si ottiene per votazione (classificazione) o media (regressione) di tutte le risposte dei singoli AD. • Funziona anche con variabili di input correlate tra di loro. • Gestisce variabile di input di tutti i tipi (continue, discrete). • Minimizza l’overfitting e la varianza. Rodriguez-Galiano, Victor et al. Modelling interannual variation in the spring and autumn land surface phenology of the European forest. Biogeosciences 13(11):3305-3317 (2016).
  • 7. 7 XGBoost: extreme gradient boosting • XGBoost è una delle ultime evoluzioni più di successo dei modelli basati sugli alberi decisionali. • Autori: Tianqi Chen e Carlos Guestrin (arXiv 2016). • Su github: 4025 commits, 389 contributors; 7300 forks. • Boosting: i modelli dell’ensemble sono costruiti sequenzialmente minimizzando gli errori dei modelli precedenti aumentando (boosting) il peso dei modelli che hanno performance migliore. • Gradient boosting: la minimizzazione della funzione di costo è effettuata con l’algoritmo gradient descent. • Extreme gradient boosting: introduce molteplici ottimizzazioni per migliorare la scalabilità per grandi moli di dati e la velocità dell’algoritmo.
  • 8. 8 Dati di input Dominio di calcolo: Risoluzione spaziale 200 m Risoluzione temporale 1 giorno Estensione temporale 1 anno (2015) Numero complessivo di celle 201781125 Numero di predittori 37 Addestramento NO2 28715 misure da 85 centraline (2015). PM10 24508 misure da 74 centraline (2015). Predittori spazio-temporali: Concentrazioni medie giornaliere di NO2 (PM10) modellate da FARM (intero anno solare 2015) Normalized Difference Vegetation Index (risoluzione originale 300m, valori decadali) Giorno giuliano e Giorno della settimana Mese Predittori spaziali: Popolazione residente Altitudine Imperviousness: superficie impenetrabile (risoluzione originale 100 m) Uso suolo CORINE 22 classi (risoluzione originale 100 m) Codice regione, provincia e comune Flussi di traffico veicolare da Open Transport Map separato per strade principali e secondarie.
  • 9. • Addestramento effettuato in ambiente R: • caret per la regolazione fine dei parametri. • ranger per il training di Random Forest. • xgboost per il training di XGBoost. 9 Performance dei modelli NO2 PM10 R2 RMSE R2 RMSE Random Forest 0.87 7.88 0.84 7.55 XGBoost 0.92 6.04 0.90 6.12 • Cross validazione “by observations”: misure dalla stessa stazione vengono campionate contemporaneamente nei dataset di testing e training, quindi la performance è sovrastimata.
  • 10. 10 10-fold Cross-Validation “by monitor” La CV by monitor permette di stimare meglio la performance del modello quando andremo a predire le concentrazioni nelle celle dove non ci sono misure: 1. Le centraline di misura vengono suddivise in 10 gruppi a caso. 2. Il dataset di addestramento viene suddiviso nei corrispondenti 10 gruppi. 3. Il modello ML viene addestrato su 9 gruppi (training) e si predice sul decimo (testing). 4. Si ripete 10 volte cambiando gruppo di testing. 5. Si confrontano le misure delle centraline con le predizioni effettuate nel testing. 6. Si riporta la performance del modello in termini di R2, RMSE, pendenza e intercetta del fit lineare.
  • 11. R2 RMSE Slope Intercept RF 0.62 13.48 1.02 -1.08 XGB 0.65 12.82 1.01 -0.59 Scatterplot complessivo con tutti le coppie di punti misure/predizione. 10-fold Cross-Validation “by monitor”
  • 14. R2 RMSE Slope Intercept RF 0.76 9.32 1.03 -1.52 XGB 0.81 8.31 1.08 -2.35 10-fold Cross-Validation “by monitor” Scatterplot complessivo con tutti le coppie di punti misure/predizione.
  • 21. 21 Considerazioni finali • I risultati ottenuti con i modelli ML sono utilizzati con successo negli studi in campo epidemiologico (progetto BEEP). • La qualità dei dati di input è fondamentale per l’addestramento e quindi per conseguire risultati accurati. • Gli output del modello di dispersione (FARM) sono i predittori più significativi. Sono anche più semplici da usare rispetto ai dati satellitari. • La costruzione dei set di dati input è la parte più onerosa della metodologia ma è quella da cui ci attendiamo un miglioramento significativo delle performance. • La scelta del modello ML è meno importante, tuttavia XGBoost fornisce risultati migliori rispetto a Random Forest (soprattuto per NO2.) • I modelli ML sono molto meno onerosi in termini di CPU rispetto ai modelli di dispersione ma sono più avidi di memoria.