FIDRUN 5 - IL CARRELLO INFORMATIZZATO, AD ALTA TECNOLOGIA, CHE RIDUCE IL RISC...
MACHINE LEARNING, SUPERVISED LEARNING: UN SEMPLICE METODO PER DIAGNOSTICARE IL COVID-19 TRAMITE ANALISI EMATOCHIMICHE.
1. Machine Learning
Supervised Learning:
Un semplice metodo per diagnosticare il
Covid-19 tramite analisi ematochimiche
Ing. Piergiorgio Salerno, Ing. Mohammad Amin Zadenoori
Ing. Giovanni Poggialini, Ing. Prof. Ernesto Iadanza
Ing. Mario Fregonara Medici
2. Il gruppo di lavoro
Coordinatori del Progetto
Autori
Ing. Giovanni Poggialini
Direttore SC Programmazione Controllo di
gestione e Operations Management
Ing. Ernesto Iadanza
Professore di Bioingegneria
presso l’Università degli studi di Siena
Ing. Mario Fregonara Medici
Direttore S.C. Sistemi Informativi Aziendali
Ing. Piergiorgio Salerno
Collaboratore Tecnico Professionale
Controllo di gestione e Operations Management
Ing. Mohammad Amin Zadenoori
Ph.D. Student in Smart Computing
3. Descrizione
[1] Daphne Koller and Mehran Sahami. Toward optimal feature selection. Technical report, Stanford InfoLab, 1996
Dopo aver analizzato lo stato dell’arte in letteratura,
abbiamo deciso di includere nel nostro progetto solo sette
dei test ematochimici utili a predire il Covid-19, per Il
principio del rasoio di Occam [1] che suggerisce che un
modello che utilizza meno funzionalità è preferibile
rispetto a un modello complicato.
• Abbiamo raccolto 1.196.372 esami dal Database della ASST
Sette Laghi, che includono prestazioni con «le features»
selezionate, di pazienti ricoverati dal 2018 al 2021.
• Di questi esami abbiamo selezionato 593 istanze eseguite
nel 2018, 172 nella prima parte del 2019, 89 del 2020 e
73 del 2021. Questi records sono stati etichettati come
«Negativi».
• Per bilanciare il dataset sono stati estratte 927 istanze
contenenti prestazioni di pazienti che avevano eseguito
gli esami indicati ed erano risultati positivi al tampone
molecolare. Questi ultimi sono stati etichettati come
«Positivi».
Dopo il preprocessing dei dati grezzi ( sostituzione dei
valori mancanti con il valore medio dei più vicini trovati
nel set di allenamento, normalizzazione ed Encoding),
Sono stati implementati diversi modelli di classificazione:
modelli classici e quelli ad insieme.
Attraverso la tecnica del Gridsearch si è eseguito il
tuning dei parametri ottimali.
In questo Progetto è stata implementata la 5-Folds
CrossValidation per la fase di train e validation.
Per valutare I risultati nel test-set sono state
considerarate le seguenti metriche:
AUC, F1-score, Precision e Recall.
4. Obiettivi e destinatari del lavoro
OBBIETTIVI:
L’obiettivo principale di questo lavoro è verificare la possibilità di individuare un paziente COVID+ attraverso
alcune delle più comuni analisi ematochimiche, senza ricorrere all’utilizzo di tamponi.
Questo permetterebbe al SSN di :
• Ricorrere a test diagnostici più economici rispetto a quello che è il costo di un tampone molecolare. Ad ogg il kit
( tampone + reagente ) ha un prezzo che oscilla tra i 18-25 € a cui si deve aggiungere la spesa per il personale.
• Velocizzare i tempi di attesa dell’esito degli esami
• Diminuire l’impatto logistico dei laboratori di Microbiologia
• Rendere disponibile il metodo diagnostico a quelle strutture che non possono investire risorse in dispositivi e
apparecchiature da dedicare esclusivamente alla diagnosi del Sars-Cov2 tramite processamento dei tamponi molecolari
• Individuare il caso zero alla ASST dei Sette Laghi di Varese
DESTINATARI:
• Strutture ospedaliere dotate di Pronto Soccorso per lo screening dei pazienti in ingresso anche funzionale al
potenziale ricovero
• Strutture sanitarie che hanno necessità di attuare politiche di screening della popolazione in ambito SARS COVID-2
al fine di ridurre costi e tempi del processo a parità di outocomes
• Strutture sanitarie che non hanno la possibilità di eseguire test PCR, e devono affrontare problemi logistici di
trasporto dei campioni verso altri laboratori.
• Laboratori di Microbiologia che hanno sostenuto fino ad oggi la quasi totalità del carico di lavoro delle analisi
in ambito SARS-COV2
5. Risultati
«Infine abbiamo chiesto ai nostri modelli più performanti di
predire i dati della seconda metà del 2019 e di
Gennaio/Febbraio 2020
( esclusi dalla precedente fase di addestramento).
Già ad Agosto 2019 il COVID-19 è stato
Diagnosticato alla ASST dei Sette Laghi di
Varese»
0
0,5
1
1,5
2
2,5
Stacking Model XGB Ensemble Model
• Il modello migliore è lo Stacking Model che classifica correttamente il 91% dei dati
del test set:
«Il modello si presta come possibile alternativa al tampone per la determinazione della
positività da SARS-COV2»
• Dal modello risulta che alti valori di Ferritina, Neutrofili, Linfociciti e Piastrine
impattano positivamente sulla predizione del Covid-19.
6. Piergiorgio Salerno
piergiorgio.salerno@asst-settelaghi.it
ASST dei Sette Laghi
Mohammad Amin Zadenoori
mohammadamin.zadenoori@unifi.it
Università degli Studi di Firenze
Giovanni Poggialini
giovanni.poggialini@asst-settelaghi.it
ASST dei Sette Laghi
Ernesto Iadanza
ernesto.iadanza@unisi.it
Università degli studi di Siena
Mario Fregonara
mario.fregonaramedici@asst-settelaghi.it
ASST dei Sette Laghi