SlideShare a Scribd company logo
1 of 31
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
INDIVIDUAZIONE DI MARKERS LEGATI ALLA
DEMENZA MISTA CON TECNICHE DI
MACHINE LEARNING NON
SUPERVISIONATO
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini
INTRODUZIONE
1.0 1
Pag.
INDICE
OBIETTIVO DEL PROGETTO
1.1 2
ANALISI DEL DATASET
2.0 3
EXPERIMENTAL SETTINGS
3.0 5
PREPROCESSING
3.1 6
PCA
3.2 8
ANALISI FINALE
3.6 22
K-PROTOTYPE
3.3 11
DISTANCE MATRIX E T-SNE
3.4 14
HDBSCAN
3.5 17
DISCUSSIONE DEI RISULTATI
4.0 26
CONCLUSIONE
5.0 27
INTRODUZIONE
1.0
morbo o demenza di Alzheimer
Encefalopatia vascolare
Le malattie più frequenti che rientrano nello spettro della demenza sono:
Il termine demenza mista si riferisce ad un insieme di malattie che colpiscono il cervello e causano il
deterioramento delle funzioni cognitive più di quanto l’invecchiamento naturale possa fare.
I sintomi di questa malattia sono vari, tra i più comuni possiamo trovare la perdita di memoria, problemi
e difficoltà nelle funzioni cognitive e incapacità decisionale
1
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Spesso le lesioni di queste due malattie si presentano contemporaneamente nello stesso paziente
portando un notevole aumento delle probabilità di un declino cognitivo significativo.
OBIETTIVO DEL PROGETTO
1.1
Individuazione di markers legati alla demenza mista attraverso l’analisi e l’elaborazione di una
consistente quantità di dati relativi a pazienti soggetti e non alla malattia.
2
Utilizzare tecniche di Machine Learning non supervisionato con lo scopo di creare gruppi di
pazienti aventi attributi e caratteristiche sanitarie comuni.
Valutazione dei membri dei diversi gruppi. Estrazione di informazione attraverso l’analisi delle
caratteristiche dei diversi pazienti.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
ANALISI DEL DATASET
2.0
Anagrafica: dati anagrafici dei pazienti come la data di nascita, l’età, il sesso ecc..
Malattie: raccoglie e descrive alcune malattie e se il paziente è o non è stato soggetto.
Segni e sintomi: sintomi riscontrati o meno dai pazienti.
Esami di laboratorio: serie di esami effettuati sui pazienti (es. Emoglobina, Globuli rossi, Globuli
bianchi).
Disabilità: attributi relativi al grado di disabilità del paziente.
Le tabelle utilizzate:
Per ogni tabella ci sono 911 occorrenze, ovvero il numero di pazienti raccolti.
3
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
ANALISI DEL DATASET
2.0
Informazioni generali.
6
EXPERIMENTAL SETTING
3.0
Dopo aver effettuato l’analisi dei dati è iniziata la fase di elaborazione. In questo capitolo saranno
descritte le attività svolte definendo le condizioni in cui verranno utilizzate le diverse tecniche.
5
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Prima di procedere con l’utilizzo di qualsiasi modello di machine learning è necessario affrontare la fase
di preprocessing.
I dati vengono puliti, sistemati e nel caso normalizzati per renderli adatti ad
elaborazioni successive.
PREPROCESSING
3.1
Il primo passo del preprocessing è la rimozione dei valori mancanti.
6
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Eliminare prima le righe e poi le colonne con almeno il 40% di valori nulli.
Imputazione con algoritmo MICE (Multivariate Imputation By Chained Equations).
La fase di preprocessing è proseguita con l’identificazione e la rimozione degli outliers dal dataset
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PREPROCESSING
3.1
Le anomalie (outliers) sono insiemi di dati che presentano caratteristiche diverse dalle normali istanze
presenti nel dataset.
7
Per l'identificazione è stato utilizzato l'algoritmo Isolation Forest basato su alberi di decisione.
[1]
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
La Principal Component Analysis (PCA) è una tecnica di riduzione della dimensionalità che permette di
rappresentare un insieme di dati complessi in uno spazio di dimensione inferiore mantenendo nello
stesso tempo la maggior parte dell' informazione originale.
8
[2]
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
Varianza cumulata espressa per ogni componente della PCA.
9
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
Grafico delle prime due componenti della PCA.
10
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
K-PROTOTYPE
3.3
K-prototype è un algoritmo di clustering ibrido che combina le tecniche di K-means, per gli attributi
numerici, e K-modes, per gli attributi discreti. Proposto per risolvere il problema di clustering di dati
misti.
11
Per valutare la bontà dei cluster sono state utilizzate
le tecniche del Elbow Method e Silhouette score.
[3]
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
K-PROTOTYPE
3.3
12
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
LABEL CLUSTER NUEMERO OCCORRENZE
CLUSTER 0 787
CLUSTER 1 22
K-PROTOTYPE
3.3
13
Visto i risultati ottenuti si è deciso di cambiare approccio e procedere in un modo differente.
Grazie alla distanza di Gower si è deciso di calcolare la matrice delle distanze, ridurre la dimensionalità
per visualizzare i dati e successivamente applicare il clustering.
Risultati clustering:
DISTANCE MATRIX E TSNE
3.4
La distanza di Gower è una metrica ibrida che permette di calcolare la matrice delle distanze di un
insieme di elementi aventi sia variabili continue e discrete.
14
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
t-SNE (t-Distributed Stochastic Neighbor Embedding) è un algoritmo di visualizzazione che consente di
ridurre la dimensionalità dei dati in modo da poterli visualizzare.
A differenza della PCA già utilizzata, t-SNE ha un funzionamento non lineare.
La matrice è stata data in input all’algoritmo di T-sne per ridurre la dimensionalità e poter visualizzare i
dati.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISTANCE MATRIX E TSNE
3.4
Output t-SNE.
15
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISTANCE MATRIX E TSNE
3.4
Output t-SNE discriminando per pazienti malati di demenza mista e non.
16
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) è un algoritmo di
clustering basato sulla densità che estende il noto algoritmo DBSCAN (Density-Based Spatial Clustering
of Applications with Noise).
17
Determinare automaticamente il numero di cluster.
Rappresentazione ad albero della struttura dei cluster.
Scoprire gruppi di diverse dimensioni e forme.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Prima esecuzione di HDBSCAN su output t-sne.
18
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Output HDBSCAN con discriminazione in base a pazienti malati e non.
19
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
SCORE CLUSTER VALORE
COPERTURA 0.75
DBVC SCORE 0.04
HDBSCAN
3.5
Successivamente siamo andati a valutare la qualità dei cluster creati la metrica DBVC score (Density-
Based Validation and Clustering score). Questo valore viene calcolato per ogni punto del dataset e
indica quanto strettamente una occorrenza è associata ad uno specifico cluster.
20
SCORE CLUSTER VALORE
COPERTURA 0.78
DBVC SCORE 0.6
Tuning del modello
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Output HDBSCAN dopo tuning degli iperparametri.
21
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
ANALISI FINALE
3.6
Calcolo del p-value per ogni faeture del dataset.
22
Ultimato il calcolo dei p-value delle variabili, si è proceduto verificando la presenza di falsi positivi negli
attribuiti che hanno dimostrato maggior significatività con la tecnica della correzione di
Benjamini/Hochberg.
Si è preso in considerazione i due cluster più rappresentativi e popolati (cluster 1 e 2)
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Sesso 0.013
Ipovisus < 0.001
Ipoacusia 0.019
Aterosclerosi carotidea 0.026
Ansia e Depressione 0.019
Vasculopatia cerebrale < 0.001
Deterioramento cognitivo < 0.001
ANALISI FINALE
3.6
Variabili discrete che hanno riportato un p-value < 0.05
23
Alzheimer < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
Disturbi del sonno 0.037
Disturbo deambulazione < 0.001
Edemi declivi < 0.001
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Età < 0.001
MMSE < 0.001
Emoglobina 0.009
Globuli rossi 0.042
Piastrine 0.023
ANALISI FINALE
3.6
Variabili continue che hanno riportato un p-value < 0.05
24
K 0.002
AST GOT 0.012
ALT GPT < 0.001
Vitamina D < 0.001
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Deterioramento cognitivo < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
MMSE < 0.001
Vitamina D < 0.001
Disturbo deambulazione < 0.001
Età < 0.001
Vasculopatia cerebrale < 0.001
ANALISI FINALE
3.6
Variabili che hanno superato il test di B/H ordinate per grado di rilevanza in base al p-value corretto.
25
ALT GPT < 0.001
Alzheimer 0.001
Edemi declivi 0.002
Ipovisus 0.003
K 0.011
Emoglobina 0.037
AST GOT 0.048
Sesso 0.048
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISCUSSIONE DEI RISULTATI
4.0
26
L'algoritmo K-prototype ha separato i dati con notevole discrepanza. Poca capacità del modello di
generalizzare e identificare correttamente le osservazioni.
Creare la matrice delle distanze ci ha permesso non solo di lavorare su una solo tipologia di dati
ma anche di ridurre la dimensionalità in modo da poter ottenere delle visualizzazioni.
Il calcolo dei p-value ha rilevato diverse variabili significative.
Dall’applicazione del metodo di Benjamini/Hochberg emerge che i nove attributi più rilevanti
hanno un p-value corretto estremamente basso (inferiore a 0.001) e i primi quattro sono tutti
legati da caratteristiche cognitive.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
CONCLUSIONE
5.0
27
E' importante non fermarsi a questo stato della ricerca ma estendere il lavoro svolto sia da un punto
vista tecnico che teorico.
Proposte per sviluppi futuri:
Integrare i dati utilizzati con una quantità maggiore di pazienti.
Utilizzare altre tecniche di machine learning diverse da quelle sperimentate in questo
progetto.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
GRAZIE
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
RIFERIMENTI IMMAGINI
E. Anello, «Anomaly Detection With Isolation Forest», Medium, 22 novembre 2022.
https://betterprogramming.pub/anomaly-detection-with-isolation-forest-e41f1f55cc6
[1]
«Ph.D. thesis - Matthias Scholz - Max Planck Institute of Molecular Plant Physiology».
http://phdthesis-bioinformatics-maxplanckinstitute-molecularplantphys.matthias-scholz.de/
[2]
B. Kim, «A Fast K-prototypes Algorithm Using Partial Distance Computation», Symmetry, vol. 9, fasc. 4, Art. fasc. 4, apr. 2017, doi:
10.3390/sym9040058.
[3]

More Related Content

Similar to Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato

Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...MichaelFuser
 
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...FlavioEllero
 
Istituto Tecnico Settore Tecnologico "Da vinci"
Istituto Tecnico Settore Tecnologico "Da vinci"Istituto Tecnico Settore Tecnologico "Da vinci"
Istituto Tecnico Settore Tecnologico "Da vinci"Donato Renato Di Biase
 
Smart grid 4 novembre
Smart grid 4 novembreSmart grid 4 novembre
Smart grid 4 novembrecanaleenergia
 
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...Cristian Randieri PhD
 
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfCancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfRiccardoCorocher
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Nicola Procopio
 
From parallel architecture to mapreduce hadoop passing on grid, UNIFI course
From parallel architecture to mapreduce hadoop passing on grid, UNIFI courseFrom parallel architecture to mapreduce hadoop passing on grid, UNIFI course
From parallel architecture to mapreduce hadoop passing on grid, UNIFI coursePaolo Nesi
 
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...Francesco Occhioni
 
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...Simone Cumar
 
libretto_Da_Vinci_2023-24_v_0.03.pdf
libretto_Da_Vinci_2023-24_v_0.03.pdflibretto_Da_Vinci_2023-24_v_0.03.pdf
libretto_Da_Vinci_2023-24_v_0.03.pdfssuser3d5df3
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei networkmttdlllbr
 
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...Andrea Marchetti
 

Similar to Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato (20)

Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
 
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
 
Istituto Tecnico Settore Tecnologico "Da vinci"
Istituto Tecnico Settore Tecnologico "Da vinci"Istituto Tecnico Settore Tecnologico "Da vinci"
Istituto Tecnico Settore Tecnologico "Da vinci"
 
Tesi
TesiTesi
Tesi
 
Smart grid 4 novembre
Smart grid 4 novembreSmart grid 4 novembre
Smart grid 4 novembre
 
RETI di LABORATORI - [Aeronautico] SENS&MICROLAB
RETI di LABORATORI - [Aeronautico] SENS&MICROLABRETI di LABORATORI - [Aeronautico] SENS&MICROLAB
RETI di LABORATORI - [Aeronautico] SENS&MICROLAB
 
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...
Tesi laurea Cristian Randieri: TECNICHE DI SOFT COMPUTING PER LA MODELLISTICA...
 
Tesi Laurea Cristian Randieri
Tesi Laurea  Cristian RandieriTesi Laurea  Cristian Randieri
Tesi Laurea Cristian Randieri
 
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdfCancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
Cancellatori_d_Eco_per_Dispositivi_di_Allarmistica_ed_Emergenza.pdf
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
 
Progetto Shell - Presentazione Corsi 2016 - Domotica e Tecnologie per gli amb...
Progetto Shell - Presentazione Corsi 2016 - Domotica e Tecnologie per gli amb...Progetto Shell - Presentazione Corsi 2016 - Domotica e Tecnologie per gli amb...
Progetto Shell - Presentazione Corsi 2016 - Domotica e Tecnologie per gli amb...
 
From parallel architecture to mapreduce hadoop passing on grid, UNIFI course
From parallel architecture to mapreduce hadoop passing on grid, UNIFI courseFrom parallel architecture to mapreduce hadoop passing on grid, UNIFI course
From parallel architecture to mapreduce hadoop passing on grid, UNIFI course
 
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...
Predizione di malfunzionamenti in reti di telecomunicazioni con tecniche di m...
 
Presentazione 2015-casap
Presentazione 2015-casapPresentazione 2015-casap
Presentazione 2015-casap
 
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...Compressione di insiemi di espressioni regolari tramite programmazione geneti...
Compressione di insiemi di espressioni regolari tramite programmazione geneti...
 
libretto_Da_Vinci_2023-24_v_0.03.pdf
libretto_Da_Vinci_2023-24_v_0.03.pdflibretto_Da_Vinci_2023-24_v_0.03.pdf
libretto_Da_Vinci_2023-24_v_0.03.pdf
 
Complexnetgis: a tool for the analysis of complex spatial networks, di Simone...
Complexnetgis: a tool for the analysis of complex spatial networks, di Simone...Complexnetgis: a tool for the analysis of complex spatial networks, di Simone...
Complexnetgis: a tool for the analysis of complex spatial networks, di Simone...
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei network
 
Presentazione_V3
Presentazione_V3Presentazione_V3
Presentazione_V3
 
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
 

Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato

  • 1. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione INDIVIDUAZIONE DI MARKERS LEGATI ALLA DEMENZA MISTA CON TECNICHE DI MACHINE LEARNING NON SUPERVISIONATO RELATORE Federico Cabitza STUDENTE Luca Bandini 830305 CORRELATORE Lorenzo Famiglini
  • 2. INTRODUZIONE 1.0 1 Pag. INDICE OBIETTIVO DEL PROGETTO 1.1 2 ANALISI DEL DATASET 2.0 3 EXPERIMENTAL SETTINGS 3.0 5 PREPROCESSING 3.1 6 PCA 3.2 8 ANALISI FINALE 3.6 22 K-PROTOTYPE 3.3 11 DISTANCE MATRIX E T-SNE 3.4 14 HDBSCAN 3.5 17 DISCUSSIONE DEI RISULTATI 4.0 26 CONCLUSIONE 5.0 27
  • 3. INTRODUZIONE 1.0 morbo o demenza di Alzheimer Encefalopatia vascolare Le malattie più frequenti che rientrano nello spettro della demenza sono: Il termine demenza mista si riferisce ad un insieme di malattie che colpiscono il cervello e causano il deterioramento delle funzioni cognitive più di quanto l’invecchiamento naturale possa fare. I sintomi di questa malattia sono vari, tra i più comuni possiamo trovare la perdita di memoria, problemi e difficoltà nelle funzioni cognitive e incapacità decisionale 1 Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Spesso le lesioni di queste due malattie si presentano contemporaneamente nello stesso paziente portando un notevole aumento delle probabilità di un declino cognitivo significativo.
  • 4. OBIETTIVO DEL PROGETTO 1.1 Individuazione di markers legati alla demenza mista attraverso l’analisi e l’elaborazione di una consistente quantità di dati relativi a pazienti soggetti e non alla malattia. 2 Utilizzare tecniche di Machine Learning non supervisionato con lo scopo di creare gruppi di pazienti aventi attributi e caratteristiche sanitarie comuni. Valutazione dei membri dei diversi gruppi. Estrazione di informazione attraverso l’analisi delle caratteristiche dei diversi pazienti. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
  • 5. ANALISI DEL DATASET 2.0 Anagrafica: dati anagrafici dei pazienti come la data di nascita, l’età, il sesso ecc.. Malattie: raccoglie e descrive alcune malattie e se il paziente è o non è stato soggetto. Segni e sintomi: sintomi riscontrati o meno dai pazienti. Esami di laboratorio: serie di esami effettuati sui pazienti (es. Emoglobina, Globuli rossi, Globuli bianchi). Disabilità: attributi relativi al grado di disabilità del paziente. Le tabelle utilizzate: Per ogni tabella ci sono 911 occorrenze, ovvero il numero di pazienti raccolti. 3 Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
  • 6. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione ANALISI DEL DATASET 2.0 Informazioni generali. 6
  • 7. EXPERIMENTAL SETTING 3.0 Dopo aver effettuato l’analisi dei dati è iniziata la fase di elaborazione. In questo capitolo saranno descritte le attività svolte definendo le condizioni in cui verranno utilizzate le diverse tecniche. 5 Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Prima di procedere con l’utilizzo di qualsiasi modello di machine learning è necessario affrontare la fase di preprocessing. I dati vengono puliti, sistemati e nel caso normalizzati per renderli adatti ad elaborazioni successive.
  • 8. PREPROCESSING 3.1 Il primo passo del preprocessing è la rimozione dei valori mancanti. 6 Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Eliminare prima le righe e poi le colonne con almeno il 40% di valori nulli. Imputazione con algoritmo MICE (Multivariate Imputation By Chained Equations). La fase di preprocessing è proseguita con l’identificazione e la rimozione degli outliers dal dataset
  • 9. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione PREPROCESSING 3.1 Le anomalie (outliers) sono insiemi di dati che presentano caratteristiche diverse dalle normali istanze presenti nel dataset. 7 Per l'identificazione è stato utilizzato l'algoritmo Isolation Forest basato su alberi di decisione. [1]
  • 10. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione PCA 3.2 La Principal Component Analysis (PCA) è una tecnica di riduzione della dimensionalità che permette di rappresentare un insieme di dati complessi in uno spazio di dimensione inferiore mantenendo nello stesso tempo la maggior parte dell' informazione originale. 8 [2]
  • 11. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione PCA 3.2 Varianza cumulata espressa per ogni componente della PCA. 9
  • 12. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione PCA 3.2 Grafico delle prime due componenti della PCA. 10
  • 13. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione K-PROTOTYPE 3.3 K-prototype è un algoritmo di clustering ibrido che combina le tecniche di K-means, per gli attributi numerici, e K-modes, per gli attributi discreti. Proposto per risolvere il problema di clustering di dati misti. 11 Per valutare la bontà dei cluster sono state utilizzate le tecniche del Elbow Method e Silhouette score. [3]
  • 14. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione K-PROTOTYPE 3.3 12
  • 15. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione LABEL CLUSTER NUEMERO OCCORRENZE CLUSTER 0 787 CLUSTER 1 22 K-PROTOTYPE 3.3 13 Visto i risultati ottenuti si è deciso di cambiare approccio e procedere in un modo differente. Grazie alla distanza di Gower si è deciso di calcolare la matrice delle distanze, ridurre la dimensionalità per visualizzare i dati e successivamente applicare il clustering. Risultati clustering:
  • 16. DISTANCE MATRIX E TSNE 3.4 La distanza di Gower è una metrica ibrida che permette di calcolare la matrice delle distanze di un insieme di elementi aventi sia variabili continue e discrete. 14 Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione t-SNE (t-Distributed Stochastic Neighbor Embedding) è un algoritmo di visualizzazione che consente di ridurre la dimensionalità dei dati in modo da poterli visualizzare. A differenza della PCA già utilizzata, t-SNE ha un funzionamento non lineare. La matrice è stata data in input all’algoritmo di T-sne per ridurre la dimensionalità e poter visualizzare i dati.
  • 17. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione DISTANCE MATRIX E TSNE 3.4 Output t-SNE. 15
  • 18. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione DISTANCE MATRIX E TSNE 3.4 Output t-SNE discriminando per pazienti malati di demenza mista e non. 16
  • 19. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione HDBSCAN 3.5 HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) è un algoritmo di clustering basato sulla densità che estende il noto algoritmo DBSCAN (Density-Based Spatial Clustering of Applications with Noise). 17 Determinare automaticamente il numero di cluster. Rappresentazione ad albero della struttura dei cluster. Scoprire gruppi di diverse dimensioni e forme.
  • 20. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione HDBSCAN 3.5 Prima esecuzione di HDBSCAN su output t-sne. 18
  • 21. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione HDBSCAN 3.5 Output HDBSCAN con discriminazione in base a pazienti malati e non. 19
  • 22. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione SCORE CLUSTER VALORE COPERTURA 0.75 DBVC SCORE 0.04 HDBSCAN 3.5 Successivamente siamo andati a valutare la qualità dei cluster creati la metrica DBVC score (Density- Based Validation and Clustering score). Questo valore viene calcolato per ogni punto del dataset e indica quanto strettamente una occorrenza è associata ad uno specifico cluster. 20 SCORE CLUSTER VALORE COPERTURA 0.78 DBVC SCORE 0.6 Tuning del modello
  • 23. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione HDBSCAN 3.5 Output HDBSCAN dopo tuning degli iperparametri. 21
  • 24. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione ANALISI FINALE 3.6 Calcolo del p-value per ogni faeture del dataset. 22 Ultimato il calcolo dei p-value delle variabili, si è proceduto verificando la presenza di falsi positivi negli attribuiti che hanno dimostrato maggior significatività con la tecnica della correzione di Benjamini/Hochberg. Si è preso in considerazione i due cluster più rappresentativi e popolati (cluster 1 e 2)
  • 25. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Sesso 0.013 Ipovisus < 0.001 Ipoacusia 0.019 Aterosclerosi carotidea 0.026 Ansia e Depressione 0.019 Vasculopatia cerebrale < 0.001 Deterioramento cognitivo < 0.001 ANALISI FINALE 3.6 Variabili discrete che hanno riportato un p-value < 0.05 23 Alzheimer < 0.001 MCI (Mild Cognitive Impairment.) < 0.001 DEMENZA MISTA < 0.001 Disturbi del sonno 0.037 Disturbo deambulazione < 0.001 Edemi declivi < 0.001
  • 26. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Età < 0.001 MMSE < 0.001 Emoglobina 0.009 Globuli rossi 0.042 Piastrine 0.023 ANALISI FINALE 3.6 Variabili continue che hanno riportato un p-value < 0.05 24 K 0.002 AST GOT 0.012 ALT GPT < 0.001 Vitamina D < 0.001
  • 27. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione Deterioramento cognitivo < 0.001 MCI (Mild Cognitive Impairment.) < 0.001 DEMENZA MISTA < 0.001 MMSE < 0.001 Vitamina D < 0.001 Disturbo deambulazione < 0.001 Età < 0.001 Vasculopatia cerebrale < 0.001 ANALISI FINALE 3.6 Variabili che hanno superato il test di B/H ordinate per grado di rilevanza in base al p-value corretto. 25 ALT GPT < 0.001 Alzheimer 0.001 Edemi declivi 0.002 Ipovisus 0.003 K 0.011 Emoglobina 0.037 AST GOT 0.048 Sesso 0.048
  • 28. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione DISCUSSIONE DEI RISULTATI 4.0 26 L'algoritmo K-prototype ha separato i dati con notevole discrepanza. Poca capacità del modello di generalizzare e identificare correttamente le osservazioni. Creare la matrice delle distanze ci ha permesso non solo di lavorare su una solo tipologia di dati ma anche di ridurre la dimensionalità in modo da poter ottenere delle visualizzazioni. Il calcolo dei p-value ha rilevato diverse variabili significative. Dall’applicazione del metodo di Benjamini/Hochberg emerge che i nove attributi più rilevanti hanno un p-value corretto estremamente basso (inferiore a 0.001) e i primi quattro sono tutti legati da caratteristiche cognitive.
  • 29. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione CONCLUSIONE 5.0 27 E' importante non fermarsi a questo stato della ricerca ma estendere il lavoro svolto sia da un punto vista tecnico che teorico. Proposte per sviluppi futuri: Integrare i dati utilizzati con una quantità maggiore di pazienti. Utilizzare altre tecniche di machine learning diverse da quelle sperimentate in questo progetto.
  • 30. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione GRAZIE RELATORE Federico Cabitza STUDENTE Luca Bandini 830305 CORRELATORE Lorenzo Famiglini
  • 31. Università degli Studi di Milano-Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione RIFERIMENTI IMMAGINI E. Anello, «Anomaly Detection With Isolation Forest», Medium, 22 novembre 2022. https://betterprogramming.pub/anomaly-detection-with-isolation-forest-e41f1f55cc6 [1] «Ph.D. thesis - Matthias Scholz - Max Planck Institute of Molecular Plant Physiology». http://phdthesis-bioinformatics-maxplanckinstitute-molecularplantphys.matthias-scholz.de/ [2] B. Kim, «A Fast K-prototypes Algorithm Using Partial Distance Computation», Symmetry, vol. 9, fasc. 4, Art. fasc. 4, apr. 2017, doi: 10.3390/sym9040058. [3]