Partendo da analisi di laboratorio (es. analisi del sangue), informazioni
sociodemografiche, e analisi qualitative dello stato di un paziente, vogliamo provare a
capire se sussiste una possibilità di individuare un gruppo (cluster) che appartiene ad una
certa tipologia di demenza. Nello specifico, si parla di demenza mista. Tale malattia
ancora non ha trovato un forte riscontro da un punto di vista delle cause. Perciò ci siamo
chiesti se tramite tecniche di Machine Learning Non supervisionato (approcci di
Clustering) sia possibile individuare markers nel sangue associati a questo livello di
malattie.
Valutazione delle prestazioni di un protocollo di routing (Surge) per reti di...
Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato
1. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
INDIVIDUAZIONE DI MARKERS LEGATI ALLA
DEMENZA MISTA CON TECNICHE DI
MACHINE LEARNING NON
SUPERVISIONATO
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini
2. INTRODUZIONE
1.0 1
Pag.
INDICE
OBIETTIVO DEL PROGETTO
1.1 2
ANALISI DEL DATASET
2.0 3
EXPERIMENTAL SETTINGS
3.0 5
PREPROCESSING
3.1 6
PCA
3.2 8
ANALISI FINALE
3.6 22
K-PROTOTYPE
3.3 11
DISTANCE MATRIX E T-SNE
3.4 14
HDBSCAN
3.5 17
DISCUSSIONE DEI RISULTATI
4.0 26
CONCLUSIONE
5.0 27
3. INTRODUZIONE
1.0
morbo o demenza di Alzheimer
Encefalopatia vascolare
Le malattie più frequenti che rientrano nello spettro della demenza sono:
Il termine demenza mista si riferisce ad un insieme di malattie che colpiscono il cervello e causano il
deterioramento delle funzioni cognitive più di quanto l’invecchiamento naturale possa fare.
I sintomi di questa malattia sono vari, tra i più comuni possiamo trovare la perdita di memoria, problemi
e difficoltà nelle funzioni cognitive e incapacità decisionale
1
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Spesso le lesioni di queste due malattie si presentano contemporaneamente nello stesso paziente
portando un notevole aumento delle probabilità di un declino cognitivo significativo.
4. OBIETTIVO DEL PROGETTO
1.1
Individuazione di markers legati alla demenza mista attraverso l’analisi e l’elaborazione di una
consistente quantità di dati relativi a pazienti soggetti e non alla malattia.
2
Utilizzare tecniche di Machine Learning non supervisionato con lo scopo di creare gruppi di
pazienti aventi attributi e caratteristiche sanitarie comuni.
Valutazione dei membri dei diversi gruppi. Estrazione di informazione attraverso l’analisi delle
caratteristiche dei diversi pazienti.
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
5. ANALISI DEL DATASET
2.0
Anagrafica: dati anagrafici dei pazienti come la data di nascita, l’età, il sesso ecc..
Malattie: raccoglie e descrive alcune malattie e se il paziente è o non è stato soggetto.
Segni e sintomi: sintomi riscontrati o meno dai pazienti.
Esami di laboratorio: serie di esami effettuati sui pazienti (es. Emoglobina, Globuli rossi, Globuli
bianchi).
Disabilità: attributi relativi al grado di disabilità del paziente.
Le tabelle utilizzate:
Per ogni tabella ci sono 911 occorrenze, ovvero il numero di pazienti raccolti.
3
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
6. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
ANALISI DEL DATASET
2.0
Informazioni generali.
6
7. EXPERIMENTAL SETTING
3.0
Dopo aver effettuato l’analisi dei dati è iniziata la fase di elaborazione. In questo capitolo saranno
descritte le attività svolte definendo le condizioni in cui verranno utilizzate le diverse tecniche.
5
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Prima di procedere con l’utilizzo di qualsiasi modello di machine learning è necessario affrontare la fase
di preprocessing.
I dati vengono puliti, sistemati e nel caso normalizzati per renderli adatti ad
elaborazioni successive.
8. PREPROCESSING
3.1
Il primo passo del preprocessing è la rimozione dei valori mancanti.
6
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Eliminare prima le righe e poi le colonne con almeno il 40% di valori nulli.
Imputazione con algoritmo MICE (Multivariate Imputation By Chained Equations).
La fase di preprocessing è proseguita con l’identificazione e la rimozione degli outliers dal dataset
9. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PREPROCESSING
3.1
Le anomalie (outliers) sono insiemi di dati che presentano caratteristiche diverse dalle normali istanze
presenti nel dataset.
7
Per l'identificazione è stato utilizzato l'algoritmo Isolation Forest basato su alberi di decisione.
[1]
10. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
La Principal Component Analysis (PCA) è una tecnica di riduzione della dimensionalità che permette di
rappresentare un insieme di dati complessi in uno spazio di dimensione inferiore mantenendo nello
stesso tempo la maggior parte dell' informazione originale.
8
[2]
11. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
Varianza cumulata espressa per ogni componente della PCA.
9
12. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
PCA
3.2
Grafico delle prime due componenti della PCA.
10
13. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
K-PROTOTYPE
3.3
K-prototype è un algoritmo di clustering ibrido che combina le tecniche di K-means, per gli attributi
numerici, e K-modes, per gli attributi discreti. Proposto per risolvere il problema di clustering di dati
misti.
11
Per valutare la bontà dei cluster sono state utilizzate
le tecniche del Elbow Method e Silhouette score.
[3]
14. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
K-PROTOTYPE
3.3
12
15. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
LABEL CLUSTER NUEMERO OCCORRENZE
CLUSTER 0 787
CLUSTER 1 22
K-PROTOTYPE
3.3
13
Visto i risultati ottenuti si è deciso di cambiare approccio e procedere in un modo differente.
Grazie alla distanza di Gower si è deciso di calcolare la matrice delle distanze, ridurre la dimensionalità
per visualizzare i dati e successivamente applicare il clustering.
Risultati clustering:
16. DISTANCE MATRIX E TSNE
3.4
La distanza di Gower è una metrica ibrida che permette di calcolare la matrice delle distanze di un
insieme di elementi aventi sia variabili continue e discrete.
14
Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
t-SNE (t-Distributed Stochastic Neighbor Embedding) è un algoritmo di visualizzazione che consente di
ridurre la dimensionalità dei dati in modo da poterli visualizzare.
A differenza della PCA già utilizzata, t-SNE ha un funzionamento non lineare.
La matrice è stata data in input all’algoritmo di T-sne per ridurre la dimensionalità e poter visualizzare i
dati.
17. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISTANCE MATRIX E TSNE
3.4
Output t-SNE.
15
18. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISTANCE MATRIX E TSNE
3.4
Output t-SNE discriminando per pazienti malati di demenza mista e non.
16
19. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) è un algoritmo di
clustering basato sulla densità che estende il noto algoritmo DBSCAN (Density-Based Spatial Clustering
of Applications with Noise).
17
Determinare automaticamente il numero di cluster.
Rappresentazione ad albero della struttura dei cluster.
Scoprire gruppi di diverse dimensioni e forme.
20. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Prima esecuzione di HDBSCAN su output t-sne.
18
21. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Output HDBSCAN con discriminazione in base a pazienti malati e non.
19
22. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
SCORE CLUSTER VALORE
COPERTURA 0.75
DBVC SCORE 0.04
HDBSCAN
3.5
Successivamente siamo andati a valutare la qualità dei cluster creati la metrica DBVC score (Density-
Based Validation and Clustering score). Questo valore viene calcolato per ogni punto del dataset e
indica quanto strettamente una occorrenza è associata ad uno specifico cluster.
20
SCORE CLUSTER VALORE
COPERTURA 0.78
DBVC SCORE 0.6
Tuning del modello
23. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
HDBSCAN
3.5
Output HDBSCAN dopo tuning degli iperparametri.
21
24. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
ANALISI FINALE
3.6
Calcolo del p-value per ogni faeture del dataset.
22
Ultimato il calcolo dei p-value delle variabili, si è proceduto verificando la presenza di falsi positivi negli
attribuiti che hanno dimostrato maggior significatività con la tecnica della correzione di
Benjamini/Hochberg.
Si è preso in considerazione i due cluster più rappresentativi e popolati (cluster 1 e 2)
25. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Sesso 0.013
Ipovisus < 0.001
Ipoacusia 0.019
Aterosclerosi carotidea 0.026
Ansia e Depressione 0.019
Vasculopatia cerebrale < 0.001
Deterioramento cognitivo < 0.001
ANALISI FINALE
3.6
Variabili discrete che hanno riportato un p-value < 0.05
23
Alzheimer < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
Disturbi del sonno 0.037
Disturbo deambulazione < 0.001
Edemi declivi < 0.001
26. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Età < 0.001
MMSE < 0.001
Emoglobina 0.009
Globuli rossi 0.042
Piastrine 0.023
ANALISI FINALE
3.6
Variabili continue che hanno riportato un p-value < 0.05
24
K 0.002
AST GOT 0.012
ALT GPT < 0.001
Vitamina D < 0.001
27. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
Deterioramento cognitivo < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
MMSE < 0.001
Vitamina D < 0.001
Disturbo deambulazione < 0.001
Età < 0.001
Vasculopatia cerebrale < 0.001
ANALISI FINALE
3.6
Variabili che hanno superato il test di B/H ordinate per grado di rilevanza in base al p-value corretto.
25
ALT GPT < 0.001
Alzheimer 0.001
Edemi declivi 0.002
Ipovisus 0.003
K 0.011
Emoglobina 0.037
AST GOT 0.048
Sesso 0.048
28. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
DISCUSSIONE DEI RISULTATI
4.0
26
L'algoritmo K-prototype ha separato i dati con notevole discrepanza. Poca capacità del modello di
generalizzare e identificare correttamente le osservazioni.
Creare la matrice delle distanze ci ha permesso non solo di lavorare su una solo tipologia di dati
ma anche di ridurre la dimensionalità in modo da poter ottenere delle visualizzazioni.
Il calcolo dei p-value ha rilevato diverse variabili significative.
Dall’applicazione del metodo di Benjamini/Hochberg emerge che i nove attributi più rilevanti
hanno un p-value corretto estremamente basso (inferiore a 0.001) e i primi quattro sono tutti
legati da caratteristiche cognitive.
29. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
CONCLUSIONE
5.0
27
E' importante non fermarsi a questo stato della ricerca ma estendere il lavoro svolto sia da un punto
vista tecnico che teorico.
Proposte per sviluppi futuri:
Integrare i dati utilizzati con una quantità maggiore di pazienti.
Utilizzare altre tecniche di machine learning diverse da quelle sperimentate in questo
progetto.
30. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
GRAZIE
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini
31. Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
RIFERIMENTI IMMAGINI
E. Anello, «Anomaly Detection With Isolation Forest», Medium, 22 novembre 2022.
https://betterprogramming.pub/anomaly-detection-with-isolation-forest-e41f1f55cc6
[1]
«Ph.D. thesis - Matthias Scholz - Max Planck Institute of Molecular Plant Physiology».
http://phdthesis-bioinformatics-maxplanckinstitute-molecularplantphys.matthias-scholz.de/
[2]
B. Kim, «A Fast K-prototypes Algorithm Using Partial Distance Computation», Symmetry, vol. 9, fasc. 4, Art. fasc. 4, apr. 2017, doi:
10.3390/sym9040058.
[3]