Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato

Università degli Studi di Milano-Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Laurea Magistrale in Teoria e tecnologia della comunicazione
INDIVIDUAZIONE DI MARKERS LEGATI ALLA
DEMENZA MISTA CON TECNICHE DI
MACHINE LEARNING NON
SUPERVISIONATO
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini

INTRODUZIONE
1.0 1
Pag.
INDICE
OBIETTIVO DEL PROGETTO
1.1 2
ANALISI DEL DATASET
2.0 3
EXPERIMENTAL SETTINGS
3.0 5
PREPROCESSING
3.1 6
PCA
3.2 8
ANALISI FINALE
3.6 22
K-PROTOTYPE
3.3 11
DISTANCE MATRIX E T-SNE
3.4 14
HDBSCAN
3.5 17
DISCUSSIONE DEI RISULTATI
4.0 26
CONCLUSIONE
5.0 27

INTRODUZIONE
1.0
morbo o demenza di Alzheimer
Encefalopatia vascolare
Le malattie più frequenti che rientrano nello spettro della demenza sono:
Il termine demenza mista si riferisce ad un insieme di malattie che colpiscono il cervello e causano il
deterioramento delle funzioni cognitive più di quanto l’invecchiamento naturale possa fare.
I sintomi di questa malattia sono vari, tra i più comuni possiamo trovare la perdita di memoria, problemi
e difficoltà nelle funzioni cognitive e incapacità decisionale
1
Spesso le lesioni di queste due malattie si presentano contemporaneamente nello stesso paziente
portando un notevole aumento delle probabilità di un declino cognitivo significativo.

OBIETTIVO DEL PROGETTO
1.1
Individuazione di markers legati alla demenza mista attraverso l’analisi e l’elaborazione di una
consistente quantità di dati relativi a pazienti soggetti e non alla malattia.
2
Utilizzare tecniche di Machine Learning non supervisionato con lo scopo di creare gruppi di
pazienti aventi attributi e caratteristiche sanitarie comuni.
Valutazione dei membri dei diversi gruppi. Estrazione di informazione attraverso l’analisi delle
caratteristiche dei diversi pazienti.

ANALISI DEL DATASET
2.0
Anagrafica: dati anagrafici dei pazienti come la data di nascita, l’età, il sesso ecc..
Malattie: raccoglie e descrive alcune malattie e se il paziente è o non è stato soggetto.
Segni e sintomi: sintomi riscontrati o meno dai pazienti.
Esami di laboratorio: serie di esami effettuati sui pazienti (es. Emoglobina, Globuli rossi, Globuli
bianchi).
Disabilità: attributi relativi al grado di disabilità del paziente.
Le tabelle utilizzate:
Per ogni tabella ci sono 911 occorrenze, ovvero il numero di pazienti raccolti.
3

ANALISI DEL DATASET
2.0
Informazioni generali.
6

EXPERIMENTAL SETTING
3.0
Dopo aver effettuato l’analisi dei dati è iniziata la fase di elaborazione. In questo capitolo saranno
descritte le attività svolte definendo le condizioni in cui verranno utilizzate le diverse tecniche.
5
Prima di procedere con l’utilizzo di qualsiasi modello di machine learning è necessario affrontare la fase
di preprocessing.
I dati vengono puliti, sistemati e nel caso normalizzati per renderli adatti ad
elaborazioni successive.

PREPROCESSING
3.1
Il primo passo del preprocessing è la rimozione dei valori mancanti.
6
Eliminare prima le righe e poi le colonne con almeno il 40% di valori nulli.
Imputazione con algoritmo MICE (Multivariate Imputation By Chained Equations).
La fase di preprocessing è proseguita con l’identificazione e la rimozione degli outliers dal dataset

PREPROCESSING
3.1
Le anomalie (outliers) sono insiemi di dati che presentano caratteristiche diverse dalle normali istanze
presenti nel dataset.
7
Per l'identificazione è stato utilizzato l'algoritmo Isolation Forest basato su alberi di decisione.
[1]

PCA
3.2
La Principal Component Analysis (PCA) è una tecnica di riduzione della dimensionalità che permette di
rappresentare un insieme di dati complessi in uno spazio di dimensione inferiore mantenendo nello
stesso tempo la maggior parte dell' informazione originale.
8
[2]

PCA
3.2
Varianza cumulata espressa per ogni componente della PCA.
9

PCA
3.2
Grafico delle prime due componenti della PCA.
10

K-PROTOTYPE
3.3
K-prototype è un algoritmo di clustering ibrido che combina le tecniche di K-means, per gli attributi
numerici, e K-modes, per gli attributi discreti. Proposto per risolvere il problema di clustering di dati
misti.
11
Per valutare la bontà dei cluster sono state utilizzate
le tecniche del Elbow Method e Silhouette score.
[3]

K-PROTOTYPE
3.3
12

LABEL CLUSTER NUEMERO OCCORRENZE
CLUSTER 0 787
CLUSTER 1 22
K-PROTOTYPE
3.3
13
Visto i risultati ottenuti si è deciso di cambiare approccio e procedere in un modo differente.
Grazie alla distanza di Gower si è deciso di calcolare la matrice delle distanze, ridurre la dimensionalità
per visualizzare i dati e successivamente applicare il clustering.
Risultati clustering:

DISTANCE MATRIX E TSNE
3.4
La distanza di Gower è una metrica ibrida che permette di calcolare la matrice delle distanze di un
insieme di elementi aventi sia variabili continue e discrete.
14
t-SNE (t-Distributed Stochastic Neighbor Embedding) è un algoritmo di visualizzazione che consente di
ridurre la dimensionalità dei dati in modo da poterli visualizzare.
A differenza della PCA già utilizzata, t-SNE ha un funzionamento non lineare.
La matrice è stata data in input all’algoritmo di T-sne per ridurre la dimensionalità e poter visualizzare i
dati.

3.4
Output t-SNE.
15

3.4
Output t-SNE discriminando per pazienti malati di demenza mista e non.
16

HDBSCAN
3.5
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) è un algoritmo di
clustering basato sulla densità che estende il noto algoritmo DBSCAN (Density-Based Spatial Clustering
of Applications with Noise).
17
Determinare automaticamente il numero di cluster.
Rappresentazione ad albero della struttura dei cluster.
Scoprire gruppi di diverse dimensioni e forme.

HDBSCAN
3.5
Prima esecuzione di HDBSCAN su output t-sne.
18

HDBSCAN
3.5
Output HDBSCAN con discriminazione in base a pazienti malati e non.
19

SCORE CLUSTER VALORE
COPERTURA 0.75
DBVC SCORE 0.04
HDBSCAN
3.5
Successivamente siamo andati a valutare la qualità dei cluster creati la metrica DBVC score (Density-
Based Validation and Clustering score). Questo valore viene calcolato per ogni punto del dataset e
indica quanto strettamente una occorrenza è associata ad uno specifico cluster.
20
SCORE CLUSTER VALORE
COPERTURA 0.78
DBVC SCORE 0.6
Tuning del modello

HDBSCAN
3.5
Output HDBSCAN dopo tuning degli iperparametri.
21

ANALISI FINALE
3.6
Calcolo del p-value per ogni faeture del dataset.
22
Ultimato il calcolo dei p-value delle variabili, si è proceduto verificando la presenza di falsi positivi negli
attribuiti che hanno dimostrato maggior significatività con la tecnica della correzione di
Benjamini/Hochberg.
Si è preso in considerazione i due cluster più rappresentativi e popolati (cluster 1 e 2)

Sesso 0.013
Ipovisus < 0.001
Ipoacusia 0.019
Aterosclerosi carotidea 0.026
Ansia e Depressione 0.019
Vasculopatia cerebrale < 0.001
Deterioramento cognitivo < 0.001
ANALISI FINALE
3.6
Variabili discrete che hanno riportato un p-value < 0.05
23
Alzheimer < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
Disturbi del sonno 0.037
Disturbo deambulazione < 0.001
Edemi declivi < 0.001

Età < 0.001
MMSE < 0.001
Emoglobina 0.009
Globuli rossi 0.042
Piastrine 0.023
ANALISI FINALE
3.6
Variabili continue che hanno riportato un p-value < 0.05
24
K 0.002
AST GOT 0.012
ALT GPT < 0.001
Vitamina D < 0.001

Deterioramento cognitivo < 0.001
MCI (Mild Cognitive Impairment.) < 0.001
DEMENZA MISTA < 0.001
MMSE < 0.001
Vitamina D < 0.001
Disturbo deambulazione < 0.001
Età < 0.001
Vasculopatia cerebrale < 0.001
ANALISI FINALE
3.6
Variabili che hanno superato il test di B/H ordinate per grado di rilevanza in base al p-value corretto.
25
ALT GPT < 0.001
Alzheimer 0.001
Edemi declivi 0.002
Ipovisus 0.003
K 0.011
Emoglobina 0.037
AST GOT 0.048
Sesso 0.048

DISCUSSIONE DEI RISULTATI
4.0
26
L'algoritmo K-prototype ha separato i dati con notevole discrepanza. Poca capacità del modello di
generalizzare e identificare correttamente le osservazioni.
Creare la matrice delle distanze ci ha permesso non solo di lavorare su una solo tipologia di dati
ma anche di ridurre la dimensionalità in modo da poter ottenere delle visualizzazioni.
Il calcolo dei p-value ha rilevato diverse variabili significative.
Dall’applicazione del metodo di Benjamini/Hochberg emerge che i nove attributi più rilevanti
hanno un p-value corretto estremamente basso (inferiore a 0.001) e i primi quattro sono tutti
legati da caratteristiche cognitive.

CONCLUSIONE
5.0
27
E' importante non fermarsi a questo stato della ricerca ma estendere il lavoro svolto sia da un punto
vista tecnico che teorico.
Proposte per sviluppi futuri:
Integrare i dati utilizzati con una quantità maggiore di pazienti.
Utilizzare altre tecniche di machine learning diverse da quelle sperimentate in questo
progetto.

GRAZIE
RELATORE
Federico Cabitza
STUDENTE
Luca Bandini
830305
CORRELATORE
Lorenzo Famiglini

RIFERIMENTI IMMAGINI
E. Anello, «Anomaly Detection With Isolation Forest», Medium, 22 novembre 2022.
https://betterprogramming.pub/anomaly-detection-with-isolation-forest-e41f1f55cc6
[1]
«Ph.D. thesis - Matthias Scholz - Max Planck Institute of Molecular Plant Physiology».
http://phdthesis-bioinformatics-maxplanckinstitute-molecularplantphys.matthias-scholz.de/
[2]
B. Kim, «A Fast K-prototypes Algorithm Using Partial Distance Computation», Symmetry, vol. 9, fasc. 4, Art. fasc. 4, apr. 2017, doi:
10.3390/sym9040058.
[3]

Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato

Recommended

Recommended

More Related Content

Similar to Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato

Similar to Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato (20)

Individuazione di markers legati alla demenza mista con tecniche di Machine Learning Non Supervisionato