SlideShare a Scribd company logo
1 of 42
Download to read offline
Classificazione in efMRI:
Ciaparrone Gioele
Vitale Luca
Anno 2015/2016
1
un caso di studio sulla coniugazione
dei verbi
Esperimento
• L’esperimento consiste nel coniugare al participio passato un
verbo all’infinito
• I verbi sono raggruppati secondo due criteri:
• Regolari e irregolari
• Numero di coniugazione
• I soggetti sono sottoposti a una scansione fMRI che permette
di rilevare cambiamenti nella risposta emodinamica BOLD
(Blood Oxygen Level Dependent) all’attività neurale
• L’esperimento è di tipo Rapid Event-Related fMRI
2
Obbiettivo
• Addestrare un classificatore che riesca a distinguere quando il
soggetto ha coniugato un verbo regolare da quando ne ha
coniugato uno irregolare
3
Dati a disposizione
• Per lo svolgimento del progetto abbiamo utilizzato i dati del
soggetto FECO
• VMR – Volume Magnetic Resonance
• VTC – Volume Time Course
• PRT - Protocol
4
Creazione della maschera
• Un volume del VTC contiene 58x40x46 = 106720 voxel
• Utile ridurre il numero di voxel tenuti in considerazione
ignorando quelli fuori dal cervello
• Per questo motivo abbiamo creato una maschera che ha
ridotto il numero di voxel a 50096
5
Feature Extraction
• Poiché il design dell’esperimento è Rapid Event-Related, per
estrarre i dati dei trial è opportuno utilizzare un approccio
diverso dal GLM:
• Estrarre la percentuale di cambiamento del segnale rispetto alla
baseline.
6
Feature Selection
• Il numero di trial di training (147) è estremamente inferiore al
numero di feature (50096)
• Per effettuare una prima fase di feature selection abbiamo
utilizzato due strategie:
• ICA (Indipendent Component Analysis)
• Searchlight
7
Independent Component Analysis - 1
• L’ICA è un metodo di elaborazione computazionale che
permette di separare le sorgenti indipendenti che
compongono un segnale mixato
• Nella fMRI è utile a individuare aree del cervello che si
comportano in maniera simile nel tempo (connettività
funzionale)
8
Independent Component Analysis - 2
• L’ICA cerca le componenti indipendenti massimizzando la non
gaussianità delle componenti o minimizzando l’informazione
mutua tra le componenti
9
Independent Component Analysis - 3
• Per le componenti indipendenti di una fMRI è possibile
utilizzare una “fingerprint” che permette di distinguere la
tipologia della componente estratta
10
Independent Component Analysis - 4
11
Independent Component Analysis - 5
12
IC 13
Independent Component Analysis - 6
13
IC 25
Searchlight
• La searchlight è un tipo di analisi multivariata
• L’algoritmo visita tutti i voxel disponibili
• Per ogni voxel vengono selezionati i voxel “vicini” all’interno di
una “sfera” di raggio scelto
• Il voxel viene selezionato in base ai risultati di una delle 3
seguenti tecniche:
• Support Vector Machine
• MANOVA
• Integrate t value
14
Searchlight – Risultati
• È stato utilizzato SVM come criterio di valutazione di rilevanza
dei voxel
• Voxel risultanti:
• IC 13 + IC 25: 1 voxel
• Zone Anatomiche: 7 voxel
• Ogni esecuzione ha restituito pochi voxel
• I voxel restituiti non hanno permesso di addestrare un
classificatore efficace
15
Clustering - 1
• Il clustering è il raggruppamento di elementi omogenei in un
insieme di dati
• Il clustering gerarchico è un tipo clustering che mira a costruire
una gerarchia. Esistono due tipi di strategie:
• Agglomerativo e divisivo
• Per la creazione dei cluster è possibile utilizzare diverse
metriche di dissimilarità
• Distanza euclidea o correlazione
• e diversi metodi di collegamento
• Complete linkage, single linkage e Ward’s method
16
Clustering - 2
17
• Clustering su voxel delle 2
componenti ICA selezionate
• Con il metodo di Ward si
ottengono meno cluster di
grande dimensione (1000+)
e la dimensione dei cluster
è più bilanciata
• Ward ha anche il vantaggio
di minimizzare la varianza
intra-cluster (valori dei
voxel più simili)
Clustering - 3
Dendrogrammi single linkage:
1. Distanza euclidea
2. Correlazione
18
Clustering - 4
Dendrogrammi complete linkage:
1. Distanza euclidea
2. Correlazione
19
Clustering - 5
Dendrogramma metodo di Ward
20
Clustering - 6
• Una volta effettuato il clustering, le medie dei cluster verranno
utilizzate come feature al posto dei singoli voxel
21
Degree of Clustering
• Il numero di cluster ottenuto è ancora alto per poter
effettuare una classificazione efficace: possiamo usare il DoC
per eliminare voxel isolati
• Il DoC calcola per ogni cluster la frazione di voxel contenuta in
un gruppo compatto di voxel sul numero totale di voxel
• Un gruppo compatto è un insieme di voxel contigui di
dimensione maggiore o uguale a quello di una certa soglia
• Per ogni clustering ottenuto con Ward, utilizzando il DoC il
numero di cluster è stato ridotto di circa il 90%
• Tuttavia anche con i cluster ottenuti, le performance di
classificazione sono state scarse
22
t-test
• Il t-test è un test statistico di verifica di ipotesi
• Il t-test permette di accettare o rifiutare l’ipotesi nulla che i
due campioni da esaminare provengano da distribuzioni con la
stessa media
• Il test calcola un parametro statistico t che viene usato per
calcolare la probabilità p che l’ipotesi nulla sia vera utilizzando
la distribuzione t di Student
• Effettuando il t-test sui vari
clustering ottenuti con il DoC,
abbiamo selezionato i
migliori K cluster secondo p
23
Sequential Feature Selection
• In alternativa al t-test abbiamo ridotto il numero di cluster
utilizzando la Sequential Feature Selection
• La selezione delle feature si basa sulla minimizzazione di un
criterio di errore
• Esistono varie strategie di selezione
• Sequential Forward Selection
• Sequential Backward Selection
• Sequential Floating Selection
24
Sequential Forward Selection
• La SFS inizia con un insieme vuoto di feature e aggiunge ad
ogni passo la feature che minimizza il criterio di errore
• Il criterio da noi utilizzato è l’errore di classificazione calcolato
usando SVM con 10-fold cross-validation
25
Sequential Backward Selection
• La SBS inizia con l’intero insieme di feature e ad ogni passo
elimina la feature senza la quale viene minimizzato il criterio di
errore
• Il criterio è lo stesso utilizzato nella SFS
26
Sequential Floating Selection
• La Sequential Floating Selection permette, a differenza degli
altri due metodi, di eliminare feature precedentemente
selezionate o di riaggiungere feature in precedenza scartate
• Abbiamo utilizzato la Sequential Floating Forward Selection,
che si basa sulla SFS
• Il criterio utilizzato è la distanza J3, definita come
Trace(Sw
-1(Sm))
• Sw: within-class scatter matrix – somma pesata della
covarianza delle feature per ogni classe
• Sm: mixture scatter matrix – matrice di covarianza globale (non
tiene conto delle classi)
• J3 assume valori alti se i dati di ogni classe sono compatti e
distanti tra di loro
27
Dati ottenuti e classificazione
Dopo aver applicato le varie strategie di feature selection,
abbiamo ottenuto vari dataset di training con feature diverse:
• Clustering con metodo di Ward con numero di cluster variabile
(300-900)
• Cluster selezionati con DoC con threshold variabile (5-15)
• Cluster selezionati dai precedenti con t-test e Sequential
Feature Selection
• Voxel singoli dei cluster ottenuti (t-test positivo)
Per la classificazione abbiamo utilizzato Support Vector Machine
28
Support Vector Machine - 1
• SVM è un algoritmo di classificazione lineare che ha come
obbiettivo raggiungere il massimo margine di separazione fra
le classi
29
Support Vector Machine - 2
• È importante la scelta del parametro di regolarizzazione C
• C infinito  hard margin
• C grande  narrow margin
• C piccolo  large margin
30
Support Vector Machine - 3
• Per il nostro problema abbiamo utilizzato SVM con kernel
lineare, poiché si comporta meglio con dati ad alta
dimensionalità
• Per ogni dataset abbiamo determinato il valore di C ottimale
eseguendo cross-validation 5 fold (circa 30 pattern per fold)
• Inoltre abbiamo tenuto da parte 20 pattern (10 per classe) per
effettuare un test sul modello ottenuto addestrando SVM con
il C ottimo
31
32
Nelle seguenti slide mostriamo il box plot relativo all’errore di cross-
validation del caso migliore di ciascuna delle 7 strategie di feature selection
Risultati – confronto tra approcci
Risultati – caso migliore per strategia - 1
All clusters:
• 40,82% cross-val. error
• 50% test error
33
Best t-test clusters:
• 36,73% cross-val. error
• 50% test error
Risultati – caso migliore per strategia - 2
t-test Positive clusters:
• 38,1% cross-val. error
• 40% test error
34
t-test Positive clusters voxel
• 38,1% cross-val. error
• 40% test error
Risultati – caso migliore per strategia - 3
SFS clusters:
• 33,3% cross-val. error
• 25% test error
35
SBS
• 27,89% cross-val. error
• 35% test error
Risultati – caso migliore per strategia - 4
36
SFFS
• 27,21% cross-val. error
• 25% test error
Matrici di confusione - SBS
Matrice di confusione sul test set
Predetti
Regolari Irregolari
Reali
Regolari 5 5
Irregolari 2 8
37
Matrice di confusione su cross-validation (somma dei 5 fold)
Predetti
Regolari Irregolari
Reali
Regolari 54 19
Irregolari 22 52
Matrici di confusione per il caso 600 cluster, threshold 5, SBS
Matrici di confusione - SFFS
Matrice di confusione sul test set
Predetti
Regolari Irregolari
Reali
Regolari 7 3
Irregolari 2 8
38
Matrice di confusione su cross-validation (somma dei 5 fold)
Predetti
Regolari Irregolari
Reali
Regolari 53 20
Irregolari 20 54
Matrici di confusione per il caso 600 cluster, threshold 5, SFFS
Test binomiale sui risultati
• Dataset SBS
• Cross-validation: p = 1.5*10-8
• Testing: p = 0.058
• Dataset SFFS
• Cross-validation: p = 5.5*10-9
• Testing: p = 0.006
39
Cluster migliori – 1
• Alcuni dei 41 cluster ottenuti con SBS sui 600 cluster con
threshold 5:
40
Cluster migliori – 2
• Alcuni degli 11 cluster ottenuti con SFFS sui 600 cluster con
threshold 5:
41
Fine
Grazie per l’attenzione!
42

More Related Content

Similar to Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi

Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnAlina Gnerre
 
Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiPietro Corona
 
Data Profiling with Metanome
Data Profiling with MetanomeData Profiling with Metanome
Data Profiling with MetanomeMatteo Senardi
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesDavidePanarella
 
Support Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiSupport Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiGioele Ciaparrone
 
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...MicheleScomina
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...mfurlanetto
 
Design and Implementation of a Data Anomaly Detection System based on Cluster...
Design and Implementation of a Data Anomaly Detection System based on Cluster...Design and Implementation of a Data Anomaly Detection System based on Cluster...
Design and Implementation of a Data Anomaly Detection System based on Cluster...Enrico Micco
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”StefanoChen1
 
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”RiccardoWeis
 
Introduzione alle Self Driving Car
Introduzione alle Self Driving CarIntroduzione alle Self Driving Car
Introduzione alle Self Driving CarVincenzo Dentamaro
 
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...FlavioEllero
 
Modelli Vettoriali per il Filtraggio dell'Informazione
Modelli Vettoriali per il Filtraggio dell'InformazioneModelli Vettoriali per il Filtraggio dell'Informazione
Modelli Vettoriali per il Filtraggio dell'InformazioneCataldo Musto
 
Deep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasDeep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasMarco Cannici
 
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Vrije Universiteit Brussel
 
BSc thesis presentation
BSc thesis presentationBSc thesis presentation
BSc thesis presentationMarco Bosco
 

Similar to Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi (20)

Definizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-LearnDefinizione e comparazione dei modelli di classificazione con Scikit-Learn
Definizione e comparazione dei modelli di classificazione con Scikit-Learn
 
Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzati
 
Data Profiling with Metanome
Data Profiling with MetanomeData Profiling with Metanome
Data Profiling with Metanome
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Sentiment candida 27_may
Sentiment candida 27_maySentiment candida 27_may
Sentiment candida 27_may
 
Support Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiSupport Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempi
 
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
 
Presentazione tesi
Presentazione tesiPresentazione tesi
Presentazione tesi
 
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
Sintesi automatica di una metrica di similarità tra stringhe tramite tecniche...
 
Design and Implementation of a Data Anomaly Detection System based on Cluster...
Design and Implementation of a Data Anomaly Detection System based on Cluster...Design and Implementation of a Data Anomaly Detection System based on Cluster...
Design and Implementation of a Data Anomaly Detection System based on Cluster...
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
 
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”
Extended Summary of “Co-Learning of Task and Sensor Placement for Soft Robotics”
 
Introduzione alle Self Driving Car
Introduzione alle Self Driving CarIntroduzione alle Self Driving Car
Introduzione alle Self Driving Car
 
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
Studio del limite superiore del tasso di errore nei codici LDPC con relazione...
 
Remote Sensing
Remote SensingRemote Sensing
Remote Sensing
 
Modelli Vettoriali per il Filtraggio dell'Informazione
Modelli Vettoriali per il Filtraggio dell'InformazioneModelli Vettoriali per il Filtraggio dell'Informazione
Modelli Vettoriali per il Filtraggio dell'Informazione
 
Deep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasDeep Learning on Event-Based Cameras
Deep Learning on Event-Based Cameras
 
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
Uno studio empirico sulla parametrizzazione dell'algoritmo slsq per la compre...
 
BSc thesis presentation
BSc thesis presentationBSc thesis presentation
BSc thesis presentation
 
Statistica
StatisticaStatistica
Statistica
 

More from Luca Vitale

Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Luca Vitale
 
A pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationA pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationLuca Vitale
 
Pathway based OMICs data classification
Pathway based OMICs data classificationPathway based OMICs data classification
Pathway based OMICs data classificationLuca Vitale
 
Shrinkage methods
Shrinkage methodsShrinkage methods
Shrinkage methodsLuca Vitale
 
Log structured-file-system
Log structured-file-systemLog structured-file-system
Log structured-file-systemLuca Vitale
 
Utilizzo dei Thread
Utilizzo dei ThreadUtilizzo dei Thread
Utilizzo dei ThreadLuca Vitale
 
Linguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLinguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLuca Vitale
 
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsSoluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsLuca Vitale
 

More from Luca Vitale (10)

Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
 
A pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationA pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classification
 
Pathway based OMICs data classification
Pathway based OMICs data classificationPathway based OMICs data classification
Pathway based OMICs data classification
 
JSON-LD
JSON-LDJSON-LD
JSON-LD
 
Shrinkage methods
Shrinkage methodsShrinkage methods
Shrinkage methods
 
Log structured-file-system
Log structured-file-systemLog structured-file-system
Log structured-file-system
 
Utilizzo dei Thread
Utilizzo dei ThreadUtilizzo dei Thread
Utilizzo dei Thread
 
S3
S3S3
S3
 
Linguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLinguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded Automata
 
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsSoluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
 

Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi

  • 1. Classificazione in efMRI: Ciaparrone Gioele Vitale Luca Anno 2015/2016 1 un caso di studio sulla coniugazione dei verbi
  • 2. Esperimento • L’esperimento consiste nel coniugare al participio passato un verbo all’infinito • I verbi sono raggruppati secondo due criteri: • Regolari e irregolari • Numero di coniugazione • I soggetti sono sottoposti a una scansione fMRI che permette di rilevare cambiamenti nella risposta emodinamica BOLD (Blood Oxygen Level Dependent) all’attività neurale • L’esperimento è di tipo Rapid Event-Related fMRI 2
  • 3. Obbiettivo • Addestrare un classificatore che riesca a distinguere quando il soggetto ha coniugato un verbo regolare da quando ne ha coniugato uno irregolare 3
  • 4. Dati a disposizione • Per lo svolgimento del progetto abbiamo utilizzato i dati del soggetto FECO • VMR – Volume Magnetic Resonance • VTC – Volume Time Course • PRT - Protocol 4
  • 5. Creazione della maschera • Un volume del VTC contiene 58x40x46 = 106720 voxel • Utile ridurre il numero di voxel tenuti in considerazione ignorando quelli fuori dal cervello • Per questo motivo abbiamo creato una maschera che ha ridotto il numero di voxel a 50096 5
  • 6. Feature Extraction • Poiché il design dell’esperimento è Rapid Event-Related, per estrarre i dati dei trial è opportuno utilizzare un approccio diverso dal GLM: • Estrarre la percentuale di cambiamento del segnale rispetto alla baseline. 6
  • 7. Feature Selection • Il numero di trial di training (147) è estremamente inferiore al numero di feature (50096) • Per effettuare una prima fase di feature selection abbiamo utilizzato due strategie: • ICA (Indipendent Component Analysis) • Searchlight 7
  • 8. Independent Component Analysis - 1 • L’ICA è un metodo di elaborazione computazionale che permette di separare le sorgenti indipendenti che compongono un segnale mixato • Nella fMRI è utile a individuare aree del cervello che si comportano in maniera simile nel tempo (connettività funzionale) 8
  • 9. Independent Component Analysis - 2 • L’ICA cerca le componenti indipendenti massimizzando la non gaussianità delle componenti o minimizzando l’informazione mutua tra le componenti 9
  • 10. Independent Component Analysis - 3 • Per le componenti indipendenti di una fMRI è possibile utilizzare una “fingerprint” che permette di distinguere la tipologia della componente estratta 10
  • 14. Searchlight • La searchlight è un tipo di analisi multivariata • L’algoritmo visita tutti i voxel disponibili • Per ogni voxel vengono selezionati i voxel “vicini” all’interno di una “sfera” di raggio scelto • Il voxel viene selezionato in base ai risultati di una delle 3 seguenti tecniche: • Support Vector Machine • MANOVA • Integrate t value 14
  • 15. Searchlight – Risultati • È stato utilizzato SVM come criterio di valutazione di rilevanza dei voxel • Voxel risultanti: • IC 13 + IC 25: 1 voxel • Zone Anatomiche: 7 voxel • Ogni esecuzione ha restituito pochi voxel • I voxel restituiti non hanno permesso di addestrare un classificatore efficace 15
  • 16. Clustering - 1 • Il clustering è il raggruppamento di elementi omogenei in un insieme di dati • Il clustering gerarchico è un tipo clustering che mira a costruire una gerarchia. Esistono due tipi di strategie: • Agglomerativo e divisivo • Per la creazione dei cluster è possibile utilizzare diverse metriche di dissimilarità • Distanza euclidea o correlazione • e diversi metodi di collegamento • Complete linkage, single linkage e Ward’s method 16
  • 17. Clustering - 2 17 • Clustering su voxel delle 2 componenti ICA selezionate • Con il metodo di Ward si ottengono meno cluster di grande dimensione (1000+) e la dimensione dei cluster è più bilanciata • Ward ha anche il vantaggio di minimizzare la varianza intra-cluster (valori dei voxel più simili)
  • 18. Clustering - 3 Dendrogrammi single linkage: 1. Distanza euclidea 2. Correlazione 18
  • 19. Clustering - 4 Dendrogrammi complete linkage: 1. Distanza euclidea 2. Correlazione 19
  • 20. Clustering - 5 Dendrogramma metodo di Ward 20
  • 21. Clustering - 6 • Una volta effettuato il clustering, le medie dei cluster verranno utilizzate come feature al posto dei singoli voxel 21
  • 22. Degree of Clustering • Il numero di cluster ottenuto è ancora alto per poter effettuare una classificazione efficace: possiamo usare il DoC per eliminare voxel isolati • Il DoC calcola per ogni cluster la frazione di voxel contenuta in un gruppo compatto di voxel sul numero totale di voxel • Un gruppo compatto è un insieme di voxel contigui di dimensione maggiore o uguale a quello di una certa soglia • Per ogni clustering ottenuto con Ward, utilizzando il DoC il numero di cluster è stato ridotto di circa il 90% • Tuttavia anche con i cluster ottenuti, le performance di classificazione sono state scarse 22
  • 23. t-test • Il t-test è un test statistico di verifica di ipotesi • Il t-test permette di accettare o rifiutare l’ipotesi nulla che i due campioni da esaminare provengano da distribuzioni con la stessa media • Il test calcola un parametro statistico t che viene usato per calcolare la probabilità p che l’ipotesi nulla sia vera utilizzando la distribuzione t di Student • Effettuando il t-test sui vari clustering ottenuti con il DoC, abbiamo selezionato i migliori K cluster secondo p 23
  • 24. Sequential Feature Selection • In alternativa al t-test abbiamo ridotto il numero di cluster utilizzando la Sequential Feature Selection • La selezione delle feature si basa sulla minimizzazione di un criterio di errore • Esistono varie strategie di selezione • Sequential Forward Selection • Sequential Backward Selection • Sequential Floating Selection 24
  • 25. Sequential Forward Selection • La SFS inizia con un insieme vuoto di feature e aggiunge ad ogni passo la feature che minimizza il criterio di errore • Il criterio da noi utilizzato è l’errore di classificazione calcolato usando SVM con 10-fold cross-validation 25
  • 26. Sequential Backward Selection • La SBS inizia con l’intero insieme di feature e ad ogni passo elimina la feature senza la quale viene minimizzato il criterio di errore • Il criterio è lo stesso utilizzato nella SFS 26
  • 27. Sequential Floating Selection • La Sequential Floating Selection permette, a differenza degli altri due metodi, di eliminare feature precedentemente selezionate o di riaggiungere feature in precedenza scartate • Abbiamo utilizzato la Sequential Floating Forward Selection, che si basa sulla SFS • Il criterio utilizzato è la distanza J3, definita come Trace(Sw -1(Sm)) • Sw: within-class scatter matrix – somma pesata della covarianza delle feature per ogni classe • Sm: mixture scatter matrix – matrice di covarianza globale (non tiene conto delle classi) • J3 assume valori alti se i dati di ogni classe sono compatti e distanti tra di loro 27
  • 28. Dati ottenuti e classificazione Dopo aver applicato le varie strategie di feature selection, abbiamo ottenuto vari dataset di training con feature diverse: • Clustering con metodo di Ward con numero di cluster variabile (300-900) • Cluster selezionati con DoC con threshold variabile (5-15) • Cluster selezionati dai precedenti con t-test e Sequential Feature Selection • Voxel singoli dei cluster ottenuti (t-test positivo) Per la classificazione abbiamo utilizzato Support Vector Machine 28
  • 29. Support Vector Machine - 1 • SVM è un algoritmo di classificazione lineare che ha come obbiettivo raggiungere il massimo margine di separazione fra le classi 29
  • 30. Support Vector Machine - 2 • È importante la scelta del parametro di regolarizzazione C • C infinito  hard margin • C grande  narrow margin • C piccolo  large margin 30
  • 31. Support Vector Machine - 3 • Per il nostro problema abbiamo utilizzato SVM con kernel lineare, poiché si comporta meglio con dati ad alta dimensionalità • Per ogni dataset abbiamo determinato il valore di C ottimale eseguendo cross-validation 5 fold (circa 30 pattern per fold) • Inoltre abbiamo tenuto da parte 20 pattern (10 per classe) per effettuare un test sul modello ottenuto addestrando SVM con il C ottimo 31
  • 32. 32 Nelle seguenti slide mostriamo il box plot relativo all’errore di cross- validation del caso migliore di ciascuna delle 7 strategie di feature selection Risultati – confronto tra approcci
  • 33. Risultati – caso migliore per strategia - 1 All clusters: • 40,82% cross-val. error • 50% test error 33 Best t-test clusters: • 36,73% cross-val. error • 50% test error
  • 34. Risultati – caso migliore per strategia - 2 t-test Positive clusters: • 38,1% cross-val. error • 40% test error 34 t-test Positive clusters voxel • 38,1% cross-val. error • 40% test error
  • 35. Risultati – caso migliore per strategia - 3 SFS clusters: • 33,3% cross-val. error • 25% test error 35 SBS • 27,89% cross-val. error • 35% test error
  • 36. Risultati – caso migliore per strategia - 4 36 SFFS • 27,21% cross-val. error • 25% test error
  • 37. Matrici di confusione - SBS Matrice di confusione sul test set Predetti Regolari Irregolari Reali Regolari 5 5 Irregolari 2 8 37 Matrice di confusione su cross-validation (somma dei 5 fold) Predetti Regolari Irregolari Reali Regolari 54 19 Irregolari 22 52 Matrici di confusione per il caso 600 cluster, threshold 5, SBS
  • 38. Matrici di confusione - SFFS Matrice di confusione sul test set Predetti Regolari Irregolari Reali Regolari 7 3 Irregolari 2 8 38 Matrice di confusione su cross-validation (somma dei 5 fold) Predetti Regolari Irregolari Reali Regolari 53 20 Irregolari 20 54 Matrici di confusione per il caso 600 cluster, threshold 5, SFFS
  • 39. Test binomiale sui risultati • Dataset SBS • Cross-validation: p = 1.5*10-8 • Testing: p = 0.058 • Dataset SFFS • Cross-validation: p = 5.5*10-9 • Testing: p = 0.006 39
  • 40. Cluster migliori – 1 • Alcuni dei 41 cluster ottenuti con SBS sui 600 cluster con threshold 5: 40
  • 41. Cluster migliori – 2 • Alcuni degli 11 cluster ottenuti con SFFS sui 600 cluster con threshold 5: 41