Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

luca-demo-ppt

170 views

Published on

  • Be the first to comment

  • Be the first to like this

luca-demo-ppt

  1. 1. Machine Learning e NeuroImaging: ricerca di biomarcatori cerebrali in patologie neurologiche Università degli studi di Padova Dipartimento di matematica Laurea magistrale in Informatica Laureando Relatore Luca Demo Ch.mo prof. Fabio Aiolli Anno accademico 2015/2016 Padova, 14 dicembre 2016
  2. 2. Oggetto dello studio: Classificazione tra cervelli sani e patologici a partire da immagini di risonanza magnetica cerebrale. Definizione dello stato dell’arte Sviluppo di procedure di apprendimento automatico mediante l’uso di modelli Support Vector Machine e Random Forest applicati all’intera struttura cerebrale o parte di essa. Valutazione critica dei metodi utilizzati e dei risultati ottenuti 14 Dicembre 2016 Luca Demo 2
  3. 3. Stato dell’arte Neuroimaging nello studio delle patologie psichiatriche  Attualmente limitato a ruolo confermativo di diagnosi su base comportamentale  Si vorrebbe renderlo uno strumento diagnostico Molte patologie osservate  Alcune patologie sono più discriminabili di altre Diversi tipi di neuroimmagini  Anche studi combinati Problemi  Dataset molto ristretti con caratteristiche diverse, metodologie diverse  Difficile comparare diversi studi 14 Dicembre 2016 Luca Demo 3
  4. 4. Machine Learning (cap. 2) 14 Dicembre 2016 Luca Demo 4
  5. 5. Apprendimento supervisionato: classificazione Ogni esempio è descritto da un input, tipicamente un vettore, e una etichetta. Se X è lo spazio di input e Y lo spazio delle etichette, allora l’insieme di apprendimento T è definito: 𝑇 = 𝑥1, 𝑦1 , … , 𝑥 𝑛, 𝑦𝑛 , 𝑥𝑖 ∈ 𝑋, 𝑦𝑖 ∈ 𝑌 Vogliamo quindi apprendere una funzione 𝑓: 𝑋 → 𝑌 che predica correttamente l’etichetta di ogni esempio non solo nell’insieme di apprendimento ma anche per nuovi dati la cui etichetta non è nota. 14 Dicembre 2016 Luca Demo 5
  6. 6. Support Vector Machine • Modello per classificazione binaria • Trova l’iperpiano che separa gli esempi che appartengono a una classe da quelli che non vi appartengono. Il semispazio a cui appartiene ogni esempio ne determina la classe. • Iperpiano ottimo: massimizza il margine di separazione tra gli esempi che appartengono a una classe e quelli che non vi appartengono. • Possiamo ammetterne l’errata classificazione di alcuni esempi introducendo una penalità 14 Dicembre 2016 Luca Demo 6
  7. 7. Support Vector Machine Caso non separabile: Kernel Trick Se gli esempi non sono separabili nello spazio di input, potrebbero comunque esserlo in un altro spazio. 𝜑: ℝ𝑙 → ℝ 𝑚 è una funzione che mappa gli esempi dallo spazio di input ℝ𝑙 a uno spazio delle features ℝ 𝑚 14 Dicembre 2016 Luca Demo 7
  8. 8. Kernel Nel problema duale di ottimizzazione per trovare il piano ottimo, i vettori di input compaiono solo in operazioni di prodotto scalare. Un kernel può essere visto come una funzione di similarità tra due esempi perché calcola il prodotto scalare tra due vettori nello spazio delle features Ma non calcola esplicitamente 𝜑! Il kernel più adatto per lo specifico problema dipende dal problema stesso. E’ possibile apprendere un kernel? 14 Dicembre 2016 Luca Demo 8
  9. 9. Multiple Kernel Learning A partire da molti kernel, se ne costruisce uno nuovo Perchè? Diversi kernel possono corrispondere a diverse nozioni di similarità Diversi kernel possono essere relativi a diverse forme di input EasyMKL: 14 Dicembre 2016 Luca Demo 9
  10. 10. Alberi di decisione Si classifica un esempio attraversando un albero costruito in fase di apprendimento. Algoritmo greedy. Nodi interni: definiscono una regola di split su una variabile in input Foglie: contengono l’etichetta da assegnare all’esempio Entropia: indice di disordine, è nullo nelle foglie. Information Gain: quanto una regola di split riduce l’entropia nei nodi figli. L’albero ottenuto classifica bene gli esempi di apprendimento ma generalizza male potatura. 14 Dicembre 2016 Luca Demo 10
  11. 11. Random Forest Classificatore ensemble: costruito su più modelli deboli E’ possibile costruire molti alberi introducendo un fattore di casualità, per esempio selezionando un sottoinsieme casuale di features per ognuno. Minore tendenza a overfit dell’insieme di apprendimento Migliore stima dell’importanza delle singole features per il problema di classificazione 14 Dicembre 2016 Luca Demo 11
  12. 12. I dati (cap. 3) 14 Dicembre 2016 Luca Demo 12
  13. 13. Neuroimmagini Risonanza magnetica: potenti magneti alterano lo stato dei protoni nella materia che compone i tessuti. Quando il campo magnetico viene rimosso, i protoni ritornano allo stato di equilibrio rilasciando energia che viene rilevata. Differenti tessuti diversa quantità di energia Viene costruita una immagine tridimensionale in scala di grigi Voxel: unità volumetrica a cui è associata una misura di intensità Molti tipi di risonanza magnetica strutturale 14 Dicembre 2016 Luca Demo 13
  14. 14. Neuroimmagini Immagini non confrontabili direttamente Posizionamento del paziente Pazienti di età, sesso, costituzione diverse Movimenti del corpo e disturbi esterni Diversi macchinari E’ necessario registrare fra loro le immagini, ovvero allinearle a uno spazio anatomico standard. Voxel corrispondenti in immagini diverse si riferiscono alla stessa area cerebrale Osservabilità mediante l’uso di atlanti che descrivono regioni di interesse (ROI) 14 Dicembre 2016 Luca Demo 14
  15. 15. Dati a disposizione dello studio 2 dataset relativi a 2 diverse ricerche  Dataset A: 139 pazienti schizofrenici (SCZ) e 136 controlli (HC). Fornite informazioni relative ad età, sesso e anno di acquisizione. Intensità codificate in virgola mobile 32bit  Dataset B: 54 pazienti schizofrenici (SCZ), 49 bipolari (BIP), 42 affetti da deficit di attenzione o iperattività (ADHD) e 122 controlli (HC). Non sono fornite informazioni aggiuntive. Intensità codificate in un intervallo discreto a 8bit Immagini di risonanza magnetica strutturale, pesatura T1 Dimensione originale 121x145x121 voxel Filtro gaussiano 8mm 14 Dicembre 2016 Luca Demo 15
  16. 16. Dati a disposizione dello studio L’intensità di un voxel dipende dalla materia che rappresenta (materia bianca, grigia, liquido, grasso). La distribuzione delle intensità non varia molto tra soggetti diversi ma il dataset A presenta un comportamento particolare. Le immagini sembrano differire per una costante moltiplicativa. SVM normalizzazione RF registrazione istogrammi 14 Dicembre 2016 Luca Demo 16
  17. 17. Dati a disposizione dello studio Filtraggio gaussiano: convoluzione con un nucleo gaussiano Perdita di informazioni in «alta frequenza» Correlazione tra voxel adiacenti e vicini 14 Dicembre 2016 Luca Demo 17
  18. 18. Definizione dei test e risultati (cap. 4 e 5) 14 Dicembre 2016 Luca Demo 18
  19. 19. Valutazione dei modelli Validazione incrociata: S-Stacked Stratified K-fold Cross Validation • S-Stacked: ripetuta S volte • K-fold: K fold di validazione • Stratified: ogni fold presenta la stessa distribuzione di etichette Metrica: media tra sensibilità e specificità • Metrica comunemente usata in letteratura scientifica in questo contesto Significatività: p-score • In questo studio saranno presentati risultati con significatività p<0.02 14 Dicembre 2016 Luca Demo 19
  20. 20. Preprocessing Ogni immagine costituisce un esempio nel processo di apprendimento. La patologia associata o l’appartenenza al gruppo di controllo definisce l’etichetta. Estraggo ordinatamente i voxel dall’immagine e costruisco i vettori di input. 2.122.945 voxel per ogni immagine, sono troppi? 14 Dicembre 2016 Luca Demo 20
  21. 21. Preprocessing Riduzione della dimensionalità  Ho già perso i dettagli dell’immagine a causa del filtraggio gaussiano: ridimensiono.  Molti voxel sicuramente non sono significativi: rimuovo il background. 14 Dicembre 2016 Luca Demo 21
  22. 22. Test «All Brain» Mashera di Background  Maschera comune calcolata sull’intero dataset, «conservativa» Support Vector Machine • Kernel lineare • Al variare del parametro C Random Forest • Al variare del numero di features per ogni albero 14 Dicembre 2016 Luca Demo 22
  23. 23. Test «All Brain» 14 Dicembre 2016 Luca Demo 23
  24. 24. Singoli Lobi Atlante Talairach  24 lobi, a coppie simmetrici rispetto al piano che divide i due emisferi cerebrali Support Vector Machine (un modello per ogni lobo) • Kernel lineare • Al variare del parametro C Random Forest (un modello per ogni lobo) • Al variare del numero di features per ogni albero Multiple Kernel Learning • EasyMKL usando un kernel per ogni lobo al variare di λ • Il kernel appreso viene inserito in una SVM testata al variare di C 14 Dicembre 2016 Luca Demo 24
  25. 25. Singoli Lobi 14 Dicembre 2016 Luca Demo 25
  26. 26. Singoli Lobi (MKL) 14 Dicembre 2016 Luca Demo 26
  27. 27. Approfondimenti Kernel non lineari? Kernel lineare va meglio Prestazioni al pari della migliore alternativa (tra quelle testate) Lineare -> posso stimare l’importanza delle singole features (utile per comprendere quali zone cerebrali sono coinvolte) 14 Dicembre 2016 Luca Demo 27
  28. 28. Approfondimenti Feature Selection? Recursive Feature Elimination: costruisce iterativamente modelli SVM lineari scartando ad ogni passo le features meno significative per il modello precedente. Non sembra aiutare… 14 Dicembre 2016 Luca Demo 28
  29. 29. Approfondimenti Feature Selection? Selezione con Random Forest: gli alberi implicitamente attribuiscono una importanza alle features. Complessivamente meglio di sola SVM o sola RF 14 Dicembre 2016 Luca Demo 29
  30. 30. Conclusioni (cap. 6) 14 Dicembre 2016 Luca Demo 30
  31. 31. Conclusioni - aspetti di machine learning Support Vector Machine  Ottime prestazioni nei task linearmente separabili (ADHD, BIP)  Risentono del preprocessing e della codifica delle immagini Random Forest  Più resistenti a disturbi nelle classificazioni che interessano SCZ  Nettamente inferiori a SVM in alcuni task  Possono essere utilizzate per selezionare features Kernel Multipli  L’applicazione di un kernel per lobo produce risultati intermedi tra RF e SVM. 14 Dicembre 2016 Luca Demo 31
  32. 32. Conclusioni Schizofrenia: manca un pattern comune?  HC contro SCZ: task più difficile.  SCZ classe più eterogenea rispetto a BIP e ADHD Bipolari e Disturbi di attenzione o iperattività contro tutte le altre classi  E’ possibile identificare alla cieca alcune patologie psichiatriche unicamente sulla base della morfologia cerebrale Alcune regioni interessanti potrebbero essere oggetto di studi più approfonditi:  Lobo frontale destro  Cervelletto posteriore destro 14 Dicembre 2016 Luca Demo 32
  33. 33. Conclusioni - problemi futuri Schizofrenia: manca un pattern comune?  Studio dell’eterogeneità della classe patologica Diagnosi multiclasse  Classificazione tra individui sani e malati con indicazione dell’eventuale patologia psichiatrica  One Class Support Vector Machine 14 Dicembre 2016 Luca Demo 33

×