Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tesis: Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis

81 views

Published on

Presentación de la tesis doctoral:
Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis: Tackling the Small Sample Size Problem
Francisco Jesús Martínez Murcia
1 de Junio de 2017
Directores:
Javier Ramírez Pérez de Inestrosa
Juan Manuel Górriz Sáez

Find the whole thesis at https://github.com/pakitochus/thesis

  • Be the first to comment

  • Be the first to like this

Tesis: Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis

  1. 1. Statistical Neuroimage Modeling, Processing and Synthesis based on Texture and Component Analysis Tackling the Small Sample Size Problem Francisco Jesús Martínez Murcia 1 de Junio de 2017 Directores: Javier Ramírez Pérez de Inestrosa Juan Manuel Górriz Sáez
  2. 2. Tabla de contenidos 1. Introducción Motivación Estado del arte Metodología general 2. Reducción del espacio de características Descomposición de imágenes Análisis de texturas Spherical Brain Mapping 3. Aumento del tamaño de la muestra Significance-Weighted PCA (SWPCA) Síntesis de imagenes 4. Conclusions Conclusions 2
  3. 3. Motivación • El uso de neuroimagen se ha incrementado exponencialmente en los últimos años. • Los estudios se basan en análisis estadísticos de poblaciones diferenciadas. • En esta tarea, el procesado de neuroimagen mediante computadores es fundamental, pudiendo extraer información relevante, e incluso predecir una enfermedad. • Problema: Problema del pequeño tamaño de la muestra, o Small Sample Size Problem. 4
  4. 4. Motivación El Small Sample Size Problem, o problema del pequeño tamaño de la muestra. En neuroimagen, >500.000 características → espacios casi vacíos → resultados poco generalizables. 5
  5. 5. Objetivos Objetivo principal Contribuir con nuevas estrategias para solucionar el problema del pequeño tamaño de la muestra en neuroimagen. Objetivo 1 Proveer nuevas estrategias para reducir el espacio de características sin pérdida de información. Objetivo 2 Desarrollar nuevos sistemas para aumentar el tamaño de la muestra. 6
  6. 6. Objetivos Hemos aportado varias contribuciones para cada uno de los objetivos descritos, que se han distribuído de la siguiente manera: REDUCIR EL ESPACIO DE CARACTERÍSTICAS DIAGNÓSTICO ASISTIDO POR COMPUTADOR SÍNTESIS DE IMÁGENES Capítulo 8 FUSIÓN DE DATASETS Capítulo 7 MAPEO ESFÉRICO Capítulo 6 ANÁLISIS DE TEXTURA Capítulo 5 DESCOMPOSICIÓN DE IMAGEN Capítulo 4 AUMENTAR TAMAÑO ABORDANDO EL PROBLEMA DEL PEQUEÑO TAMAÑO DE LA MUESTRA 7
  7. 7. Patologías • Enfermedad de Alzheimer (AD) y Parkinsonismo (PKS) son las enfermedades neurodegenerativas con mayor prevalencia. → Procesos de neurodegeneración. • El Trastorno del Espectro Autista (ASD) es, por su parte, uno de los trastornos del neurodesarrollo que más atención recibe. → Causas desconocidas. • Además de historial, test neurocognitivos (MMSE, ADAS) y sintomatología clínica, cada vez se estudian más marcadores relacionados con neuroimagen. 9
  8. 8. Biomarcadores En AD: • Atrofia cerebral en imagen resonancia magnética (MRI). • Hipometabolismo y aparición de placas de amiloide en tomografía por emisión de positrones (PET). • Hipoperfusión sanguínea en tomografía computarizada por emisión monofotónica (SPECT). NORMAL MCI AD 10
  9. 9. Biomarcadores En PKS: • Radioligandos como 123 I FP-CIT (DaTSCAN) en SPECT, que permiten observar la distribución de transportadores de dopamina en el estriado. En ASD: • Evidencia contradictoria en MRI. CTL PD PD 11
  10. 10. Machine learning en neuroimagen • Machine learning permite que los computadores aprendan a partir de datos → identificar patrones, explorar estructuras y realizar predicciones. • En medicina, Computer Aided Diagnosis (CAD), sistemas de ayuda al diagnóstico. NEUROIMAGING 01 02 03 High dimensional brain data, labeled by experts. FEATURE EXTRACTION Extract features from the images DIAGNOSIS Train a model and predict labels of unseen data 04 FEATURE SELECTION Select best features SISTEMAS CAD Generalmente, los sistemas CAD consisten en cuatro pasos: adquisición y preprocesado, extracción de características, selección de características y clasificación 12
  11. 11. Sistemas CAD • Voxels as features (VAF)1 : el CAD más simple. Voxels como características de un clasificador. • Extracción de características: creación de nuevas características inherentes a los datos: • Espesor cortical (FreeSurfer)2 • Descomposición PCA3 • Otras descomposiciones (ICA, EMD, PLS)4 . 1Stoeckel J., Fung G. (2005). SVM feature selection for classification of spect images of Alzheimer’s disease using spatial information 2Young Noh et al (2014). Anatomical heterogeneity of Alzheimer disease based on cortical thickness on MRIs. Neurology 3Mudali et al (2015). Classification of Parkinsonian Syndromes from FDG-PET Brain Data Using Decision Trees with SSM/PCA Features. Computational and Mathematical Methods in Medicine. 4I.A. Illan, et al (2011). 18 F-FDG PET imaging analysis for computer aided Alzheimer’s diagnosis. Information Sciences. 13
  12. 12. Sistemas CAD • Extracción de características (continuación): • Análisis de texturas5 • Selección de características: selección de las más relevantes para la clasificación6 . • Clasificadores: bayesianos, SVM, decision trees, ensembles, etc 7 . 5L. Sørensen et al (2015). Early detection of Alzheimer’s disease using MRI hippocampal texture. Human Brain Mapping. 6B. Mwangi, et al (2014). A Review of Feature Reduction Techniques in Neuroimaging. Neuroinformatics 7D. Zhang, et al (2011). Multimodal classification of Alzheimer’s disease and mild cognitive impairment, NeuroImage 14
  13. 13. Preprocesado Cauce general de preprocesado de neuroimagen estructural: Original Template Normalized Smoothed Segmented 16
  14. 14. Registro (o normalización espacial) Transformación rígida (afín) con 12 parámetros que se asignan mediante la minimización de una función de coste. Ejemplo: el error cuadrático medio entre la imagen y la plantilla.      x′ y′ z′ 1      =      a00 a01 a02 a03 a10 a11 a12 a13 a20 a21 a22 a23 0 0 0 1           x y z 1      (1) Transformación no rígida (warping): adaptación de diferencias locales entre sujetos. Se estima una serie de campos de deformación y se aplican. 17
  15. 15. Registro (o normalización espacial) ORIGINAL AFFINE NON-RIGID 18
  16. 16. Segmentación GM WM • Clasificación de cada voxel como cada tipo de tejido (GM, WM, CSF y otros). • Combinación de una estimación de distribución como mezcla de gaussianas con los mapas a priori para producir mapas de probabilidad a posteriori para cada tejido. • Dilatación y erosión iterativa de mapas para limpieza. • Modulación → Escalado de los mapas para que la cantidad total de tejido se preserve. 19
  17. 17. Normalización en intensidad Fórmula general para realizar la transformación de intensidades: I′ = aI + b (2) En esta tesis: normalización al máximo y normalización integral. (a) (b) Normalización al Máximo1 Sin normalización (c) Normalización Integral1 1 I.A. Illan et al (2012). Automatic assistance to Parkinsonˈs disease diagnosis in DaTSCAN SPECT imaging. Medical Physics 20
  18. 18. Evaluación de los sistemas Clasificador: Support Vector Machine lineal. Evaluación: 10-Fold estratificado. Training Set Training Folds Test Folds 1ª Iteración 2ª Iteración 3ª Iteración 10ª Iteración E1 E2 E3 E10 E 21
  19. 19. Evaluación: Parámetros Predicción Positivo Negativo Real Positivo Verd. Positivo Falso Positivo Negativo Falso Negativo Verd. Negativo Table 1: Matriz de confusión acc = TP + TN TP + TN + FP + FN (3) sens = TP TP + FN spec = TN TN + FP (4) 22
  20. 20. Evaluación: Bases de Datos Hospital Virgen de la Victoria Hospital Virgen de las Nieves 23
  21. 21. Descomposición de imágenes • En esta sección exploramos una serie de sistemas CAD8910 que combina algoritmos de selección y descomposición de características aplicados al diagnóstico de AD y PKS. 8F.J. Martinez-Murcia et al (2012). Computer aided diagnosis tool for Alzheimer’s disease based on Mann–Whitney–Wilcoxon U-test. Expert Systems with Applications. 9F.J. Martinez-Murcia et al (2013). Functional activity maps based on significance measures and Independent Component Analysis. Computer methods and programs in biomedicine. 10F.J. Martinez-Murcia et al (2014). Automatic detection of Parkinsonism using significance measures and component analysis in DaTSCAN imaging. Neurocomputing 25
  22. 22. Selección de características
  23. 23. Selección de características t-Test two-sample t-test, cuantifica diferencias entre dos clases, asumiendo varianzas independientes. Se asume distribución normal. t = µ1−µ2√ σ2 2 +σ2 1 n Entropía relativa Medida no simétrica de diferencias entre dos distribuciones de probabilidad. RE = ( σ2 2/σ2 1 + σ2 1/σ2 2 − 2 ) + 1 2 (µ2 − µ1)2 ( 1/σ2 1 + 1/σ2 2 ) Mann-Whitney-Wilcoxon U-test Medida no paramétrica, basada en el ranking de las características y asignación de valores. Bajo distribución normal similar al t-test. 26
  24. 24. Descomposición de características
  25. 25. Descomposición de características Ecuación general de la descomposición lineal: xi = s0w0 + s1w1 + · · · + scwc + ϵ = sW + ϵ (5) En esta tesis: Análisis de factores (FA) y Análisis de componentes independientes (ICA). 27
  26. 26. Descomposición: Factor Analysis Reescribimos la Eq. 5 asumiendo que X está centrada en 0: X − µ = SW + ϵ (6) Asumimos: • W y ϵ son independientes. • E[W] = 0. • Cov(W) = I, lo que asegura que los factores no están correlados. • Conocemos c, el número de componentes a estimar. La estimación se realiza via Maximum Likelihood y está más detallada en la memoria. 28
  27. 27. Descomposición: Independent Component Analysis Teorema central del límite La distribución de una combinación lineal de variables independientes es más gaussiana que las variables originales Es posible estimar una de estas variables minimizando la gaussianidad. El conjunto de señales finales está de nuevo representado por: X = WS (7) Usamos FastICA, un algoritmo neuronal que usa una regla de aprendizaje para calcular iterativamente wc de modo que w′ c × xi maximice la no-gaussianidad. FastICA se basa en entropía negativa para medir la no-gaussianidad. 29
  28. 28. Experimentos
  29. 29. Experimentos • Vamos a probar las diferentes combinaciones de métodos de selección y extracción de características en cada una de las bases de datos funcionales que utilizamos: • Bases de datos: ADNI-PET y VDLN-HMPAO (para AD), y PPMI-DAT, VDLN-DAT y VDLV-DAT (para PKS). • Métodos de selección: t-test, relative entropy y Mann-Whitney Wilcoxon. • Métodos de extracción: Factor Analysis e ICA. 30
  30. 30. Resultados (AD): rendimiento en clasificación Método de descomposición Figure 1: Precisión en función del método de selección y decomposición de características con 5 componentes, utilizando las dos bases de datos de AD. 31
  31. 31. Resultados (AD): regiones más significativas 0 2 4 6 8 10 (a) t-test. 0.0 0.5 1.0 1.5 2.0 2.5 (b) Relative entropy. 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 (c) Wilcoxon. Figure 2: Comparación entre los diferentes métodos de filtrado, y las regiones donde la diferencia en metabolismo de glucosa es más significativa, en la base de datos ADNI-PET. 32
  32. 32. Resultados (PKS): rendimiento en clasificación Método de descomposición Figure 3: Precisión en función del método de selección y decomposición de características para 5 componentes, en las tres bases de datos de PKS. 33
  33. 33. Resultados (PKS): regiones más significativas 0 2 4 6 8 10 12 14 16 (a) t-test. 0 1 2 3 4 5 (b) Relative entropy. 0.000 0.001 0.002 0.003 0.004 0.005 (c) MWW U-test. Figure 4: Comparación entre los diferentes métodos de filtrado, y las regiones donde el déficit de DAT es más significativo en PPMI-DAT. 34
  34. 34. Análisis de texturas La información sobre textura es ampliamente utilizada en reconocimiento de patrones. Construimos un CAD11 que utiliza características de textura para el diagnóstico de PD (no incluye SWEDD). 11F.J. Martinez-Murcia et al (2013). Parametrization of textural patterns in 123I-ioflupane imaging for the automatic detection of Parkinsonism. Medical Physics. 36
  35. 35. Extracción de subvolúmenes
  36. 36. Extracción de subvolúmenes 0 20 40 60 0 10 20 30 40 50 60 70 Ith = 0.25 0 20 40 0 10 20 30 40 50 60 Ith = 0.30 0 10 20 30 40 0 10 20 Ith = 0.35 px,min = arg min x (I > Ith) (8) px,max = arg max x (I > Ith) (9) Isub = I[px,min : px,max, py,min : py,max, pz,min : pz,max] (10) 37
  37. 37. Análisis de Textura
  38. 38. Análisis de Textura de Haralick C∆(i, j) = (n,m,k) ∑ p=(1,1,1) { 1, si I(p) = i y I(p + ∆) = j 0, en otro caso (11) i j i j • Mide las frecuencias de pares de valores de grises a diferentes distancias y direcciones d ˆ∆. • Cuantización. • Matriz de probabilidades P(i, j) = C∆(i,j)∑ i,j C∆(i,j) para calcular características. 38
  39. 39. Características de Haralick Energy = ∑ i ∑ j P(i, j)2 (12) Correlation = ∑ i ∑ j ijP(i,j)−µxµy σxσy (13) Contrast = Ng−1∑ n=0 n2 { ∑ |i−j|=n P(i, j) } (14) Sum Mean = 1 2 ∑ i ∑ j (iP(i, j) + jP(i, j)) (15) Cluster Shade = ∑ i ∑ j (i + j − µx − µy)3 P(i, j) (16) Cluster Tendency = ∑ i ∑ j {i + j − µx − µy}4 P(i, j) (17) Homogeneity = ∑ i ∑ j P(i,j) 1+|i−j| (18) 39
  40. 40. Experimentos
  41. 41. Experimentos • Experimento 1: Umbral óptimo de definición de subvolumen. • Experimento 2: Habilidad de cada característica de textura para diferenciar entre PD y CTLs. • Dos modos de variación de distancia en la GLCM: single (individual) y cumulative (acumulativa). • Experimento 3: Selección de características de textura. 40
  42. 42. Experimento 1: Umbral óptimo
  43. 43. Experimento 1: Umbral óptimo 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.78 0.80 0.82 0.84 0.86 0.88 0.90 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.78 0.80 0.82 0.84 0.86 0.88 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.78 0.80 0.82 0.84 0.86 0.88 0.90 Accuracy 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.76 0.78 0.80 0.82 0.84 0.86 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.76 0.78 0.80 0.82 0.84 0.0 0.1 0.2 0.3 0.4 0.5 Ith 0.76 0.78 0.80 0.82 0.84 0.86 Accuracy PPMI-DAT VDLN-DAT VDLV-DAT Average accuracy vs. Ith sin normalizar (single) norm. al máximo (single) normalización integral (single) sin normalizar (cumulative) norm. al máximo (cumulative) normalización integral (cumulative) Figure 5: Precisión obtenida al promediar todos los valores de precisión obtenidos con un umbral de selección de volumen Ith para cada base de datos, método de normalización y distribución de distancias de la GLCM. 41
  44. 44. Experimento 1: Umbral óptimo 0 20 40 60 0 10 20 30 40 50 60 70 Ith = 0.25 0 20 40 0 10 20 30 40 50 60 Ith = 0.30 0 10 20 30 40 0 10 20 Ith = 0.35 Figure 6: Volúmenes seleccionados con diferentes umbrales de selección en la base de datos PPMI-DAT. 42
  45. 45. Experimento 2: características de textura
  46. 46. Experimento 2: características de textura 0.4 0.6 0.8 Accuracy Energy Entropy Correlation Contrast Variance SumMean Inertia ClusterShade ClusterTendency Homogeneity MaxProbability InverseVariance Feature PPMI­DAT normmax normno 0.4 0.6 0.8 Accuracy VDLN­DAT 0.4 0.6 0.8 Accuracy VDLV­DAT Figure 7: Violin plot: distribución de las precisiones obtenidas al variar la dirección y distancia de cálculo de la GLCM para cada característica de textura, método de normalización y base de datos (single). 43
  47. 47. Experimento 2: características de textura 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 Integral Maximum Original Integral Maximum Original Integral Maximum Original PPMI-DAT VDLN-DAT VDLV-DAT single cumulative Normalización Base de datos Precisión Figure 8: Precisión máxima obtenida por el sistema utilizando la característica Cluster Tendency, en imágenes normalizadas al máximo en las aproximaciones single y cumulative. 44
  48. 48. Experimento 3: selección de características
  49. 49. Experimento 3: selección de características 0.0 0.2 0.4 0.6 0.8 1.0 Proportion of selected voxels 0.75 0.80 0.85 0.90 0.95 1.00 Accuracy 0.0 0.2 0.4 0.6 0.8 1.0 Proportion of selected voxels 0.75 0.80 0.85 0.90 0.95 1.00 ttest entropy wilcoxon 0.0 0.2 0.4 0.6 0.8 1.0 Proportion of selected voxels 0.75 0.80 0.85 0.90 0.95 1.00 Accuracy PPMI-DAT VDLV-DAT VDLN-DAT Figure 9: Precisión promedio obtenida para cada método de selección de características en función del número de características seleccionadas, para las tres bases de datos DaTSCAN. 45
  50. 50. Experimento 3: selección de características Legend Normalización Base de datos Precisión Figure 10: Máxima precisión (obtenida con diferente número de características seleccionadas) para los distintos métodos de selección, normalización y bases de datos. 46
  51. 51. Introducción Proyección de imágenes 3D a mapas 2D representando características de textura radiales, construidas sobre caminos rectilíneos 12 o caminos que se adaptan a la estructura cerebral 13 MRI Brain Images Tissue Segmentation Classification (SVM) Feature Selection 12F.J. Martinez-Murcia et al (2016). A Spherical Brain Mapping of MR Images for the Detection of Alzheimer’s Disease. Current Alzheimer Research. 13F.J. Martinez-Murcia et al (2016). A Structural Parametrization of the Brain Using Hidden Markov Models-Based Paths in Alzheimer’s Disease. International Journal of Neural Systems. 48
  52. 52. Spherical Brain Mapping
  53. 53. Spherical Brain Mapping Figure 11: Ilustración del cómputo del vector de mapeo vθ,φ, en los ángulos θ y φ y la vecindad de radio r de v. El vector de mapeo selecciona las intensidades de los voxels que cruza, en el conjunto Vθ,φ. 49
  54. 54. Spherical Brain Mapping Surface vsurf = arg max i {Vθ,φ(i) > Ith} (19) Number of Folds the number of disjoint connected subsets in Aθ,φ: Aθ,φ = {i / Vθ,φ(i) > Ith} (20) Thickness vthick = arg max i {Vθ,φ(i) > Ith} − arg min i {Vθ,φ(i) > Ith} Average vav = 1 N ∑ i Vθ,φ(i) (21) Entropy vent = ∑ i Vθ,φ(i) ∗ log(Vθ,φ(i)) (22) Kurtosis vkurt = 1 N ∑ i ( Vθ,φ(i) − ¯Vθ,φ(i) )4 ( 1 N ∑ i ( Vθ,φ(i) − ¯Vθ,φ(i) )2 )2 (23) 50
  55. 55. Ejemplos GM Average (GM) 50 100 150 200 250 300 350 50 100 150 Kurtosis (GM) 50 100 150 200 250 300 350 50 100 150 Entropy (GM) 50 100 150 200 250 300 350 50 100 150 Num.Fold (GM) 50 100 150 200 250 300 350 50 100 150 Surface (GM) 50 100 150 200 250 300 350 50 100 150 Thickness (GM) 50 100 150 200 250 300 350 50 100 150 Figure 12: Ejemplos de las diferentes medidas SBM sobre mapas GM segmentados. 51
  56. 56. Ejemplos WM Average (WM) 50 100 150 200 250 300 350 50 100 150 Kurtosis (WM) 50 100 150 200 250 300 350 50 100 150 Entropy (WM) 50 100 150 200 250 300 350 50 100 150 Num.Fold (WM) 50 100 150 200 250 300 350 50 100 150 Surface (WM) 50 100 150 200 250 300 350 50 100 150 Thickness (WM) 50 100 150 200 250 300 350 50 100 150 Figure 13: Ejemplos de las diferentes medidas SBM sobre mapas WM segmentados. 52
  57. 57. Extension en capas 1 2 3 4 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 Capa 1 Capa 2 Capa 3 Capa 4 Figure 14: Ejemplo de los mapas SBM average para 4 capas sobre GM. Se aprecian el tálamo (capa 1), estructuras subcorticales del estriado e hipocampo (capa 2) y la corteza cerebral (capa 3 y 4). 53
  58. 58. Volumetric Radial Local Binary Patterns VRLBP (GM) 50 100 150 200 250 300 350 50 100 150 VRLBP (WM) 50 100 150 200 250 300 350 50 100 150 54
  59. 59. Caminos basados en modelos ocultos de Markov p1 p2 p3 pN p0 Figure 15: Ilustración de la selección de cada punto en función de las probabilidades P(I(pi)|pi) y P(pi|pN). 55
  60. 60. Caminos basados en modelos ocultos de Markov Modelo oculto de markov primer orden Pθ,φ = {p0, p1, p2, . . . , pN} → parámetro oculto I(pi). Popt θ,φ = arg max Pθ,φ {P(Pθ,φ|I)} (24) P(Pθ,φ|I) = P(p0, . . . , pN|I(p0), . . . , I(pN)) (25) = P(I(p0), . . . , I(pN)|p0, . . . , pN) · P(p0, . . . , pN) P(I(p0), . . . , I(pN)) (26) Asumiendo que P(I(p0), . . . , I(pN)) es constante en todo el camino: P(Pθ,φ|I) = P(I(p0), . . . , I(pN)|p0, . . . , pN) · P(p0, . . . , pN) (27) P(I(p0), . . . , I(pN)|p0, . . . , pN) = ∏N i=1 P(I(pi)|pi) y P(p0, . . . , pN) = ∏N i=1 P(pi|pN) 56
  61. 61. Caminos basados en modelos ocultos de Markov Figure 16: Ejemplo de los caminos HMM calculados sobre la plantilla DARTEL. 57
  62. 62. GLCM y texturas sobre caminos Cálculo de la GLCM utilizando el camino entre pi−1 y pi como ∆. Extracción de características de Haralick. 0 50 100 150 200 250 300 350 0 25 50 75 100 125 150 175 Average 0 50 100 150 200 250 300 350 0 25 50 75 100 125 150 175 Variance 0 50 100 150 200 250 300 350 0 25 50 75 100 125 150 175 Entropy 0 50 100 150 200 250 300 350 0 25 50 75 100 125 150 175 Kurtosis 58
  63. 63. MRI Brain Images Tissue Segmentation Classification (SVM) Feature Selection Experimentos
  64. 64. Experimentos • Experimento 1: Mapas SBM y VRLBP originales con imágenes GM y WM segmentadas y su extensión por capas. Análisis de significancia y clasificación. • Experimento 2: Caminos basados en HMMs. Evaluación en datos simulados. • Experimento 3: Caminos basados en HMMs. Uso de caminos como selección de características, combinación de los sets de voxels seleccionados. Construcción de mapas HMM-SBM. Evaluación por clasificación. • Experimento 4: Análisis de texturas sobre los caminos basados en HMM. 59
  65. 65. Experimento 1: Análisis de significancia en GM Average (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Entropy (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Kurtosis (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Num.Fold (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Surface (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Thickness (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Figure 17: Áreas más significativas en las diferentes medidas SBM obtenidas de los mapas GM. 60
  66. 66. Experimento 1: Análisis de significancia en WM Average (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Entropy (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Kurtosis (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Num.Fold (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Surface (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Thickness (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Figure 18: Áreas más significativas en las diferentes medidas SBM obtenidas de los mapas WM. 61
  67. 67. Experimento 1: Análisis de significancia (capas) Layer 1 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 Layer 2 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 Layer 3 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 Layer 4 50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15 Figure 19: Resultados del t-test en SBM average sobre mapas GM, utilizando cuatro capas. 62
  68. 68. Experimento 1: Análisis de significancia (VRLBP) VRLBP (GM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 VRLBP (WM) 50 100 150 200 250 300 350 50 100 150 −10 −5 0 5 10 Figure 20: Áreas más significativas en los mapas VRLBP (GM y WM). 63
  69. 69. Experimento 1: Clasificación Surface Thickness Num.Fold Average Entropy Kurtosis VRLBP VAF 0.0 0.2 0.4 0.6 0.8 1.0 Accuracy GM WM Figure 21: Precisión obtenida por un SVM lineal en cada una de las medidas SBM sobre mapas GM y WM, y comparadas con la aproximación VAF. 64
  70. 70. Experimento 2: Ejemplos 200 400 600 800 1000 1200 1400 1600 100 200 300 400 500 600 700 800 900 1000 1100 0 500 1000 1500 2000 2500 3000 10 15 20 10 15 20 10 15 20 25 30 35 40 Data distribution HMM Path 20 40 60 80 100 120 140 20 40 60 80 100 120 Figure 22: Caminos HMM trazados sobre diferentes distribuciones 2D y 3D sintéticas y reales. 65
  71. 71. Experimento 3: Caminos como selección de características 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Figure 23: Precisión obtenida con el conjunto de intensidades Vθ,φ seleccionados por cada camino (en color). 66
  72. 72. Experimento 3: Caminos como selección de características Selección Lado Precisión Sensibilidad Especificidad Todos I 0.769 ± 0.035 0.717 ± 0.061 0.822 ± 0.057 D 0.792 ± 0.080 0.706 ± 0.120 0.878 ± 0.101 - 0.806 ± 0.069 0.733 ± 0.073 0.878 ± 0.097 t-test I 0.733 ± 0.037 0.694 ± 0.099 0.772 ± 0.124 D 0.781 ± 0.085 0.711 ± 0.122 0.850 ± 0.083 - 0.828 ± 0.054 0.794 ± 0.095 0.861 ± 0.039 Table 2: Precisión usando todos los voxels seleccionados por los caminos HMM. 67
  73. 73. Experimento 4: Características de textura 0.600 0.625 0.650 0.675 0.700 0.725 0.750 0.775 0.800 Precisión Energy Entropy Correlation Contrast Homogeneity Dissimilarity Difference Variance Difference Entropy IDN IDMN Característica Precisión de la clasificación Figure 24: Precisión de las diferentes características de Haralick calculadas a lo largo de cada camino HMM. 68
  74. 74. Introducción El problema: alta heterogeneidad en estudios multicentro, debido a efectos del centro de adquisición. Falsos positivos. Propuesta: Eliminar efectos de sitio. Análisis en imágenes reconstruídas14 . qT1 qT2 synT1 WM GM DARTEL PCA normalized maps (X) site group ANOVA Λ(c) p-values loadings (W) scores (S) weights (Λ) analysis reconstructed maps (X) SWPCA scores (S) 14F.J. Martinez-Murcia et al (2016). On the brain structure heterogeneity of autism: Parsing out acquisition site effects with significance-weighted principal component analysis. Human Brain Mapping. 70
  75. 75. Descomposición PCA
  76. 76. Descomposición PCA Descomposicion S = XW−1 (28) Reconstrucción ˆX = SW (29) 71
  77. 77. Estimación de significancia estadística, cálculo de pesos y reconstrucción
  78. 78. SWPCA 1. Estimación del p-valor para cada componente usando ANOVA, en relación con el centro de adquisición y el grupo de cada imagen. 2. Cálculo de un coeficiente λc para cada componente. 0.0 0.2 0.4 0.6 0.8 1.0 p1 0.0 0.2 0.4 0.6 0.8 1.0 (p) Weighting Function λc(pc, pth) = 1 − e −pc pth ∀pc ∈ [0, 1] (30) 3. Reconstrucción pesada: X = SΛW con Λ = diag(λ0, . . . , λc). 72
  79. 79. SWPCA CAM LON ¡ 3 ¡ 2 ¡ 1 0 1 2 3 4 1 (weight= 8.32E-01) CAM LON 2 (weight= 0.00E+ 00) CAM LON 3 (weight= 6.14E-06) CAM LON 4 (weight= 9.98E-01) Figure 25: Box-plot de la distribución de las diferentes componentes en cada centro de adquisición (AIMS-MRI). Asumimos que una mayor diferencia entre distribuciones implica una mayor influencia del centro de adquisición sobre ese componente, por lo que reducimos su contribución. 73
  80. 80. qT1 qT2 synT1 WM GM DARTEL PCA normalized maps (X) site group ANOVA Λ(c) p-values loadings (W) scores (S) weights (Λ) analysis reconstructed maps (X) SWPCA scores (S) Experimentos
  81. 81. Experimentos • Experimento 1: Efecto del centro de adquisición. Sitio como etiqueta, aplicando o no SWPCA. Análisis por clasificación y VBM. • Experimento 2: Diferencias entre grupos dentro de cada centro de adquisición. Rendimiento de un clasificador en las bases de datos CAM y LON. • Experimento 3: Efecto de SWPCA en las diferencias entre grupos. Análisis por clasificación y VBM. 74
  82. 82. CAM ASD+CTL LON ASD+CTL diferencias SVM VBM CAM ASD+CTL LON ASD+CTL diferencias SVM VBM SWPCA SWPCA ORIG ORIG Experimento 1: Diferencias entre centros
  83. 83. Experimento 1: Diferencias entre centros -9.3 -4.7 0 4.7 9.3 -5.9 -3 0 3 5.9- S -5.3 -2.7 0 2.7 5.3 -4.5 -2.3 0 2.3 4.5W Figure 26: t-maps de diferencias significativas entre centros, antes y después de SWPCA (synT1 y GM). 75
  84. 84. Experimento 1: Diferencias entre centros 0.4 0.5 0.6 0.7 0.8 0.9 1.0 GM+WM GM WM GM+WM GM WM GM+WM GM WM GM+WM GM GM+WM WM qT1 qT2 synT1 GM WM no-SWPCA SWPCA Máscara Tejido Precisión Figure 27: Rendimiento en clasificación de LON vs CAM. 76
  85. 85. ASD (CAM) CTL (CAM) diferencias SVM ASD (LON) CTL (LON) diferencias SVM Experimento 2: Diferencias entre grupos (por centro)
  86. 86. Experimento 2: Diferencias entre grupos (por centro) 0.4 0.5 0.6 0.7 0.8 0.9 1.0 GM GM+WM WM GM GM+WM WM GM GM+WM WM GM GM+WM WM GM WM qT1 qT2 synT1 CAMBRIDGE LONDON Máscara Tejido Precisión Figure 28: Rendimiento en clasificación de cada centro en ASD vs CTL. 77
  87. 87. CAM ASD+CTL LON ASD+CTL diferencias SVM VBM ASD CAM+LON CTL CAM+LON diferencias SVM VBM SWPCA SWPCA ORIG ORIG Experimento 3: Diferencias entre grupos (SWPCA)
  88. 88. Experimento 3: Diferencias entre grupos (SWPCA) L R z=-26 L R z=-16 L R z=-6 L R z=4 L R z=14 L R z=24 L R z=34 L R z=48 L R z=60 L R z=-26 L R z=-16 L R z=-6 L R z=4 L R z=14 L R z=24 L R z=34 L R z=48 L R z=60 -5.1 -2.6 0 2.6 5.1L R z=-46 GM (GM+WM) - SWPCA Figure 29: t-maps de diferencias significativas entre centros, antes y después de SWPCA (synT1 y GM). 78
  89. 89. Experimento 3: Diferencias entre grupos (SWPCA) 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Máscara Tejido Precisión GM GM+WM WM GM GM+WM WM GM GM+WM WM GM GM+WM WM GM WM qT1 qT2 synT1 SWPCA no-SWPCA Figure 30: Rendimiento en clasificación en ASD vs CTL (con y sin SWPCA). 79
  90. 90. Introducción El problema: pequeño número de muestras disponibles en estudios de imagen nuclear. Propuesta: Aumentar el número de datos de cada clase disponible mediante síntesis. loadings scores BASE DE DATOS PCA scores generados BASE DE DATOS SINTÉTICA MODELADO PDF CTL MCI AD loadings 81
  91. 91. loadings scores Principal Component Analysis
  92. 92. El espacio eigenbrain Descomposición PCA: X = SW (31) Extracción de component loadings (base de un espacio c-dimensional), también conocidos como eigenbrains, y component scores, las coordenadas de cada sujeto en el espacio eigenbrain. Group MCI AD Normal Componente0 Componente 1 82
  93. 93. El espacio eigenbrain −40 −20 0 20 40 60 0 −20 0 20 40 1 −20 0 20 40 2 −50 0 50 0 −20 0 20 40 3 −50 0 50 1 −50 0 50 2 0 50 3 Group MCI AD Normal 83
  94. 94. Modelado de PDF
  95. 95. Estimación de PDF ˆfc mvn(x) = 1 (2π)N/2 |Σc | 1/2 exp ( (x − µc )T Σ−1 c (x − µc ) 2 ) (32) ˆfi,c kde(x) = 1 Nc Nc∑ l=1 Kh ( x − Si,c l ) = 1 Nch Nc∑ l=1 K ( x − Si,c l h ) (33) −60 −40 −20 0 20 40 60 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Class Normal (1st component) MVN KDE Histogram −60 −40 −20 0 20 40 60 80 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Class MCI (1st component) MVN KDE Histogram −75 −50 −25 0 25 50 75 100 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Class AD (1st component) MVN KDE Histogram Figure 31: Comparación entre las estimaciones de PDF mediante MVN y KDE en la primera componente, con referencia del histograma. 84
  96. 96. Generación de coordenadas
  97. 97. Generación de coordenadas s1 s2 q2 q1 Figure 32: Para generar las nuevas coordenadas si en espacio eigenbrain, se generan query points (qi) de una distribución uniforme y se convierten usando la CDF. 85
  98. 98. loadings scores BASE DE DATOS PCA scores generados BASE DE DATOS SINTÉTICA MODELADO PDF CTL MCI AD loadings Experimentos
  99. 99. Experimentos Hemos probado el algoritmo de síntesis en las bases ADNI-PET y PPMI-DAT. • Base: VAF en cada base de datos y diferentes escenarios. Análisis SPM adicional. • Experimento 1: Poder predictivo de las imágenes sintéticas. Predecir ejemplos reales con imágenes generadas a partir del training set. • Experimento 2: Independencia de las imágenes sintéticas: Usamos el mismo conjunto para test y training, y hacemos test también sobre imágenes generadas usando el conjunto de test. 86
  100. 100. Base: VAF sobre cada base de datos 0.5 0.6 0.7 0.8 0.9 1.0 AD vs CTL MCI vs AD MCI vs CTL PD vs CTL ADNI-PET PPMI-DAT KDE MVN Orig Escenario Base de datos Precisión Figure 33: Rendimiento en clasificación VAF de cada una de las bases de imágenes originales y sintéticas. 87
  101. 101. Base: ADNI-PET L R L R -12 -6 0 6 12 L R L R -15 -7.4 0 7.4 15 L R L R -15 -7.4 0 7.4 15 Figure 34: Análisis SPM de la base de datos ADNI-PET (Orig, MVN, KDE). 88
  102. 102. Base: PPMI-DAT L R L R -24 -12 0 12 24 L R L R -29 -15 0 15 29 L R L R -20 -9.9 0 9.9 20 Figure 35: Análisis SPM de la base de datos PPMI-DAT (Orig, MVN, KDE). 89
  103. 103. Base de datos original Validación cruzada TRAINING SET (ORIG) TEST SET(ORIG) TRAINING SET (SINTÉTICO) SVM Experimento 1 Entrenamiento Test Estimación de la precisión Experimento 1: poder predictivo de las imágenes sintéticas
  104. 104. Experimento 1 0.5 0.6 0.7 0.8 0.9 1.0 AD vs CTL MCI vs AD MCI vs CTL PD vs CTL ADNI-PET PPMI-DAT KDE MVN Orig Escenario Base de datos Precisión Figure 36: Rendimiento en clasificación de imágenes originales y sintéticas bajo el experimento 1 (capacidad predictiva de las imágenes sintéticas), para PPMI-DAT y ADNI-PET, en función del método de modelado. Se muestra VAF de la base original para comparación. 90
  105. 105. Base de datos original Validación cruzada TRAINING SET (ORIG) SVM Experimento 2 Entrenamiento Test TEST SET (SINTÉTICO) Test (resubstitución) Estimación de la precisión (resubstitución) Estimación de la precisión Experimento 2: Independencia de las imágenes sintéticas
  106. 106. Experimento 2 0.5 0.6 0.7 0.8 0.9 1.0 AD vs CTL MCI vs AD MCI vs CTL PD vs CTL ADNI-PET PPMI-DAT KDE MVN Orig Escenario Base de datos Precisión Figure 37: Rendimiento en clasificación de imágenes originales y sintéticas bajo el experimento 2 (independencia de las mágenes sintéticas), para PPMI-DAT y ADNI-PET, en función del método de modelado. 91
  107. 107. Conclusions • Different algorithms to tackle the Small Sample Size problem. • Decomposition: A significant computational load reduction. Similar pattern detection in images of AD and PD. Very generalizable systems (low dimensionality). Nuclear imaging and smoothed structural imaging. • Texture: Very accurate detection of PD. Differences in shape (cluster tendency) and radiopharmaceutical distribution (homogeneity). Pooling all → up to 97% accuracy in PPMI-DAT. • SBM: Novel technique. Original measures (average or VRLBP) achieve >90% accuracy in AD diagnosis. Preliminary results of 77.6% in MCI conversion. HMM paths good for morphology or segmentation, but not for feature selection. 93
  108. 108. Conclusions • SWPCA: Solving a common multi-centre study problem: acquisition-related inhomogeneities larger than group differences. • We found that that could be a possible source of false positives in ASD studies. ASD heterogeneity or lack of structural differences. • Synthesis: Massive generation of brain images sharing characteristics with the original dataset. These images can predict real-world images and at the same time, be independent from the original image set. • All these algorithms and frameworks are complementary. Mixture of feature extraction and sample increasing strategies. 94
  109. 109. Trabajo futuro Dos líneas fundamentales: • Profundizar en marcadores de progresión de neurodegeneración en imágenes estructurales. • Análisis de redes funcionales en fMRI. 95
  110. 110. Questions? 95

×