Introducción al DataMining 2011<br />AplicandoDataMining a datos de cáncer de próstata<br />Laura Vera<br />Fernando López...
Data Mining en Cáncer de Próstata<br /><ul><li>Segundo Tumor en incidencia en Uruguay, segundo en mortalidad
Tratamientosradicales. Radioterapia externa
EfectosSecundarios: rectal
Efectoagudo y subagudo (RTOG)
Efectocrónico (SOMA)</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>OBJETIVO:</li></ul>Utilizar técnicas...
Data Mining en Cáncer de Próstata<br /><ul><li>Materiales y métodos:</li></ul>De julio 2008 a julio 2011: reclutamos 86 pa...
Data Mining en Cáncer de Próstata<br /><ul><li>Variables de entrada</li></ul>VariablesDosimétricas<br />Variables Clínicas...
Data Mining en Cáncer de Próstata<br /><ul><li>Variables de salida</li></ul>RTOGRECTO30DIAS: score RTOG rectal a 30 días d...
Data Mining en Cáncer de Próstata<br />Proceso de Carga<br />Datawarehouse<br />Base de datos<br />
Data Mining en Cáncer de Próstata<br /><ul><li>Análisis de Variables: Componentes Principales</li></ul>Se realizó el análi...
Data Mining en Cáncer de Próstata<br /><ul><li>Observando en la matriz de rotación a las componentes PC1 y PC2, su composi...
Data Mining en Cáncer de Próstata<br />Análisis de Componentes Múltiples (ACM)<br />Se tomaron las variables Diabetes y Do...
Data Mining en Cáncer de Próstata<br />Clasificación supervisada: análisis de FISHER<br />Análisis discriminante lineal: e...
Data Mining en Cáncer de Próstata<br /><ul><li>Orange aporta un algoritmo para llevar a 3D la distribución, esto reposicio...
Data Mining en Cáncer de Próstata<br />Versión animada de componentes principales 3D<br />
Data Mining en Cáncer de Próstata<br />Orange ofrece un algoritmoVizRankqueanaliza<br />todaslasproyecciones de las variab...
Data Mining en Cáncer de Próstata<br />De ambos análisis surge la variable Volumen derecto y las dosis sobre recto como re...
La función TestLearner de Orange con cross over de 10 devolvió los siguientes parámetros</li></ul>. <br />CA: Perfección d...
Data Mining en Cáncer de Próstata<br />Utilizando método cross- over<br />Utilizando leave one out<br />
Data Mining en Cáncer de Próstata<br /><ul><li>Curva ROC, muestra el costo de los falsos positivo y negativos</li></li></u...
Data Mining en Cáncer de Próstata<br /><ul><li>Clasificación No Supervisada: K-Medias</li></ul>Para las 14 variables de en...
Data Mining en Cáncer de Próstata<br /><ul><li>En Orange tomando las dos variables del análisis de RPART, Volumen Rectal y...
Data Mining en Cáncer de Próstata<br /><ul><li>En Orange se realizo el mismo análisis tomando todas las variables de entra...
Data Mining en Cáncer de Próstata<br />AnálisisDiscriminanteLogístico<br />Sin considerar la constante, el valor de p mas ...
Data Mining en Cáncer de Próstata<br />Estadísticos de evaluación de la predicción<br /> <br />  Error medio              ...
Data Mining en Cáncer de Próstata<br /><ul><li>Selección de Variables</li></ul>Se utilizaron los algoritmos forward-backwa...
Data Mining en Cáncer de Próstata<br /><ul><li>Escenario 1:
Variables consideradas:
EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PS...
Data Mining en Cáncer de Próstata<br /><ul><li>Escenario 2:
Variables consideradas:
EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PS...
Variables consideradas:
EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PS...
Utilizamos la distribución Chi-cuadrado y el ReliefF, el cual se define como un algoritmoqueestima el éxito de un atributo...
Data Mining en Cáncer de Próstata<br /><ul><li>CTV</li></ul>ReliefF<br />Chi-cuadrado<br />
Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>Dosis Total: distribución</li></ul>Efecto secundar...
Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>CTV: distribución</li></ul>Efecto secundario<br />
Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>Volumen Recto: distribución</li></ul>Efecto secund...
Data Mining en Cáncer de Próstata<br /><ul><li>Ranking de scores para las tres variables</li></li></ul><li>Data Mining en ...
Data Mining en Cáncer de Próstata<br /><ul><li>Relaciones entre las variables en Scaterplot, verifican la formación de dos...
Data Mining en Cáncer de Próstata<br />VOLUMEN RECTO – DOSIS TOTAL<br />CTV- VOLUMEN RECTO – DOSIS TOTAL<br />
Data Mining en Cáncer de Próstata<br /><ul><li>Curva ROC de los modelos</li></li></ul><li>Data Mining en Cáncer de Próstat...
Data Mining en Cáncer de Próstata<br />Componentes principales con selección de variables<br />
Data Mining en Cáncer de Próstata<br /><ul><li>Nomograma Construido a partir de los datos discretizados con clasificación ...
Data Mining en Cáncer de Próstata<br /><ul><li>Comparación de los diferentes Métodos con Cross-Validation de 5</li></ul>La...
CONCLUSIONES<br />
CONCLUSIONES<br />
Datamining en cáncer de próstata
Datamining en cáncer de próstata
Datamining en cáncer de próstata
Datamining en cáncer de próstata
Upcoming SlideShare
Loading in …5
×

Datamining en cáncer de próstata

1,079 views

Published on

Published in: Health & Medicine, Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,079
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Datamining en cáncer de próstata

  1. 1. Introducción al DataMining 2011<br />AplicandoDataMining a datos de cáncer de próstata<br />Laura Vera<br />Fernando López<br />Sebastián Vallejo<br />
  2. 2. Data Mining en Cáncer de Próstata<br /><ul><li>Segundo Tumor en incidencia en Uruguay, segundo en mortalidad
  3. 3. Tratamientosradicales. Radioterapia externa
  4. 4. EfectosSecundarios: rectal
  5. 5. Efectoagudo y subagudo (RTOG)
  6. 6. Efectocrónico (SOMA)</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>OBJETIVO:</li></ul>Utilizar técnicas de aprendizaje automático<br />para obtener relaciones predictivas del<br />outcome con respecto a las variables analizadas.<br />El outcome esta definido como la aparición o no de efecto <br />secundario rectal en los 6 meses de seguimiento despues del <br />Tratamiento radiante radical de cáncer de próstata.<br />
  7. 7. Data Mining en Cáncer de Próstata<br /><ul><li>Materiales y métodos:</li></ul>De julio 2008 a julio 2011: reclutamos 86 pacientesportadores de cáncer de próstatalocalizado y querecibierontratamiento radical de radioterapiaexterna.<br /> Se mide el efectosecundario rectal en diferentestiempos antes, durante y después del tratamiento, con un seguimiento de 6 meses. <br />
  8. 8. Data Mining en Cáncer de Próstata<br /><ul><li>Variables de entrada</li></ul>VariablesDosimétricas<br />Variables Clínicas<br />DOSISTOTAL: dosis total que se eroga<br />DOSISMEDIARECTO: dosis media que recibe el volúmen del recto<br />DOSISMAXIMARECTO: dosis máxima que recibe el 10% del recto<br />CTV: volumen irradiado<br />VOLUMENRECTO: volúmen de recto irradiado<br />EDAD: edad al diagnóstico<br />HTA: antecedente de hipertensión<br />HIPOTENSORES: recibe hipotensores<br />DIABETES: antecedente de diabetes<br />PSA: valor de PSA al diagnóstico<br />GLEASSON: clasificación histológico<br />TCLINICO: clasificación clínica<br />CLASE DE RIESGO: clasificación oncológica<br />RTOGANTESTTRAT: score RTOG antes de comenzar el tratamiento<br />
  9. 9. Data Mining en Cáncer de Próstata<br /><ul><li>Variables de salida</li></ul>RTOGRECTO30DIAS: score RTOG rectal a 30 días de finalizado el tratamiento<br />RTOGRECTO90DIAS: score RTOG rectal a 90 días de finalizado el tratamiento<br />SOMARECTO3MESES: score SOMA recto a 3 meses<br />SOMARECTO6MESES: score SOMA recto a 6 meses<br />EFECTO: score resúmen de los 4 anteriores.<br />
  10. 10. Data Mining en Cáncer de Próstata<br />Proceso de Carga<br />Datawarehouse<br />Base de datos<br />
  11. 11. Data Mining en Cáncer de Próstata<br /><ul><li>Análisis de Variables: Componentes Principales</li></ul>Se realizó el análisis de componentes principales con R.<br /> <br />> summary(datosTodas.pca)<br />Importance of components:<br /> PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9<br />SD= 228.1608 55.69933 29.16359 23.57287 14.77512 8.82476 6.21400 2.70058 0.98123<br />PropVar= 0.9147 0.05451 0.01494 0.00976 0.00384 0.00137 0.00068 0.00013 0.00002<br />PropAcm= 0.9147 0.96923 0.98417 0.99394 0.99777 0.99914 0.99982 0.99995 0.99997<br /> PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17 PC18 PC19<br />SD= 0.82732 0.62516 0.5045 0.3984 0.3494 0.2955 0.262 0.2203 0.215 0.1713<br />PropVar= 0.00001 0.00001 0.0000 0.0000 0.0000 0.0000 0.000 0.0000 0.000 0.0000<br />PropAcm= 0.99998 0.99999 1.0000 1.0000 1.0000 1.0000 1.000 1.0000 1.000 1.0000<br /> PC1 y PC2 concentran el 96.9% de la varianza.<br />
  12. 12. Data Mining en Cáncer de Próstata<br /><ul><li>Observando en la matriz de rotación a las componentes PC1 y PC2, su composición (combinación lineal) es:</li></ul> PC1 PC2__________<br />EDAD 8.412217e-05 -0.0235835955<br />RTOGANTESTRAT 3.890869e-04 0.0008205255<br />HTA 4.292231e-04 0.0010296031<br />HIPOTENSORES 3.875716e-04 0.0005592113<br />DIABETES 2.174564e-04 0.0003746969<br />DOSISTOTAL 9.984603e-01 -0.0491475861<br />CTV -2.357671e-02 0.0335591384<br />VOLUMENRECTO -4.972085e-02 -0.9958485224<br />DOSISMEDIARECTO 8.573440e-04 0.0360738012<br />DOSISMAXIMARECTO 1.656430e-03 0.0005784759<br />CLASEDERIESGO 6.784801e-04 -0.0022775732<br />PSA 6.472753e-03 0.0522737644<br />GLEASSON -5.188838e-05 -0.0042670384<br />TCLINICO 1.649459e-03 -0.0113159998<br /> DOSISTOTAL (en PC1) y VOLUMENRECTO (en PC2) tienen una ponderación de mayor orden de magnitud que las demás variables.<br />
  13. 13. Data Mining en Cáncer de Próstata<br />Análisis de Componentes Múltiples (ACM)<br />Se tomaron las variables Diabetes y DosisTotal continua y discretizada) y se compararon con los outcomes<br />La clase no efecto secundario esta cerca de diabetes y de las variables dosimétricas<br />
  14. 14. Data Mining en Cáncer de Próstata<br />Clasificación supervisada: análisis de FISHER<br />Análisis discriminante lineal: es un modelo<br />matemático ideado por Fisher. Realiza la<br />proyección bidimensional de las instancias <br />que separan mejor las clases <br />Se tomaron todas las variables, como entrada<br />y como outcome <br />para separar las clases el SOMARECTO6MESES <br />(score SOMA para recto a los 6 meses de seguimiento).<br />Las variables que se vinculan a la clase efecto<br />secundario son: dosimétricas (volumenrecto, <br />dosismaximarecto, dosistotal, dosismediarecto) y<br />en las variables clínicas (Tclinico) y paraclinicas (Gleasson, clase de riesgo).<br />se realizó con Orange python<br />
  15. 15. Data Mining en Cáncer de Próstata<br /><ul><li>Orange aporta un algoritmo para llevar a 3D la distribución, esto reposiciona la variables CTV</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>El análisis de componentes principales realizado en python muestra una reducción de variables. Aunque las dosis que se aplican sobre recto se superponen</li></li></ul><li>Data Mining en Cáncer de Próstata<br />Orange aporta un algoritmo que ofrece una versión de componentes principales menos susceptible a valores outliers<br />
  16. 16. Data Mining en Cáncer de Próstata<br />Versión animada de componentes principales 3D<br />
  17. 17. Data Mining en Cáncer de Próstata<br />Orange ofrece un algoritmoVizRankqueanaliza<br />todaslasproyecciones de las variables con el<br />método k vecinosmascercanos (10), tomadas<br />de a 4 y lasclasificasegún un score. La proyecciónquemasseparalasclasestiene 100<br />Representación lineal de la proyección con mas score<br />
  18. 18. Data Mining en Cáncer de Próstata<br />De ambos análisis surge la variable Volumen derecto y las dosis sobre recto como relevantes. Además de varaibles gleasson, Tclinico y clase de riesgo que suponemos sean combinación lineal.<br /><ul><li>Optimización utilizando 2 k vecinos mas cercanos</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>La iteración de variables en estas proyecciones es la siguiente.</li></li></ul><li>Data Mining en Cáncer de Próstata<br />Clasificación Supervisada: K-Vecinos más Cercanos<br /><ul><li>Se ejecutó K-vecinos más cercanos, para 2, 3,6 y 10 vecinos, utilizando siempre las dos variables de peso Volumen de Recto y Dosis Máxima la recto. Este se comparó con la función majority que calcula la clase mayoritaria, con un árbol de clasificación y un clasificador bayesiano.
  19. 19. La función TestLearner de Orange con cross over de 10 devolvió los siguientes parámetros</li></ul>. <br />CA: Perfección de la clasificación<br />Sensibilidad: cantidad de casos detectados positivos entre los positivos<br />Especificidad: Proporción de los ejemplos detectados negativos entre los casos negativos<br />AUC: área bajo de la curva de ROC: recomendable no menor a 5, para modelos predictivos<br />Brier: es la precisión de la probabilidad de evaluación, mide el promedio de la desviación de la probabilidad medida entre las probabilidades predichas de los eventos y los eventos reales<br />
  20. 20. Data Mining en Cáncer de Próstata<br />Utilizando método cross- over<br />Utilizando leave one out<br />
  21. 21. Data Mining en Cáncer de Próstata<br /><ul><li>Curva ROC, muestra el costo de los falsos positivo y negativos</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Clasificación Supervisada: Método Jerárquico (CART, rpart)</li></ul>Utilizando el Volumen de Recto y las dosis al recto se construyó con Orange un análisis de árbol binario, tomando como variable de salida la variable SOMARECTO6MESES. Involucrando el volumen de recto comprometido y la dosis media y total que recibe el recto. <br />
  22. 22. Data Mining en Cáncer de Próstata<br /><ul><li>Clasificación No Supervisada: K-Medias</li></ul>Para las 14 variables de entrada, aplicando k-means se obtiene un número de 10 clusters. Nota.- Para la aplicación de k-means, se tomaron como numéricas todas las variables discretas.<br />> fit$centers<br />EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO<br />1 70.50000 1.500000 0.5000000 0.5000000 0.7500000 6590.000 88.20000 167.42500<br />2 69.66667 1.111111 0.5555556 0.5555556 1.0000000 7560.000 58.47778 67.52222<br />3 71.35294 1.117647 0.4705882 0.4705882 0.8235294 7380.000 104.39412 110.01765<br />4 74.00000 1.000000 0.0000000 0.0000000 1.0000000 7380.000 50.55000 331.35000<br />5 63.33333 1.250000 0.5833333 0.5000000 1.0000000 7365.000 69.11667 64.33333<br />6 69.45455 1.000000 0.4545455 0.4545455 0.9090909 7387.273 56.75455 118.76364<br />7 58.00000 1.000000 1.0000000 1.0000000 1.0000000 7560.000 74.00000 69.50000<br />8 69.75000 1.125000 0.6250000 0.7500000 1.0000000 7560.000 70.31250 126.43750<br />9 70.44444 1.222222 0.7777778 0.6666667 0.8888889 7735.556 68.78889 113.12222<br />10 68.00000 1.250000 0.3333333 0.4166667 0.8333333 7380.000 82.45833 177.25833<br />DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO fit.cluster<br />1 38.25750 72.25000 2.500000 21.432500 6.750000 3.000000 5.000000<br />2 37.88889 69.88889 3.111111 19.766667 6.444444 4.555556 2.000000<br />3 45.58824 76.38824 3.352941 25.110588 6.882353 4.588235 1.000000<br />4 35.50000 76.50000 4.000000 11.050000 8.500000 10.000000 10.000000<br />5 49.07500 76.83333 3.250000 18.681667 6.750000 5.083333 5.000000<br />6 47.04545 76.13636 3.272727 21.746364 6.454545 3.636364 3.454545<br />7 45.50000 76.50000 4.000000 170.000000 7.000000 7.000000 9.000000<br />8 46.41250 73.43750 3.500000 29.653750 7.125000 6.000000 3.000000<br />9 42.38889 78.94444 3.000000 8.847778 6.444444 4.777778 7.000000<br />10 39.90000 71.59167 3.333333 15.670833 7.083333 6.333333 8.000000<br />
  23. 23. Data Mining en Cáncer de Próstata<br /><ul><li>En Orange tomando las dos variables del análisis de RPART, Volumen Rectal y Dosis Maxima Rectal, se corrió el algoritmo de clasificación no supervisada Kmeans, de 2 a 10 grupos. El score de fitness distancia entre clusters dio mejor complance a dos clusters. </li></li></ul><li>Data Mining en Cáncer de Próstata<br />
  24. 24. Data Mining en Cáncer de Próstata<br /><ul><li>En Orange se realizo el mismo análisis tomando todas las variables de entrada. La correspondencia de los clusters con las dos variables de entrada no es tan clara como en el caso de la selección previa de variables. </li></li></ul><li>Data Mining en Cáncer de Próstata<br />
  25. 25. Data Mining en Cáncer de Próstata<br />AnálisisDiscriminanteLogístico<br />Sin considerar la constante, el valor de p mas bajo es para DOSIS TOTAL Y DIABETES<br />
  26. 26. Data Mining en Cáncer de Próstata<br />Estadísticos de evaluación de la predicción<br /> <br /> Error medio -1.0884e-012<br /> Error cuadrático medio 0.14472<br /> Raíz del Error cuadrático medio 0.38042<br /> Error absoluto medio 0.2909<br /> Proporción de sesgo, UM 8.186e-024<br /> Proporción de regresión, UR 8.3614e-005<br /> Proporción de perturbación, UD 0.99992<br />Gráfico de residuos<br />
  27. 27. Data Mining en Cáncer de Próstata<br /><ul><li>Selección de Variables</li></ul>Se utilizaron los algoritmos forward-backward implementados en Matlab<br /> <br />- fjsvarsearch: obtiene la cantidad mínima de variables que “explican”, para un porcentaje de acierto determinado, la clasificación realizada<br /> <br />- fjsvarsearchCND: variante del anterior, donde las variables “oscurecidas” son reemplazadas por la media condicional, en lugar de la media marginal<br /> <br />Previamente, se realizó kmeans sobre las observaciones.<br />
  28. 28. Data Mining en Cáncer de Próstata<br /><ul><li>Escenario 1:
  29. 29. Variables consideradas:
  30. 30. EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO EFECTO </li></ul> <br />
  31. 31. Data Mining en Cáncer de Próstata<br /><ul><li>Escenario 2:
  32. 32. Variables consideradas:
  33. 33. EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO SOMARECTO6MESES(0,1) </li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Escenario 3:
  34. 34. Variables consideradas:
  35. 35. EDAD RTOGANTESTRAT HTA HIPOTENSORES DIABETES DOSISTOTAL CTV VOLUMENRECTO DOSISMEDIARECTO DOSISMAXIMARECTO CLASEDERIESGO PSA GLEASSON TCLINICO SOMARECTO6MESES(0,1) RTOGRECTO30DIAS RTOGRECTO90DIAS</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>El estudioseleccionó variables DOSISITOTAL, CTV y VOLUMENRECTO. Para valorarestas variables utilizamos dos scores.
  36. 36. Utilizamos la distribución Chi-cuadrado y el ReliefF, el cual se define como un algoritmoqueestima el éxito de un atributo, y daunavisiónunificada de la capacidad de estimación de un atributo en clasificación y regresión. ReliefFtiene la particularidad de no asumirdependencia entre los atributos de maneraquepuedeestimar la calidad de los atributos en problemas con fuertedependencia entre ellos. Estoresuelve un problemafrecuente en aprendizajeautomático.</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>VOLUMENRECTO</li></ul>ReliefF<br />Chi-cuadrado<br />
  37. 37. Data Mining en Cáncer de Próstata<br /><ul><li>CTV</li></ul>ReliefF<br />Chi-cuadrado<br />
  38. 38. Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>Dosis Total: distribución</li></ul>Efecto secundario<br />
  39. 39. Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>CTV: distribución</li></ul>Efecto secundario<br />
  40. 40. Data Mining en Cáncer de Próstata<br />No efectosecundario<br /><ul><li>Volumen Recto: distribución</li></ul>Efecto secundario<br />
  41. 41. Data Mining en Cáncer de Próstata<br /><ul><li>Ranking de scores para las tres variables</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Clasificación CART con score ReliefF para las tres variables seleccionadas</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Clustering para las variables seleccionadas</li></ul>Grupos de 2 a 10. El mayor score es de dos<br />grupos<br />
  42. 42. Data Mining en Cáncer de Próstata<br /><ul><li>Relaciones entre las variables en Scaterplot, verifican la formación de dos cluster entre las variable</li></ul>CTV – DOSIS TOTAL<br />CTV – VOLUMEN RECTO<br />
  43. 43. Data Mining en Cáncer de Próstata<br />VOLUMEN RECTO – DOSIS TOTAL<br />CTV- VOLUMEN RECTO – DOSIS TOTAL<br />
  44. 44. Data Mining en Cáncer de Próstata<br /><ul><li>Curva ROC de los modelos</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Discriminante lineal de las variables seleccionadas</li></ul>Componentes Principales de las variables seleccionadas<br />
  45. 45. Data Mining en Cáncer de Próstata<br />Componentes principales con selección de variables<br />
  46. 46. Data Mining en Cáncer de Próstata<br /><ul><li>Nomograma Construido a partir de los datos discretizados con clasificación bayesiana. Aquí vemos que tanto sea el Volumen de Recto, como el CTV tienen una relación coherente con el outcome, sin embrago no se ha podido identificar un cut-off con la Dosis total, y se ha dejado como variable continua para ver como se clasifica</li></li></ul><li>Data Mining en Cáncer de Próstata<br /><ul><li>Matriz de Resultados de Predicciones, compara la efectividad en numero de ocurrencias de la predicción para cada clase. Donde Bayes tiene la mayor cantidad de falsos negativos, aunque también tiene la mayor cantidad de verdaderos negativos (especificidad). Esto esta especificado en el cuadro comparativo</li></ul>Árbol de Clasificación<br />Bayes<br />K- vecinos = 2<br />
  47. 47. Data Mining en Cáncer de Próstata<br /><ul><li>Comparación de los diferentes Métodos con Cross-Validation de 5</li></ul>La matriz de distancias con score de Pearson chi-cuadrado<br />Este muestra una relación entre CTV y el Volumen del Recto irradiado, no así la Dosis total, que es de las variables que tiene mayor incidencia global en el proceso pero sin poder aún demostrar su relación exacta como predictor, muy probablemente por el bajo N.<br />Clúster jerárquico de estas variables<br />
  48. 48. CONCLUSIONES<br />
  49. 49. CONCLUSIONES<br />

×