Successfully reported this slideshow.

Evolución de distancias para clasificadores basados en prototipos

1,107 views

Published on

(Spanish slides) Experiments to find a measure of distance for prototype-based classifiers, such as K-Means by means of evolution strategies.

  • Be the first to comment

  • Be the first to like this

Evolución de distancias para clasificadores basados en prototipos

  1. 1. Evolución de distancias para clasificadores basados en prototipos Christian Felipe Álvarez Ingeniería en Informática 19 de mayo de 2010Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 1 / 26
  2. 2. Índice1 Introducción Objetivos Fundamentos2 Definición del método Clasificación Optimización de la función de distancia3 Implementación4 Experimentación5 Variante al método propuesto6 Conclusiones y líneas futurasChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 2 / 26
  3. 3. Objetivos Realizar un estudio sobre la optimización de funciones de distancia mediante algoritmos de inspiración biológica en clasificadores basados en prototipos. Definición del método de clasificación. Optimización de la función de distancia. Integración de la optimización de la distancia en el método de clasificación. Implementación del algoritmo definido. Experimentación y análisis de los resultados.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 3 / 26
  4. 4. Fundamentos K-Medias Funciones de distancia Estrategias EvolutivasChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  5. 5. Fundamentos d (x, y ) = (x − y )M · M T (x − y )T K-Medias Funciones de distancia 1 0 1 0 M · MT = M · MT = 0 1 0 10 Estrategias Evolutivas 1 1 M · MT = 1 2 2 2Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  6. 6. Fundamentos Son técnicas de computación evolutiva en las que se optimizan valores reales. K-Medias Estrategias Evolutivas (1+1) Funciones de distancia Estrategias Evolutivas con poblaciones Estrategias Evolutivas CMA-ES (Covarianze Matrix Adaptation Evolution Strategy )Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 4 / 26
  7. 7. Definición del algoritmoEl método de clasificación Clasificación según el centro más cercano 1 Se fija el número de centros por clase: k. 2 Se distribuyen los centros de cada clase mediante K-Medias. 3 Para determinar la clase de los datos nuevos: Se calcula la distancia hasta todos los centros. Se establece su clase como la del centro más cercano.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 5 / 26
  8. 8. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  9. 9. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  10. 10. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  11. 11. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  12. 12. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  13. 13. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  14. 14. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  15. 15. Definición del algoritmoEl método de clasificaciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 6 / 26
  16. 16. Definición del algoritmoOptimización de la función de distancia Optimización de la función de Distancia Euclídea Generalizada d (x, y ) = (x − y )M · M T (x − y )T Objetivo: maximizar la tasa de aciertos en clasificación Uso de estrategias evolutivas ⇒ codificación + cálculo del fitnessChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 7 / 26
  17. 17. Definición del algoritmoOptimización de la función de distancia Codificación del problema: consideraciones. Optimización de la matriz M · M T , no de M. Número de funciones de distancia: Una matriz por clase. Una matriz por centro. Forma de las matrices: Matrices diagonales. Matrices simétricas (M · M T siempre lo es).Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 8 / 26
  18. 18. Definición del algoritmoOptimización de la función de distancia Fitness = “Número de fallos en la clasificación” Codificación de m matrices en el cromosoma: C = c1 c2 · · · cm   m1,1 m1,2 · · · m1,n  m2,1 m2,2 · · · m2,n  Matrices diagonales ci ↔ Mi =  . . .     . . .. .  . . . . Matrices simétricas mn,1 mn,2 · · · mn,nChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
  19. 19. Definición del algoritmoOptimización de la función de distancia Fitness = “Número de fallos en la clasificación” Codificación de m matrices en el cromosoma: C = c1 c2 · · · cm   m1,1 m1,2 · · · m1,n  m2,1 m2,2 · · · m2,n  Matrices diagonales ci ↔ M i =  . . .    . . .. .   . . . . Matrices simétricas mn,1 mn,2 · · · mn,nChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 9 / 26
  20. 20. Definición del algoritmoOptimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”.Soluciones: × Restringir a matrices definidas positivas. → Es necesario realizar operaciones Restringir a matrices con todos los demasiado costosas. elementos no negativos. Considerar las distancias de cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  21. 21. Definición del algoritmoOptimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”.Soluciones: → Quedan matrices definidas positivas × Restringir a matrices definidas fuera del espacio de búsqueda. positivas. → Implementación directa: uso del Restringir a matrices con todos los valor absoluto. elementos no negativos. → Se introducen redundancias en la Considerar las distancias de representación. cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  22. 22. Definición del algoritmoOptimización de la función de distancia Problema: no todas las matrices reales dan lugar a distancias válidas. “Si M · M T no es definida positiva el cuadrado de la distancia puede ser negativo”.Soluciones: × Restringir a matrices definidas positivas. → Se relajan algunas propiedades de Restringir a matrices con todos los las funciones de distancia. elementos no negativos. Considerar las distancias de cuadrado negativo como infinitas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 10 / 26
  23. 23. ImplementaciónCaracterísticas de la aplicación Uso de un fichero de configuración. Parámetros propios del método. Parámetros de las técnicas de optimización. Uso de distintas técnicas de optimización para la misma ejecución. Evaluación del clasificador: validación cruzada. Posibilidad de calcular y obtener los centros y la matriz con todos los datos. Datos de salida: porcentaje de aciertos y tiempo de ejecución. Implementación en Java. Disponible en http://www.lab.inf.uc3m.es/~christian/kmes. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 11 / 26
  24. 24. ImplementaciónEstructura de la aplicación Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 12 / 26
  25. 25. ImplementaciónFuncionamientoChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 13 / 26
  26. 26. ImplementaciónFuncionamiento Salida del programaChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 14 / 26
  27. 27. ExperimentaciónObjetivos y estructuraObjetivos de la experimentación: Comprobar y explicar el funcionamiento. Detectar ventajas e inconvenientes del método.¿En qué consiste? Diseño de cinco dominios sintéticos. Ejecución de pruebas. Distintos parámetros. Optimización con EE-(1+1), EE-Múltiples y CMA-ES. Interpretación de los resultados.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 15 / 26
  28. 28. ExperimentaciónDominio 1: nubes alineadasDominio sencillo, muestra la necesidadde ponderar la distancia. Uso de un centro por clase. Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 100 % 100 % EE-(1+1) 100 % 100 % EE-M 100 % 100 % Mayor tiempo para matrices simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
  29. 29. ExperimentaciónDominio 1: nubes alineadasDominio sencillo, muestra la necesidadde ponderar la distancia. Uso de un centro por clase. Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 100 % 100 % EE-(1+1) 100 % 100 % EE-M 100 % 100 % Mayor tiempo para matrices simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 16 / 26
  30. 30. ExperimentaciónDominio 1: nubes alineadasChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 17 / 26
  31. 31. ExperimentaciónDominio 2: nubes reflejoDominio que muestra la necesidad de Resultados:ajustar ciertos parámetros. Utilizando una matriz por centro: - Número de centros. Centros Euclídea GED opt. - Matriz por clase o por centro. 1 60 % 75 % 2 60,33 % 100 % 3 92 % 100 % 4 100 % 100 % Utilizando una matriz por clase y dos centros: 60 % de aciertos con la distancia Euclídea. 80,66 % con la GED optimizada. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
  32. 32. ExperimentaciónDominio 2: nubes reflejoDominio que muestra la necesidad de Resultados:ajustar ciertos parámetros. Utilizando una matriz por centro: - Número de centros. Centros Euclídea GED opt. - Matriz por clase o por centro. 1 60 % 75 % 2 60,33 % 100 % 3 92 % 100 % 4 100 % 100 % Utilizando una matriz por clase y dos centros: 60 % de aciertos con la distancia Euclídea. 80,66 % con la GED optimizada. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 18 / 26
  33. 33. ExperimentaciónDominio 3: nubes rotadasDominio basado en el primero, aplicando Uso de un centro por claseuna rotación de 45o . Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 98,75 % 100 % EE-(1+1) 100 % 100 % EE-M 99 % 100 % → Mayor tiempo con las diagonales. 75 % de aciertos con matrices diagonales y positivas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
  34. 34. ExperimentaciónDominio 3: nubes rotadasDominio basado en el primero, aplicando Uso de un centro por claseuna rotación de 45o . Resultados: Diagonales Simétricas Euclídea 50 % 50 % CMA-ES 98,75 % 100 % EE-(1+1) 100 % 100 % EE-M 99 % 100 % → Mayor tiempo con las diagonales. 75 % de aciertos con matrices diagonales y positivas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 19 / 26
  35. 35. ExperimentaciónDominio 4: elipsesDominio más realista basado en nubesreflejo. Uso de dos centros por clase. Resultados: Diagonales Simétricas Euclídea 73,69 % 73,69 % CMA-ES 99,62 % 97,57 % EE-(1+1) 98,13 % 95,52 % EE-M 96,64 % 95,70 % → Tiempo mucho mayor utilizando distancias simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
  36. 36. ExperimentaciónDominio 4: elipsesDominio más realista basado en nubesreflejo. Uso de dos centros por clase. Resultados: Diagonales Simétricas Euclídea 73,69 % 73,69 % CMA-ES 99,62 % 97,57 % EE-(1+1) 98,13 % 95,52 % EE-M 96,64 % 95,70 % → Tiempo mucho mayor utilizando distancias simétricas. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 20 / 26
  37. 37. ExperimentaciónDominio 5: atributos aleatoriosDominio para comprobar si se puedendiscriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  38. 38. ExperimentaciónDominio 5: atributos aleatoriosDominio para comprobar si se puedendiscriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  39. 39. ExperimentaciónDominio 5: atributos aleatoriosDominio para comprobar si se puedendiscriminar atributos irrelevantes. Resultados: No se logra superar el 52 % de Cuatro atributos: x1 , x2 , x3 , x4 . aciertos de la distancia Euclídea. x1 y x2 ∈ [0, 1]. → Los centros se sitúan x3 y x4 ∈ [0, 100]. inicialmente mediante distancia Si x1 > x2 de clase 0, Euclídea. si no de clase 1. → Los atributos x3 y x4 son mucho x3 y x4 son irrelevantes. más significativos. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 21 / 26
  40. 40. Variante propuestaCaracterísticas “ Volver a ubicar los centros para cada matriz y favorecer las matrices con valores cercanos a cero” Volver a situar los centros con K-Medias. → Penalización si K-Medias no converge en 1000 iteraciones. → Uso de matrices positivas para evitar esto en parte. Nuevos parámetros en la función de fitness. → Se tiene en cuenta el número de ceros en el cromosoma. → Se tiene en cuenta el valor absoluto. Nuevo operador genético. → En cada iteración se pone un valor del cromosoma a cero con cierta probabilidad. Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 22 / 26
  41. 41. Variante propuestaResultados Resultados representativos del CMA-ES. Dominio Fitness centros fijos Fitness K-Medias Nubes alineadas 100 % 100 % Nubes reflejo 100 % 82 % Nubes rotadas 100 % 75 % Elipses 99,52 % 88,99 % Atributos aleatorios 50 % 97,00 % En el dominio atributos aleatorios: Se alcanzan resultados próximos al 100 % de aciertos. Con el nuevo operador genético se converge muy rápidamente. En el resto de dominios: Aumenta mucho el tiempo de cómputo. Se necesitan más iteraciones.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 23 / 26
  42. 42. Conclusiones El diseño de dominios y la experimentación han permitido comprender y evaluar el método propuesto. El algoritmo propuesto está limitado por la disposición de los centros, influídos por los atributos más significativos. Hemos propuesto una variante que solventa el problema pero que precisa más tiempo de ejecución y que se respeten las propiedades de las funciones de distancia. Se han apreciado diferencias entre las estrategias evolutivas empleadas. Relajar algunas restricciones de las funciones de distancia nos ha hecho encontrar propiedades interesantes.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 24 / 26
  43. 43. Líneas futuras Experimentación con dominios reales. Tratamiento o restricción de las “distancias negativas”. Codificación de los centros en el cromosoma. Uso de otros método de clasificación basados en prototipos y otras técnicas para optimizar las distancias.Christian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 25 / 26
  44. 44. Turno de preguntas Gracias por su atenciónChristian Felipe Álvarez (UC3M) Proyecto Fin de Carrera 19/05/2010 26 / 26

×