Your SlideShare is downloading. ×
Modelos de clasificación
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Modelos de clasificación

473

Published on

Published in: Education, Technology, Sports
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
473
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. CURSO Modelos de Clasificaci´n o Javier Trejos Zelaya CIMPA, Universidad de Costa Rica, E-Mail: jtrejos@cariari.ucr.ac.cr´Indice1. Introducci´n o 22. Medidas de Semejanza 3 2.1. Distancias y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53. Clasificaci´n Jer´rquica o a 9 3.1. Jerarqu´ . . . . . . . . . . . . . . . . . . . . ıas . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2. Clasificaci´n jer´rquica ascendente . . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.3. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4. Aproximaciones por ultram´tricas . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.5. Clasificaci´n jer´rquica descendente . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.6. Observaciones sobre la clasificaci´n jer´rquica o a . . . . . . . . . . . . . . . . . . . . . . . . . 154. Clasificaci´n por Particiones o 16 4.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3. M´todo de k-medias . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.4. M´todos de nubes din´micas . e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.5. M´todo de Fisher . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.6. Uso de heur´ ısticas modernas de optimizaci´n o . . . . . . . . . . . . . . . . . . . . . . . . . 225. M´todos Arb´reos No Jer´rquicos e o a 23 5.1. Arboles aditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2. Pir´mides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 246. Otros M´todos e 25 6.1. Clasificaci´n o bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 6.2. Clasificaci´n o difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.3. Clasificaci´n o neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.4. Clasificaci´n o probabil´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307. Validaci´n de Resultados o 31 7.1. Descripci´n de una partici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o 31 7.2. N´mero de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 31 7.3. Pruebas de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 32 1
  • 2. 2 Javier Trejos1. Introducci´n o La clasificaci´n autom´tica tiene por objetivo reconocer grupos de individuos homog´neos, de tal o a eforma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritospor una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por unatabla de proximidades. Lo que se entiende por individuos homog´neos es que los individuos que pertenezcan a un mismo egrupo tengan, ya sea caracter´ ısticas iguales o similares en el caso de que sean descritos por una tablacon variables, o bien que est´n pr´ximos unos de otros en el caso de que sean descritos por una tabla de e oproximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a a ı,un individuo de otra clase. La clasificaci´n autom´tica tambi´n es conocida bajo otros nombres, como por ejemplo an´lisis de o a e agrupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal- a o a a emente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaci´n autom´tica porque el e e o aobjetivo es buscar una clasificaci´n (o varias clasificaciones, seg´n sea el m´todo usado) de los individuos o u eu objetos a agrupar, y como esta clasificaci´n es desconocida a priori, el m´todo debe hacer la clasi- o eficaci´n autom´ticamente sin que intervenga ning´n agente externo. Contrariamente, la discriminaci´n o a u otrata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaci´n no es autom´tica o asino supervisada (se trata de que la regla de asignaci´n a los grupos dados minimice los posibles errores oa clases incorrectas). Existe gran cantidad de m´todos de clasificaci´n autom´tica, entre los que podemos distinguir los e o asiguientes: los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan e a representarse mediante un ´rbol; a los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten e a a una clase de nivel inferior estar contenida en dos clases de nivel superior; los m´todos de particionamiento, que buscan una sola partici´n del conjunto de individuos; e o los m´todos de clasificaci´n no exclusiva, que buscan grupos en los datos de tal manera que un e o individuo pueda pertenecer a varios grupos al mismo tiempo; los m´todos de clasificaci´n difusa, que buscan grupos homog´neos de individuos pero que dan e o e el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase; los m´todos de clasificaci´n cruzada, que tratan de hacer la clasificaci´n simult´neamente sobre e o o a dos conjuntos de individuos (o uno de individuos y uno de variables). En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti- e a acionamiento. As´ abordaremos los m´todos llamados de clasificaci´n jer´rquica ascendente y los de nubes ı, e o adin´micas, por ser los m´s populares y f´ciles de usar. Tanto los m´todos jer´rquicos como algunos del a a a e atipo nubes din´micas est´n implementados en la mayor´ de los paquetes estad´ a a ıa ısticos.
  • 3. ´modelos de clasificacion 32. Medidas de Semejanza Los m´todos de clasificaci´n autom´tica usan ampliamente el concepto de similitud o disimilitud entre e o alos individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir losm´todos de clasificaci´n propiamente dichos. A lo largo del cap´ e o ıtulo denotaremos con Ω al conjunto deindividuos a clasificar, y supondremos que posee n elementos.2.1. Distancias y disimilitudes Las similitudes y disimilitudes son los conceptos b´sicos que nos permitir´n determinar si dos indi- a aviduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cu´n similares son dos aindividuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s a acercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cu´n diferentes son dos a aindividuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero asea la disimilitud menos diferentes ser´n los individuos (es decir, es m´s posible que pertenezcan a una a amisma clase) y entre mayor sea ´sta m´s diferentes ser´n. e a a2.2. Similitudes Una similitud es una funci´n s : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω}; a 2. para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i). ıa: Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi- oviduos. Ahora bien, la definici´n de una similitud depender´ de c´mo es la descripci´n de los individuos, o a o oes decir, qu´ tipo de variables son las que los describen. e2.2.1. Caso de variables binarias Un caso frecuente para usar similitudes es cuando los individuos est´n descritos por variables binarias, aes decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo opresenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”,que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”,es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambi´n aparecen con frecuencia ıa eeste tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la aparcela”. En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar lossiguientes elementos: pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j u qij : es el n´mero de atributos que presenta s´lo uno de los dos u o p: es el n´mero total de atributos (n´mero de variables). u u Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuaci´nosolamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´ a ındices[12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´ ındices de similitud m´s usados para datos binarios son: a el ´ ındice de Jaccard: pij s(i, j) = pij + qij
  • 4. 4 Javier Trejos el ´ ındice de Russel y Rao: pij s(i, j) = p Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´ e ındice de Jaccard alcanzasu valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre a ael n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos u oel valor del ´ ındice de Russel y Rao ser´ 1. aEjemplo 1 Sup´ngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 . oLos datos son: v1 v2 v3 v4 a 1 0 1 1 b 0 1 1 1 c 0 0 0 0 d 1 0 1 1 e 0 1 0 0 f 1 1 1 1 Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o upara los que son diferentes, se obtienen los valores de pij y qij dados a continuaci´n: o pij b c d e f qij b c d e f a 2 0 3 0 3 a 2 3 0 4 1 b 0 2 1 3 b 3 2 2 1 c 0 0 0 c 3 1 4 d 0 3 d 4 1 e 1 e 3 Al calcular los ´ndices de Jaccard y de Russel & Rao, se obtiene: ı Jaccard Russel&Rao s(i, j) a b c d e f s(i, j) a b c d e f a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75 b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75 c 1 0 0 0 c 1 0 0 0 d 1 0 0,75 d 1 0 0,75 e 1 0,25 e 1 0,25 f 1 f 1 En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores.El valor de 1 para s(i, j) calculado con el ´ndice de Jaccard refleja este hecho, lo cual no se aprecia con ıel ´ndice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j) ıcalculado con ambos ´ndices refleja este hecho. ı2.2.2. Similitudes entre variables Generalmente, cualquier ´ındice de asociaci´n entre variables sirve como similitud entre variables. As´ o ı,para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaci´n olineal n ¯ ¯ (xi − x)(yi − y) r(x, y) = i=1 sx sy
  • 5. ´modelos de clasificacion 5donde sx , sy son las desviaciones est´ndar de x y y, respectivamente. En general, cualquier ´ a ındice de cor-relaci´n servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo o ıa opara su uso en clasificaci´n. Por ejemplo, para el caso del coeficiente de correlaci´n lineal se suele usar o o d(x, y) = 1 − |r(x, y)| ındice de disimilitud, en el caso de tomar como fuerte asociaci´n el caso r(x, y) ≈ −1, o biencomo ´ o d(x, y) = 2 − r(x, y)en el caso contrario. Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec-tivamente, se suele tomar el ´ ındice de asociaci´n de chi-cuadrado como similitud o p q 1 (nnjk − nj· n·k )2 χ2 (x, y) = j=1 k=1 n nj· n·kdonde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son losm´rgenes. Ahora bien, el ´ a ındice de χ2 tiene el inconveniente de no estar normalizado y no permitecomparar ´ ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero u ude modalidades. Por ello, se suele usar m´s bien el ´ a ındice T 2 de Chuprov, normalizado en el intervalo[0, 1]: χ2 (x, y) T 2 (x, y) = . n(p − 1)(q − 1)2.3. Disimilitudes Una disimilitud es una funci´n d : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω se tiene d(i, i) = 0 2. para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i) ıa: Si a la definici´n anterior uno le a˜ade: o n 3. d(i, j) = 0 ⇔ i = j 4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)entonces la disimilitud es lo que llamamos una distancia.2.3.1. Caso cuantitativo La disimilitud m´s usada es la distancia eucl´ a ıdea cl´sica: a p d(i, j) = (xk − xk )2 i j k=1 Recu´rdese de lo estudiado en el cap´ e ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partirde una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner e e ıad2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´ ı, ıdea cl´sica coincide con el caso en aque se usa como m´trica la identidad de orden p. e El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son acuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay oque mencionar que esta distancia tiene un inconveniente si se usa sin precauci´n: debido a que cada t´rmino o e
  • 6. 6 Javier Trejosde la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandesdiferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´ ıpicose traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado, a asiempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersi´n odeber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias. ıa ı Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 : p d(i, j) = |xk − xk | i j k=1 Otra distancia usada en ocasiones, es la llamada distancia de Chebychev: d(i, j) = m´x{|xk − xk |/k = 1, . . . , p} a i jEjemplo 2 Sup´ngase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , seg´n o use muestra en la tabla siguiente: v1 , v2 v3 v4 v5 a 2 3,5 0 4 7 b 4 3 1,5 5 6 c 0 6 4 2 3 d 3 3 1 4 77 El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son: a ı a Eucl´dea ı City-block d(i, j) a b c d d(i, j) a b c d a 0 2,915 6,801 70,02 a 0 6 14,5 72,5 b 0 7,018 71,02 b 0 15,5 73,5 c 0 74,21 c 0 85 d 0 d 0 Chebychev d(i, j) a b c d a 0 2 4 70 b 0 4 71 c 0 74 d 0 De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidospara las cinco variables, y su cercan´a es reflejadapor el bajo valor de las distancias. Por su parte, d ıtambi´n tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una egran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplodebido a un error de un digitador a la hora de pasar los datos del papel a la computadora (sup´ngase que oel dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distanciasmostradas son muy sensibles a los valores de estos casos at´picos. ı 1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Jo´e, sdonde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo ı,las calles pasando por las esquinas, y no en l´ ınea recta
  • 7. ´modelos de clasificacion 72.3.2. Caso binario Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variablesbinarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) = a1 − s(i, j). As´ se definen la disimilitud de Jaccard: ı, qij d(i, j) = 1 − pij + qijusando las notaciones de la secci´n 2.2.1, y la disimilitud de Russel & Rao: o p − pij d(i, j) = pEjemplo 3 Usando los datos del ejemplo 1, tendr´amos los siguientes valores para las disimilitudes de ıJaccard y de Russel & Rao: Jaccard Russel&Rao d(i, j) a b c d e f d(i, j) a b c d e f a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25 b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25 c 0 1 1 1 c 0 1 1 1 d 0 1 0,25 d 0 1 0,25 e 0 0,75 e 0 0,75 f 0 f 02.3.3. Caso cualitativo Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati- ıavas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntivacompleta, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En estecaso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo ıanusual es usar adaptaciones especiales de las distancias eucl´ ıdeas, como la distancia eucl´ ıdea cl´sica y la adistancia de χ2 (chi-cuadrado). ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp La distancia eucl´ aes: p k d(i, j) = 2 δij k=1 k 1 si xk = xk i jdonde δij = . 0 si xk = xk i j La distancia de χ2 es: p 1 1 1 k d(i, j) = 2 + δij p k=1 s(xk ) s(xk ) i jdonde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la k i u i a kvariable x .2.3.4. Agregaciones Los m´todos de clasificaci´n autom´tica usan generalmente una noci´n de proximidad entre grupos e o a ode elementos, para medir la separaci´n entre las clases que se buscan. Para ellos, se introduce el concepto ode agregaci´n, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la o aagregaci´n entre A y B es: o δ(A, B)tal que δ es una disimilitud en el conjunto de partes P(Ω):
  • 8. 8 Javier Trejos i) δ(A, A) = 0 para todo A ∈ P(Ω) ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω) Usualmente, la medida de agregaci´n est´ basada en la disimilitud d medida sobre Ω. En efecto, o adenotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son: a 1. Agregaci´n del salto m´ o ınimo o del vecino m´s cercano: a δm´ (A, B) = m´ ın ın{d(a, b)|a ∈ A, b ∈ B} 2. Agregaci´n del salto m´ximo: o a δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B} a a 3. Agregaci´n del salto promedio: o 1 δprom (A, B) = d(a, b) card(A) + card(B) a∈A b∈B En el caso cuantitativo se tiene adem´s: a 4. Agregaci´n de Ward: o card(A)card(B) δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B) card(A) + card(B) donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´ ıdea e I(A) es la inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaci´n, tambi´n llamada o e del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´ o a ıdeo, es decir, cuando se dispone de variables cuantitativas. Existen otras agregaciones tambi´n citadas en la literatura, como por ejemplo la distancia entre los ecentros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir ıa einversiones en el algoritmo de clasificaci´n jer´rquica ascendente que veremos en la siguiente secci´n. o a o
  • 9. ´modelos de clasificacion 93. Clasificaci´n Jer´rquica o a3.1. Jerarqu´ ıas Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en e ael pr´ximo cap´ o ıtulo– encuentran en cada ejecuci´n una sola partici´n en un n´mero dado a priori de o o uclases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman u uen la configuraci´n de los datos. o Por ejemplo, consid´rese la siguiente configuraci´n de puntos en R2 : e o r r r r rr r r r r rr r rr r r r rr Puede apreciarse que de forma natural se forman 3 clases de individuos seg´n la cercan´ de los puntos. u ıaAhora bien, si el usuario no conoce esta configuraci´n (para efectos de simplificaci´n la hemos dado en dos o odimensiones, pero el lector puede pensar que se trata de una configuraci´n en muchas m´s dimensiones), o aentonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por uejemplo en 2 clases o en 5 clases. Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para variosn´meros de clases al mismo tiempo, y escoger luego la que m´s conviene seg´n las necesidades. Una u a umanera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se a amuestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}. a b c d e Figura 1: Ejemplo de ´rbol jer´rquico a a Una ´rbol jer´rquico tiene la ventaja de que es de f´cil interpretaci´n. En efecto, para el ´rbol de la a a a o afigura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol, a a aesto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} conel individuo c, y finalmente se obtiene el grupo total Ω. El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos a a aen el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias
  • 10. 10 Javier Trejosentre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos ´escoger una agregaci´n δ. o Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´ a a ıa. Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que: ıa 1. Ω ∈ H, 2. ∀i ∈ Ω, {i} ∈ H, 3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h. Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada ıa a a anodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene a a a auna ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria. ız a ıa La clasificaci´n jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos o a ıam´s parecidos formen nodos, y los grupos de individuos m´s similares tambi´n formen nodos. a a e Se puede asociar un ´ındice f a la jerarqu´ tal que: ıa, 1. f (h) ≥ 0, 2. ∀i ∈ Ω : f ({i}) = 0, 3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ).Se dice entonces que (H, f ) es una jerarqu´ indexada. ıa Pueden consultarse las siguientes referencias como una introducci´n a estos conceptos: [6, pp. 119–138, otomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s a aaccesible sea [19].3.2. Clasificaci´n jer´rquica ascendente o a El algoritmo general de clasificaci´n jer´rquica ascendente (CJA) construye, en cada paso o auna partici´n en k clases, que denotaremos Pk , mediante la fusi´n de los dos conjuntos de la partici´n o o oanterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la asiguiente manera: 1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω}; 2. k := k + 1 ; 3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´ ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 }; sea H := H ∪ {h}; 4. calcular f (h) y δ(h, h ), para todo h ∈ H; 5. mientras k < n − 1 ir al paso 2; 6. H = H ∪ Ω; El H obtenido es la jerarqu´ deseada. Se define un ´ ıa ındice f , como una funci´n f : H −→ R+ definida opor: 0 si h es un conjunto unitario f (h) = δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar hEsta indexaci´n hace que el ´rbol de clasificaci´n sea m´s f´cilmente interpretable, pues da la idea de la o a o a aaltura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que est´n a a a adebajo del nodo.
  • 11. ´modelos de clasificacion 113.2.1. Ejemplos did´cticos aEjemplo 4 Sup´ngase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}: o a b c d a 0 1 3 5,5 b 0 2 4,5 c 0 2,5 d 0 Puede verse que el m´nimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es ı1. Por lo tanto, se agregan estos dos individuos y al usar la agregaci´n del salto m´nimo δm´ se obtiene o ı ınla nueva tabla: {a, b} c d {a, b} 0 2 4,5 c 0 2,5 d 0 Ahora, el m´nimo valor es para δ({a, b}, c) = 2, por lo ı que se fusionan {a, b} y c, obteni´ndose la enueva tabla: {a, b, c} d {a, b, c} 0 2,5 d 0De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2. a a 3 2 1 a b c d Figura 2: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto m´ o o ınimoEjemplo 5 En caso de usarse la agregaci´n del salto m´ximo δm´x sobre los datos anteriores, se obten- o a adr´an sucesivamente las dos tablas siguientes: ı {a, b} c d {a, b} {c, d} {a, b} 0 3 5,5 {a, b} 0 5,5 c 0 2,5 {c, d} 0 d 0 y el ´rbol de clasificaci´n ser´a el presentado en la figura 3. a o ı
  • 12. 12 Javier Trejos 5 4 3 2 1 a b c d Figura 3: Arbol de clasificaci´n opbtenido al usar la agregaci´n del salto m´ximo o o aEjemplo 6 Por otra parte, si se usa la agregaci´n del salto promedio δprom sobre los datos anteriores, ose obtienen las tablas: {a, b} c d {a, b, c} d {a, b} 0 2,5 5 {a, b, c} 0 4,16 c 0 2,5 d 0 d 0Puede verse que en la primera tabla se alcanza el m´nimo para dos valores diferentes: δ({a, b}, c) = 2,5 = ıδ(c, d). Ante esta situaci´n, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo o aque se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4. a 4 3 2 1 a b c d Figura 4: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o o El lector puede comprobar que de haber escogido la fusi´n de c con d al ´rbol de clasificaci´n hubiera o a otenido una forma diferente. 2 En los programas de computaci´n, normalmente se decide autom´ticamente cual fusi´n se har´; por ejemplo, se sugiere o a o ahacer aqu´lla que involucre al menor ´ e ındice de individuo.
  • 13. ´modelos de clasificacion 133.2.2. F´rmula de recurrencia o Seg´n los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusi´n deben calcu- u olarse algunos valores de la agregaci´n: aqu´llos que involucran al grupo reci´n creado, y que adem´s se o e e asuprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definici´n de los o´ındices de agregaci´n dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no oa partir de la tabla reci´n calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este ec´lculo de actualizaci´n solamente a partir de la ultima tabla de que se dispone, es que se han encontrado a o ´f´rmulas de recurrencia o actualizaci´n de las agregaciones. Estas f´rmulas son especialmente utiles para o o o ´las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionanen una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaci´n para δprom y δward son: o o card(a)δprom (h, a) + card(b)δprom (h, b) δprom (h, a ∪ b) = card(a) + card(b) (card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b) δward (h, a ∪ b) = card(a) + card(b)donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud: e a b c d e a 0 25 18 25 10 b 0 30 40 34 c 0 10 15 d 0 18 e 0 Usando la agregaci´n del salto promedio δprom , se obtiene la secuencia de tablas: o a b {c, d} e {a, e} b {c, d} a 0 25 21,5 10 {a, c, d, e} b {a, e} 0 29,5 19 b 0 35 34 {a, c, d, e} 0 32,25 b 0 35 {c, d} 0 16,5 b 0 {c, d} 0 e 0y el ´rbol de clasificaci´n mostrado en la figura 5. a o3.2.3. Inversiones Se dice que una clasificaci´n jer´rquica produce una inversi´n cuando se construye h = a ∪ b con o a of (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia o o opara que no se produzcan inversiones. Los cuatro ´ ındices de agregaci´n no producen inversiones como se opuede verificar sobre el teorema de Diday, pero hay otros ´ ındices que s´ pueden producir, como el de la ıdistancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 .3.3. Algoritmos ascendentes acelerados A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las ajerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos ıas.rec´ ıprocos. El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindariosreducibles, en cada paso de la construcci´n jer´rquica ascendente, solamente se examinan los vecinos o a
  • 14. 14 Javier Trejos 30 20 10 c d a e b Figura 5: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o om´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368– a380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de a o olanza & Williams, para caracterizar a los ´ ındices de agregaci´n que cumplen la propiedad de vecindarios oreducibles. El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´ ıprocos: dos gruposa y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcci´n jer´rquica a o aascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´ ıprocos. Una vezhechas estas fusiones, se calculan los vecinos rec´ ıprocos de los grupos formados y se recomienza, alternandoeste paso de fusi´n con el desarrollo normal del algoritmo de clasificaci´n jer´rquica ascendente. Puede o o aencontrarse una descripci´n del procedimiento en [15, 176–177]. o Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dosenfoques acelerados anteriores y el algoritmo usual de clasificaci´n jer´rquica ascendente. o a3.3.1. Ejemplo de notas escolares Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espa˜ol y educaci´n f´ a n o ısica. La clasificaci´n jer´rquica usando la agregaci´n de Ward con la distancia eucl´ o a o ıdea, da como resultado: Luc´ıa Mar´ ıa Carlos Andr´s e Luis Sonia Pedro In´s e Ana Jos´ e Puede verse que hay una clara clasificaci´n en tres clases, que es: o
  • 15. ´modelos de clasificacion 15 C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos}, e C2 = {Luis,Sonia}, C3 = {Pedro,In´s,Ana,Jos´}. e e Si se quiere hacer una clasificaci´n en dos clases, entonces se unen C1 y C2 . o El lector deseoso de consultar aplicaciones de la clasificaci´n jer´rquica, puede encontrar 13 aplica- o aciones en [6, pp. 321–538, tomo 1].3.4. Aproximaciones por ultram´tricas e Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa. ıa eLa demostraci´n de esta propiedad, llamada teorema de Johnson–Benz´cri, puede consultarse en: [6, pp. o e138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15]. La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar ıa,un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como eM. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco apoco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una e eultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la e e econstrucci´n de un ´rbol de longitud m´ o a ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o deKruskal. Tambi´n Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω, e ıaconstruyendo cada vez un tri´ngulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]). a o3.5. Clasificaci´n jer´rquica descendente o a Debe notarse que la construcci´n de un ´rbol de clasificaci´n podr´ tambi´n hacerse descendente- o a o ıa emente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico-tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el ecriterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert, ıa. e ade Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251– e276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobreun m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp. e a82–88].3.6. Observaciones sobre la clasificaci´n jer´rquica o a La clasificaci´n jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y o asobre los que hay que insistir: En primer lugar, los resultados dependen de la agregaci´n que se escoja. Por ello, siempre se o recomienda al usuario que haga una reflexi´n antes de aplicar el m´todo, en el sentido de ensoger o e la agregaci´n que tenga un mejor sentido en el problema que se est´ tratando. o e En segundo lugar, en el caso en que haya igualdad en el valor de la agregaci´n para dos parejas o diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados a diferentes.Finalmente, se debe tomar en cuenta que la clasificaci´n jer´rquica aproxima siempre una tabla de datos o aa una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo. e e 3 Un a ´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son aelementos de Ω, y la suma de los valores de las aristas es m´ ınima entre todos los ´rboles con esas caracter´ a ısticas.
  • 16. 16 Javier Trejos4. Clasificaci´n por Particiones o Los m´todos de clasificaci´n por particiones buscan una sola partici´n de Ω, mediante la optimizaci´n e o o ode alg´n criterio. Existen b´sicamente dos tipos de m´todos: u a e los que fijan a priori el n´mero de clases, u los que no fijan este n´mero. u Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventajaobvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de u ´un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaci´n no es f´cil u a o asin una adecuada experimentaci´n y pr´ctica. Ejemplos de estos m´todos son Isodata y Wishart. o a e En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado o ede Nubes Din´micas. a Los m´todos de nubes din´micas est´n basados en el principio que una clase puede ser representada por e a aalg´n objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de u epar´metros, etc; a este representante lo llamaremos n´cleo. El primer algoritmo de este tipo fue propuesto a upor Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc. La idea subyacente es: asignar los individuos al n´cleo m´s cercano, u a calcular los n´cleos con las clases formadas en el paso anterior, u iterar los pasos anteriores hasta obtener estabilidad. Se parte de una configuraci´n inicial de n´cleos, y se puede probar que el m´todo converge a una o u epartici´n que no mejora el criterio. Dependiendo del contexto y del tipo de n´cleo, se define un criterio o ua ser mejorado.4.1. Problema combinatorio Es necesario hacer notar que, cuando se quiere obtener una partici´n en K clases de un conjunto con on individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en Kclases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de a oilustraci´n, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es o uaproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que eln´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaci´n u ode recurrencia S(n, K) = S(n − 1, K − 1) + kS(n − 1, K)Esto lleva a que K 1 K S(n, K) = (−1)K−i in K! i i=1 De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluci´n e osatisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluci´n oen todos los casos.4.2. Criterio de la inercia Como se ha mencionado, se quiere obtener clases lo m´s homog´neas posibles y tal que est´n suficien- a e etemente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad: e
  • 17. ´modelos de clasificacion 17sup´ngase que se est´ en presencia de una partici´n P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son o a olos centros de gravedad de las clases: 1 gk = xi , n i∈Ckg es el centro de gravedad total: n 1 g= xi . n i=1 1 n 2Si se denota I = n i=1 xi − g la inercia total de la nube de puntos, K |Ck | B(P ) = ||gk − g||2 (1) n k=1la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total,y K K 1 2 W (P ) = I(Ck ) = xi − gk (2) n k=1 k=1 i∈Ckla inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher:I = B + W. Obs´rvese que B mide precisamente la “separaci´n” de la nube de puntos, al medir la e oinercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad est´n abastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si Wes peque˜o entonces cada I(Ck ) es peque˜o y as´ la dispersi´n al interior de cada clase es peque˜a. n n ı o n Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti- acamente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaci´n entre olas clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes ı, edin´micas es encontrar una partici´n P de Ω y representantes de las clases, tales que W (P ) sea m´ a o ınima. Existen otros criterios de clasificaci´n, como por ejemplo det(W )/ det(B) → m´ o criterios de en- o ın,trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto. ıa. a4.3. M´todo de k-medias e Existe un poco de confusi´n en la literatura acerca del m´todo de las k-medias, ya que hay dos o em´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un eprimer m´todo de reasignaci´n-recentraje que consiste b´sicamente en la iteraci´n sucesiva, hasta obtener e o a oconvergencia, de las dos operaciones siguientes: Representar una clase por su centro de gravedad, esto es, por su vector de promedios Asignar los objetos a la clase del centro de gravedad m´s cercano. aPoco despu´s, McQueen [37] propone un m´todo muy similar, donde tambi´n se representan las clases por e e esu centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia acon el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro e ede ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los e ıacentros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo e ede McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la ıa eb´squeda de una partici´n de consenso, llamada partici´n central. Variantes del m´todo de Forgy son u o o epropuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17]. e a Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, a´n si estos m´todos u etambi´n reciben nombres como nubes din´micas, centros m´viles, o reasignaci´n-recentraje. e a o o
  • 18. 18 Javier Trejos4.3.1. M´todo de Forgy e Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que est´n descritos apor p variables cuantitativas x1 , x2 , . . . , xp . En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y a ade distancias eucl´ ıdeas. Por lo tanto, tambi´n tiene sentido que cada clase est´ representada por su centro e ede gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variablespara los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente. a aGeneralemente, se usar´ la distancia eucl´ a ıdea cl´sica en este contexto. a Como se mencion´ anteriormente, el m´todo de las k-medias consiste en: o e 1. Escoger una partici´n inicial, al azar o con base en alg´n otro criterio. o u 2. Calcular los centros de gravedad de la partici´n. o 3. Asignar cada objeto a la clase del centro de gravedad m´s cercano. a 4. Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene estabilidad en la partici´n. o Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19]. e e Conviene hacer notar que, en una implementaci´n computacional, la escogencia al azar es m´s bien de o auna muestra de K objetos iniciales que servir´n de n´cleos iniciales, y luego se asignan todos los dem´s a u aobjetos a la clase del n´cleo m´s cercano, form´ndose entonces la partici´n inicial. u a a o4.3.2. Ejemplo de las notas escolares El resultado de la aplicaci´n del m´todo de k-medias, depender´ de la escogencia inicial de los n´cleos. o e a uPor ello, se recomienda correr varias veces el m´todo y escoger la mejor soluci´n obtenida en esas corridas. e o Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obteni´ndose o een 17 de ellas la soluci´n ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con o o e aagregaci´n de Ward). La tabla siguiente muestra los resultados obtenidos: o Partici´n o N´mero de veces u W (P ) B(P ) obtenida C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa} 17 0.75 4.97 C2 = {Luis,Sonia} C3 = {Pedro,In´s,Ana,Jos´} e e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 3 2.48 3.24 C2 = {Pedro,In´s} e C3 = {Ana,Jos´} e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 2 2.52 3.20 C2 = {In´s,Ana,Jos´} e e C3 = {Pedro} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 1 2.55 3.17 C2 = {In´s,Ana} e C3 = {Pedro,Jos´}e C1 = {Luc´ıa,Andr´s,Carlos,Luis,Sonia} e 1 2.72 3.00 C2 = {Pedro,In´s} e C3 = {Ana,Jos´,Mar´ e ıa} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Pedro,In´s,Ana,Jos´} e e 1 3.06 2.66 C2 = {Luis} C3 = {Sonia}
  • 19. ´modelos de clasificacion 194.3.3. M´todo de transferencias e Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi- enalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y eotra, de un unico elemento de Ω a la vez, haciendo mejorar alg´n criterio en cada iteraci´n. ´ u o El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaci´n, no necesariamente ı ola inercia intra-clases): 1. Se da una partici´n inicial P = (C1 , C2 , . . . , Ck ) de Ω. o k 2. Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la partici´n de Pk consistente o en transferir x de Ck hacia Ck en la partici´n P y dejar las dem´s clases iguales. o a 3. Sea P ∗ tal que W (P ∗ ) = m´ ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ . k 4. Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω. 5. Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia. En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de auna distancia eucl´ıdea. Se busca la partici´n P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases oW . Por tanto, al pasar x de Ck a Ck se debe minimizar k W (Ck (x)) = I(Ch ) + I(Ck {x}) + I(Ck ∪ {x}). h∈{k,k } / En el caso general, Ω es arbitrario, con d un ´ ındice de disimilitud sobre Ω. El criterio W que se definesobre la partici´n P toma en cuenta la relaci´n de equivalencia R asociada a P : o o W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}.Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que: sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }. Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambi´n la partici´n final P ∗ depende e ı e ode la partici´n inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambi´n o ı u ese pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero u u“natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambi´n se puede usar el em´todo de Polos de Atracci´n [35]. e o4.4. M´todos de nubes din´micas e a Se quiere obtener una partici´n de Ω en K clases bien agregadas, bien separadas y de intersecci´n o ovac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza. ıa. u Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa e een que cada clase debe tener una representaci´n (llamada n´cleo), y luego se hace una b´squeda iterada o u ude n´cleos y de particiones, hasta optimizar un cierto criterio. u En el m´todo general de nubes din´micas, cada clase estar´ representada por un n´cleo, que ser´ un e a a u aelemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el asiguiente: 1. Se da una partici´n inicial de Ω. o 2. Se calculan los n´cleos, mediante una funci´n de representaci´n. u o o 3. Se forma una partici´n, asignando cada elemento al n´cleo m´s pr´ximo, mediante una funci´n de o u a o o asignaci´n. o
  • 20. 20 Javier Trejos 4. Se repiten los pasos 2 y 3 hasta que las clases se estabilicen. La escogencia de los n´cleos iniciales, se hace generalmente de manera aleatoria. En el caso general, use escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo K W (P ) = D(xi , Nk ) k=1 xi ∈Ckdonde Nk es el n´cleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo, uuna agregaci´n) entre los objetos xi y los n´cleos Nk (que son conjuntos de objetos). El n´cleo Nk se o u udefine como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ). Se puede probar que [19] en cada iteraci´n se mejora W y adem´s se converge a una clase estable. o a Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los n´cleos e e a uson centros de gravedad.4.4.1. Variantes del m´todo de nubes din´micas e a Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas e a ase debe definir el criterio a optimizar, los n´cleos (funci´n de representaci´n), y la forma de asignar u o oelementos a las clases (funci´n de asignaci´n). o oM´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis- e e e ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma ´ forma de dispersi´n, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro- o a e longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricci´n o de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar a iterativamente la distancia que mejor se adapte a los datos. En presencia de objetos descritos por variables cuantitativas, el criterio es K 2 W (P ) = x i − gk M k=1 i∈Ck para el caso de una sola m´trica M , o bien e K 2 W (P ) = x i − gk Mk k=1 i∈Ck para el caso en que se tiene una m´trica Mk asociada a cada clase Ck . e En cada iteraci´n del algoritmo, se calcula no solo los centros de gravedad gk, sino tambi´n las o e m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases, e mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra- clases de clase Ck .Regresi´n tipol´gica. Se pretende detectar K comportamientos locales de regresi´n lineal y las rectas o o o asociadas, de manera que se minimice un criterio de adecuaci´n de las muestras con sus representa- o ciones lineales (criterio de m´ ınimos cuadrados ) [18]. La idea es dar una partici´n del espacio Ω de n individuos a los que se han medido m variables o explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresi´n asociados a cada ı o una de las clases de tal partici´n. o El n´cleo de una clase es el vector de coeficientes de regresi´n Bk = (b1 , . . . , bm )t asociados a la u o k k regresi´n en Ck . El criterio a minimizar es o K K nk k k W (P ) = Y −X Bk 2 nk R = (yi − xk bi ) k i k k=1 k=1 i=1
  • 21. ´modelos de clasificacion 21 donde nk = |Ck |. Se asigna un individuo zi = (x1 , . . . , xp , yi ) a la clase Ck que minimice d(zi , Bk ) = (yi − xi Bk )2 . i iMezclas de distribuciones. Se dispone de una muestra Ω cuyos elementos siguen distintas distribu- ciones de probabilidad. Se quiere estimar los par´metros de tales distribuciones. Este es uno de los a problemas m´s viejos de la Estad´ a ıstica Inferencial, que aqu´ se aborda desde el punto de vista de la ı Clasificaci´n Autom´tica, en particular con el m´todo de Nubes Din´micas. o a e a Se tiene una muestra Ω = {x1 , . . . , xn } de una variable aleatoria X en Rs , cuya ley admite la K densidad f (x) = k=1 pk f (x, ak ), donde pk > 0, ∀k, pk = 1. Se supone que f (·, ak ) es una densidad que depende del par´metro ak ∈ Rs (donde s es el n´mero de componentes del par´metro), a u a y pk es la probabilidad de que un punto de la muestra siga la ley f (·, ak ). Se quiere estimar las K componentes y los par´metros desconocidos pk y ak . Tomamos pk = |Ck |/n como estimador de pk . a Como se busca una partici´n P = (c1 , . . . , cK ) tal que cada clase Ck sea asimilable a la ley f (·, ak ), o el n´cleo de la clase k-´sima es el par´metro ak ∈ Rs . El criterio a maximizar es u e a K W (P ) = ln V (Ck , ak ), k=1 donde V (Ck , ak ) = x∈Ck f (x, ak ) es la funci´n de verosimilitud de la submuestra Ck para la o ley f (·, ak ). Un objeto x se asigna a la clase k que maximiza f (x, ak ). El n´cleo ak maximiza la u verosimilitud del par´metro de la densidad asociada a la muestra Ck . En el caso normal o Gaussiano, a se tiene ak = (µk , Γk ), donde: 1 µk = x |Ck | x∈Ck 1 Γk = (x − µk ) (x − µk )t . |Ck | x∈Ck Hay que hacer notar que, a pesar de que este m´todo converge r´pidamente, la precisi´n es mejor e a o con los m´todos cl´sicos de estimaci´n de par´metros, por ejemplo con los algoritmos tipo EM y e a o a SEM [18].Conceptos conjuntistas. Ilustramos este tipo de n´cleo con el ejemplo mostrado en la figura 6. u y 5 6• A • C • • • • 4 • • • 3 • • • 2 • B • •• • 1 • • - 0 1 2 3 4 5 6xFigura 6: Los n´cleos son conceptos conjuntistas: A = [x < 4]; B = [x ≥ 4] [y < 3]; C = [x ≥ 4] [y ≥ 3]. uOtros. El n´cleo puede ser un plano factorial, un hiperplano discriminante, etc. [18] u4.5. M´todo de Fisher e El M´todo de Fisher [23] es ´ptimo para particionar un conjunto descrito por una unica variable e o ´cuantitativa en K clases. Usa el criterio intra-clase y se fundamenta en el orden total asociado a la variablecuantitativa (o cualitativa-ordinal) inducido por ´sta sobre el conjunto de individuos. La partici´n ´ptima e o odeber´ ser compatible con ´ste orden. a e
  • 22. 22 Javier Trejos M´s espec´ a ıficamente, si v: Ω → R es la variable, sean v1 < v2 < · · · < vm los m valores diferentesque toma v (m ≤ n). Naturalmente suponemos K < m, donde K es el n´mero de clases de la partici´n u oo´ptima buscada. Si dos individuos ω, ω ∈ Ω son tales que v(ω) = v(ω ), estos deben quedar en una misma clase y, ypara efectos de clasificaci´n pueden considerarse como uno solo objeto. De esta manera, el problema se oreduce a hallar una partici´n P = (C1 , . . . , CK ) de {v1 , . . . , vn } que minimice la inercia intra-clase de P : o k k W (P ) = pj (vj − g(Ci )) = I(Ci ), i=1 vj ∈Ci i=1con pj el n´mero de individuos ω tales que v(ω) = vj , y g(Ci ) el centro de gravedad del conjunto de un´meros vj . Para simplificar, en lugar de {v1 , . . . , vn } escribimos {1, . . . , m}. u De manera recursiva se calcula una sucesi´n de particiones optimales Cli del conjunto inicial {i, . . . , m} o 1en l clases, para finalizar con CK , la partici´n ´ptima de Ω buscada. o o El algoritmo de Fisher es como sigue: i 1. Para i = 1, . . ., m, se define C1 = {i, i + 1, . . . , n}. j+1 j+1 2. Para l = 2, . . ., K −1, se calcula la partici´n Cli = ({i, i+1, . . . , j}, Cl−1 ) de {i, . . . , m}, donde Cl−1 o j+1 ha sido calculada en el paso j−1 ´simo, j ∈ {i, . . . , m−l+1} y que minimice I({1, . . . , j})+W (Cl−1 ). e 1 i+1 3. Finalmente debe construirse una partici´n CK = ({1, . . . , i}, CK−1 ) y que minimice I({1, . . . , j}) + o j+1 W (CK−1 ) La demostraci´n de la optimalidad del algoritmo de Fisher descansa en los dos lemas que siguen, que opresentamos sin demostraci´n. oLema 1 Una partici´n P ∗ que minimiza W est´ formada por clases contiguas. Es decir, si dos individuos o aωi , ωj de una misma clase de P ∗ toman los valores v(ωi ), v(ωj ), entonces no hay individuos externos aesta clase que tomen su valor de v en el intervalo [v(ωi ), v(ωj )].Lema 2 Si una partici´n P ∗ = (C1 , C2 , . . . , CK ) optimiza W en Ω, entonces (C2 , . . . , CK ) optimiza W o ∗ ∗ ∗ ∗ ∗ ∗en Ω C1 . La siguiente proposici´n, basada en los lemas anteriores asegura que tal algoritmo construye una opartici´n optimal de Ω. o 1Proposici´n 3 Para k = 1, . . ., K, Pk es una partici´n de {1, . . . , m} en k clases de inercia intra-clase o om´nima. ı No siempre tiene sentido el criterio cuando las contribuciones de cada clase son muy peque˜as, com- nportamiento que tienden a tener las cases formadas por muy pocos elementos. En este caso podr´ pedirse ıaun m´ınimo de elementos por clase. El algoritmo de Fisher es de complejidad (K − 1)m2 , y la soluci´n que da no es necesariamente unica. o ´4.6. Uso de heur´ ısticas modernas de optimizaci´n o Debido a que los m´todos de particionamiento encuentran ´ptimos locales del criterio a optimizar, se e oha buscado mejorarlos con el uso de heur´ ısticas modernas de optimizaci´n combinatoria. En otro docu- omento [50] se describe su uso e implementaci´n, para el caso de sobrecalentamiento simulado, b´squeda o utab´, algoritmos gen´ticos, colonias de hormigas y enjambres de part´ u e ıculas. Los resultados obtenidos sonsuperiores a los que se obtienen con los m´todos descritos aqu´ como k-medias o clasificaci´n jer´rquica e ı, o ade Ward.
  • 23. ´modelos de clasificacion 235. M´todos Arb´reos No Jer´rquicos e o a Existe una serie de m´todos de clasificaci”on autom´tica que no construye ´rboles jer´rquicos, sino e a a aotras estructuras, ya sea de ´rbol u otros grafos. A continuaci´n veremos dos de ellas: los ´rboles aditivos a o ay las pir´mides. a5.1. Arboles aditivos Un ´rbol ditivo es una representaci´n tipo grafo, en la que las hojas representan a los objetos a a oclasificar y hay una serie de nodos internos (algunos de ellos tambi´n pueden ser objetos, pero no es lo em´s com´n), de manera que la distancia entre dos objetos sea la suma de las longitudes de las aristas a uque los unen. Para ello, se introduce el concepto de distancia aditiva, que es la que corresponde a los ´rboles aditivos. aDefinici´n 1 Sea (H, L) un ´rbol valuado, con H = (S, A) donde S es el conjunto de nodos del ´rbol H, o a aA es el conjunto de aristas y L es el conjunto de valores positivos asociados a las aristas. Una disimilitudaditiva dL sobre S es una disimilitud tal que dL (s, t) = longitud del camino entre s y t.Tal definici´n es correcta, pues en un ´rbol hay un unico camino entre dos nodos. o a ´Definici´n 2 Una distancia arb´rea sobre Ω es una disimilitud d : Ω × Ω → R+ tal que: o oi) ∀i ∈ Ω : d(i, i) = 0.ii) ∀i, j ∈ Ω : d(i, j) = d(j, i).iii) ∀i, j, k, l ∈ Ω : d(i, j) + d(k, l) ≤ M ax[d(i, k) + d(j, l), d(i, l) + d(j, k)]. La desigualdad de (iii) se llama condici´n de los cuatro puntos, o desigualdad cuadrangular. oV´ase que esta desigualdad es muy parecida a la que sirve para definir una ultram´trica. Como en este e eultimo caso, habr´ dos t´rminos de la desigualdad que son iguales entre s´ y mayores o iguales al tercero.´ a e ı, V´ase que una distancia arb´rea es una distancia (en el sentido corriente); esto es, tambi´n cumple la e o edesigualdad triangular. Adem´s, toda ultram´trica es una distancia arb´rea. a e oDefinici´n 3 Un ´rbol aditivo sobre Ω es un ´rbol en el que todos los nodos terminales son elementos o a ade Ω, y donde las aristas est´n valuadas positivamente. a Debe notarse que en un ´rbol aditivo puede haber elementos de Ω que no son nodos terminales. Por aejemplo, en la figura 7 se muestran dos ´rboles aditivos sobre Ω = {p, q, r, s, t} . a s t p p s r q q t r Figura 7: Ejemplos de ´rboles aditivos. a Es claro que se puede definir una distancia aditiva a partir de un ´rbol aditivo. Adem´s, Zaretskii a a(1967) prob´ que, si d una disimilitud sobre Ω, entonces los valores de d se pueden representar como un o
  • 24. 24 Javier Trejosa´rbol aditivo si, y solo si, d verifica la condici´n de los cuatro puntos. Esto es, hay una correspondencia obiun´ıvoca entre ´rboles aditivos y distancias aditivas. a Con base en el teorema anterior se puede plantear el problema de buscar algoritmos que encuentrenuna distancia arb´rea “pr´xima” a una disimilitud dada sobre Ω. M. Roux y G. Brossier han presentado o oalgoritmos en este sentido. Los m´todos del primero [44] se basan en tratar de obtener una distancia earb´rea a partir de una disimilitud, haciendo modificaciones sucesivas en esta ultima, hasta que se con- o ´verge. Por su parte, Brossier [11] propone obtener la distancia arb´rea m´s pr´xima a un ´ o a o ındice dedisimilitud dado, basado en la descomposici´n de toda cuadrangular como la suma de una ultram´trica o ey una distancia con centro. De esta forma, la complejidad del algoritmo, que en general es del orden n4 , √se reduce al orden n2 ´ n3 . Este algoritmo tambi´n se basa en el uso de la m´trica d, con propiedades o e emuy interesantes.5.2. Pir´mides a Las pir´mides fueron introducidas por E. Diday [20] para enriquecer la representaci´n jer´rquica, de a o amanera que un nodo puede estar contenido en dos nodos superiores, en lugar de s´lo uno como en una ojerarqu´ıa. Una pir´mide induce una dismilitud m´s cercana a los datos que la ultram´trica inducida por un ´rbol a a e ajer´rquico. a Un estudio cercano de las propiedades de las jeraqu´ lleva al estudio de los ´rdenes sobre los datos, ıas opasando por el estudio de las matrices de Robinson: matrices en las que los valores crecen conforme sealeja la fila o la columna de la diagonal principal.Definici´n 4 Sea Ω un conjunto finito y P un conjunto de partes de Ω. P es una pir´mide sobre Ω si o a 1. Ω∈P 2. ∀ω ∈ Ω, {ω} ∈ P . 3. ∀h, h ∈ P se tiene h ∩ h = ∅ ´ h ∩ h ∈ P . o 4. Existe un orden θ tal que todo elemento de P es un intervalo seg´n θ. u Si se considera el conjunto de disimilitudes que no necesariamente convierten a todos los tri´ngulos een is´sceles (como las ultram´tricas), pero para los cuales existe un orden compatible, se obtienen las o edisimilitudes piramidales, las cuales permiten construir las pir´mides. a Existe una biyecci´n entre los conjuntos de matrices de Robinson y las parejas (d, θ) donde d es una odisimilitud piramidal y θ es un orden compatible con d. Se puede probar que las disimilitudes piramidalesa las cuales se les puede asociar un orden y los dendrogramas tipo piramidal est´n tambi´n en biyecci´n. a e o Se puede probar que los antecesores de un nodo en un ´rbol piramidal son a lo sumo dos (en una jer- aarqu´ es solo uno). El algoritmo de clasificaci´n piramidal ascendente consiste en agregar en cada etapa ıa olos dos grupos m´s cercanos que a´n no han sido agregados dos veces. A esto se le a˜aden algunas condi- a u nciones sencillas que permiten evitar la aparici´n de un cruzamiento. Como en el caso de las jerarqu´ se o ıas,usa una f´rmula de recurrencia del tipo Lance & Williams adaptada a las pir´mides, usando agregaciones o ade salto m´ ınimo, salto m´ximo, inercia m´ a ınima. Igualmente, tambi´n se puede usar un algoritmo del tipo evecinos rec´ ıprocos. Normalmente, una pir´mide debe ser simplificada ya sea reduciendo el n´mero de nodos y aristas, a uo bien enriqueciendo una jerarqu´ dada a˜adiendo algunas aristas. Para saber m´s sobre pir´mides, ıa n a aconsultar [8] ´ [3]. o
  • 25. ´modelos de clasificacion 256. Otros M´todos e La clasificaci´n autom´tica es una disciplina en constante evoluci´n, con m´ltiples trabajos de in- o a o uvestigaci´n reportados cada a˜o. La revista especializada Journal of Classification es una de las m´s o n acitadas en el mundo cient´ ıfico. El congreso de la international Federation of Classification Societies esmuy concurrido; tiene lugar cada dos a˜os y el pr´ximo ser´ en julio de 2004 en Chicago. n o a A continuaci´n presentamos algunos aspectos menos conocidos de la clasificaci´n, m´s recientes que o o alos que se han presentado hasta ahora. Se trata de la clasificaci´n bimodal, la clasificaci´n difusa, la o oclasificaci´n neuronal y la clasificaci´n neuronal. o o6.1. Clasificaci´n bimodal o La clasificaci´n bimodal, tambi´n conocida como clasificaci´n cruzada, consiste en obtener particiones o e osimult´neas de las filas y columnas de una tabla de datos, de manera que el resultado explique una relaci´n a oentre las clases-filas y las clases-columnas. Tambi´n existen m´todos jer´rquicos bimodales, o m´todos e e a etrimodales o multimodales, pero por falta de espacio explicaremos unicamente de forma resumida los ´m´todos de particionamiento bimodales. e Sea X = (xij )n×m una matriz bimodal que cruza los modos I y J tales que |I| = n, |J| = m yI ∩ J = ∅. Las entradas de X son positivas y reflejan el grado de intensidad en la asociaci´n entre los omodos filay columna, de tal forma que entre mayor sea el valor de xij , mayor es la asociaci´n entre i y oj; X puede ser, por ejemplo, una tabla de contingencia. Si P = {Ak |k = 1, . . . , K} es una partici´n del omodo I y Q = {Bl |l = 1, . . . , L} una partici´n del modo J, una clase bimodal de I × J tiene la forma oAk × Bl y se dice que (P, Q) es una partici´n bimodal de I × J en K, L clases. Particiones P y Q opuedes ser caracterizadas por sus matrices indicadoras, que tambi´n ser´n denotadas P y Q, siendo el e acontexto suficiente para distinguir cual de los conceptos es usado. Dada una matriz biomdal X y fijando K y L, el problema es encontrar particiones P = (pik )n×K yQ = (qjl )m×L , y una matriz de asociaci´n W = (wkl )K×L tal que o ˜ Z(c, P, Q, W ) = (xij − c − xij )2 ˆ i∈I j∈Jes m´ınimo, donde xij = ˆ k l pik qjl wkl . Se puede ver que en este modelo, llamado aditivo, xij esrepresentado por xij +c, y entonces hay un t´rmino de error ij que supondremos que cumple i,j ij = 0. ˆ e 1Se supone que la constante c modela la parte “com´n” de las entradas de X, esto es c = x = pq i,j xij ; uluego, se asume que c = 0 si los xij est´n centrados (xij := xij − x). a Por lo tanto, el criterio a minimizar es: K L 2 Z = Z(P, Q, W ) = xij − pik qjl wkl , i∈I j∈J k=1 l=1que puede ser escrito como: K L n m Z = Z(P, Q, W ) = pik qjl (xij − wkl )2 . (3) k=1 l=1 i=1 j=1Dadas P y Q, la matriz W que minimiza Z se obtiene para: 1 wkl = xij , (4) ak bl i∈Ak j∈Bldonde ak = |Ak | y bl = |Bl | con los cardinales de las clases. Notamos que W puede ser interpretada comola matriz de centroides de las clases bimodales, y representa el grado de asociaci´n entre ambas clases. o
  • 26. 26 Javier Trejos En lo que sigue, escribimos Z(P, Q) en lugar de Z(P, Q, W ) y suponemos que, dadas P y Q, W secalcula seg´n (4). u La Varianza Explicada del modelo es usualmente reportada en los resultados comparativos, se definecomo ˆ 2 i,j (xij − xij ) VAF = 1 − . (5) ¯2 i,j (xij − x)Es claro que maximizar VAF ∈ [0, 1] es equivalente a minimizar Z.6.1.1. M´todos de particionamiento bimodal e La mayor parte de los m´todos que buscan una partici´n bimodal est´ basados en la transferencia de e o aobjetos. Presentamos a continuaci´n brevemente algunos de ellos. o i Denotamos Ak → Ak la transferencia de la fila i de la clase Ak hacia la clase Ak , y an´logamente a jBl → Bl la transferencia de la columna j de la clase Bl a la clase Bl . Los m´todos empiezan con euna partici´n bimodal inicial (P, Q), que puede ser generada al azar o puede ser el resultado de alg´n o uconocimiento previo. Se denota ∆Z la diferencia en el criterio (3) entre las particiones bimodales atnes ydespu´s de transferencia. Suponemos que los n´meros de clases K y L son dados y fijados a lo largo de e ulos algoritmos.Intercambios Alternantes (Gaul & Schader (1996)) 1. Initializar P, Q; calcular W de acuerdo con (4). 2. Alternar los siguientes pasos hasta que Z no mejora: i a) Hacer Ak → Ak para i y k escogidos al azar; si ∆Z < 0 aceptar la transferencia, redefinir P y calcular W usando (4). j b) Hacer Bl → Bl para j y l escogidos al azar; si ∆Z < 0 aceptar la transferencia, redefinir Q y calcular W usando (4).k-medias (Govaert (1983), Baier et al. (1997)) 1. Inicializar P 0 , Q0 ; calcular W 0 de acuerdo con (4); sea t := 0. 2. Repetir los siguietes pasos hasta que Z no mejora: ˜ a) Dados W := W t y Q := Qt , definir P por ˜ Ak := {i ∈ I| (xij − wkl )2 → m´ ın (xij − wk l )2 }. k l j∈Bl l j∈Bl b) ˜ Dados W := W t y P := P t , definir Q por ˜ Bl := {j ∈ J| (xij − wkl )2 → m´ ın (xij − wkl )2 }. l k i∈Ak k i∈Ak c) Calcular W t de acuerdo con (4). ˜ ˜ d ) Sean t := t + 1, P t := P , Qt := Q. Se puede probar que la sucesi´n Zt := Z(P t , Qt ) es decreciente. oRecocido Simulado (Trejos & Castillo (2000)) El usuario escoge los par´metros χ0 ∈ [0,80, 0,95], λ ∈ N, γ ∈ [0,8, 0,99]. a 1. Inicializar P, Q; calcular W de acuerdo con (4). 2. Estimar la temperatura inicial c0 usando la tasa de aceptaci´n inicial χ0 . o
  • 27. ´modelos de clasificacion 27 3. Para t := 0 hasta λ hacer: a) escoger al azar el modo (I ´ J) con probabilidad uniforme 1/2 o i j b) hacer Ak → Ak ´ Bl → Bl de la siguiente manera: o - escoger al azar i ´ j (seg´n el modo escogido); o u - escoger al azar k ´ l , diferente de la clase actual de i ´ j, denotada k ´ l, dependiendo o o o del caso; - calcular ∆Z. c) Aceptar la transferencia si ∆Z < 0, sino aceptarla con probabilidad exp(∆Z/ct ). 4. Hacer ct+1 := γct y regresar al paso 1, hasta que ct ≈ 0.B´ squeda Tab´ (Castillo & Trejos (2002)) u u ˜ 1. Escoger maxnum y sizeneigh, el tama˜o de los vecindarios N (P, Q). n Inicializar e = (P, Q) al azar; calcular W de acuerdo con 4. 2. Empezar la lista tab´ con T := {Z(P, Q)}. Sea eopt := e. u 3. Repetit maxnum veces: a) ˜ Generar el conjunto N(e) repitiendo sizeneigh veces: - Escoger al azar el modo con probabilidad uniforme 0,5. 1 - Escoger un objeto i ´ j uniformemente al azar en I ´ J con probabilidad n ´ m , o o o 1 respectivamente (s´lo para clases no unitarias). o - Escoger al azar una clase de P ´ Q, diferentes de la clase actual del objeto escogido o 1 o 1 antes, conprobabilidad K−1 ´ L−1 respectivamente, y transferir al objeto a la clase escogida. ˜ b) Calcular Z(easp ) = m´ Z(P , Q ) (P , Q ) ∈ N (e) . ın c) Si Z(easp ) < Z(eopt ) entonces e∗ = easp y eopt = e∗ . Sino, sea e∗ tal que t Z(e∗ ) = ˜ m´ Z(P , Q ) (P , Q ) ∈ N(e), Z(P , Q ) ∈ T . ın d ) e := e∗ . e) Actualizar T introduciendo el valor Z(e∗ ) y sacando el valor m´s viejo. a En [50] se presentan resultados comparativos entre estos cuatro m´todos. e6.2. Clasificaci´n difusa o La clasificaci´n difusa trata de relajar la restricci´n de que un objeto pertenezca a una sola clase, o ointroduciendo el concepto de funci´n de pertenencia, la cual permita que un mismo objeto pertenezca a odistintas clases, pero con una medida de pertenencia a cada una de ellas. Para introducir la clasificaci´n difusa, haremos primero una presentaci´n distinta de la clasificaci´n por o o oparticiones que hemos venido usando. Sea Ω = {x1 , . . . , xn } el conjunto de objetos a clasificar en K clases.Una partici´n (cl´sica o “dura”) P = (C1 , . . . , CK ) se puede representar por una matriz U = (u)n×K de o aindicadoras, tal que 1. uik ∈ {0, 1}, para todo i ∈ {1, . . . , n} y todo k ∈ {1, . . . , K}. K 2. k=1 uik = 1, para todo i ∈ {1, . . . , n}. n 3. 0< i=1 uik < n, para todo k ∈ {1, . . . , K}.
  • 28. 28 Javier TrejosEl criterio de inercia intra-clases a minimizar se puede escribir como K n 2 W (P ) = uik xi − gk k=1 i=1donde gk son los centros de gravedad de las clases, puntos ´ptimos de representaci´n de una clases seg´n o o uel teorema de Huygens para este criterio y la distancia Eucl´ıdea cl´sica. a o a ˜ Una partici´n difusa estar´ representada por una matriz de pertenencia U = (˜)n×K tal que: u 1. uik ∈ [0, 1], para todo i ∈ {1, . . . , n} y todo k ∈ {1, . . . , K}. ˜ K 2. k=1 uik = 1, para todo i ∈ {1, . . . , n}. n 3. 0< i=1 uik < n, para todo k ∈ {1, . . . , K}.Es decir, la pertenencia a una clase es realmente un porcentaje de pertenencia, y un objeto puede pertencera varias clases simult´neamente. El criterio a minimizar es la inercia difusa intra-clases: a K n ˜ ˜ ˜ W (U , G) = (˜ik )m xi − gk u ˜ 2 (6) k=1 i=1 ˜ g ˜donde G = (˜1 , . . . , gK ) es una matriz de “centros”, cuya forma se dar´ enseguida. a ˜ Aqu´ los xi con alto grado de pertenencia en Ck , tienen una gran influencia sobre gk , lo cual es ı o ˜fortalecido con m. La funci´n de m es reducir la influencia de los xi muy alejados de gk en el c´lculo de a ˜los gk . ˜ ˜ Dada U , una condici´n necesaria para que W sea m´ o ınima es: n u m i=1 (˜ik ) xi ˜ gk = n (7) u m i=1 (˜ik ) ˜y dada G, una condici´n necesaria es o 1/(m−1) 1 xi −˜ k g 2 uik = ˜ 1/(m−1) (8) K 1 l=1 xi −˜ l g 2 El algoritmo de k-medias difuso propuesto por Bezdek [9] es como sigue: 1. ˜ Inicializar U con el m´todo de k-medias. e 2. ˜ Calcular G usando (7). 3. ˜ Calcular U usando (8). En el caso de que alg´n xi coincide con un gk se defin uik = 1 si k = i y u ˜ uik = 0 si no. ˜ 4. ˜ Si U entre esta iteraci´n y la anterior es “muy” similar (de acuerdo con una norma matricial y un o umbral ), entonces detener el algortimo: si no, volver al paso 2. Usualmente se toma m = 2; los valores grandes de m tienden a bajar los valores de uik . ˜6.3. Clasificaci´n neuronal o Una red neuronal es una grafo dirigido donde cada nodo es llamado una neurona, las aristas est´n avaluadas y cada neurona realiza operaciones, generalmente una transformaci´n de los valores de las oneuronas conectadas a ella. Estas redes se han usado para modelar m´ltiples problemas, y han tenido umucho ´xito en problemas no lineales de discriminaci´n o regresi´n a trav´s de la llamada retropropagaci´n e o o e odel gradiente. Para una introducci´n a las redes neuronales, se puede consultar [39]. En clasificaci´n o oautom´tica, veremos algunos de los modelos propuestos. a
  • 29. ´modelos de clasificacion 296.3.1. Aprendizaje competitivo: algoritmo de Rumelhart La red propuesta por Rumelhart y Zipser [45] es una red multicapas y al interior de cada capa hayclases que contienen neuronas. Las neuronas de una clase inhiben a las otras neuronas de la misma clase. e e u e u e - - e e u u u e e e e u e - - e u e u e e e e - e - Capa de entrada Capa 2 Capa 3 Figura 8: Red de aprendizaje competitivo. Los pesos ωji que conectan las neuronas i a la neurona j deben cumplir i ωji = 1 y las entradas delsistema son sucesiones binarias. Si denotamos sik el estado de la neurona i durante la presentaci´n deloejemplo xk (1 si i est´ activa, 0 si no), entonces la competencia consiste en encontrar, para cada clase de auna capa, la neurona j que maximiza αjk = i ωji sik . Entonces el nuevo estado de j ser´ 1 si j gana en asu clase, 0 si no.La ley de aprendizaje es: ωji (t) + η[ sik − ωji (t)] si j gana al presentarse xk , nkωji (t + 1) = , donde η > 0 y nk = i cik . ωji (t) sino. Se ve que una neurona aprende traspasando parte del peso de las entradas inactivas a las activas.La neurona pierde una proporci´n η de su peso, que es luego distribuida entre los pesos de las entradas oactivas.6.3.2. Algoritmo de Grossberg Este modelo tambi´n usa un tipo de aprendizaje competitivo, pero la estructura de la red es distinta ede las anteriores. Adem´s, se usa la inhibici´n lateral entre las neuronas. El modelo est´ basado en el a o afuncionamiento del algoritmo MaxNet, que consiste en escoger la neurona que responde m´s fuerte a un a ımulo. La capa de entrada tiene p neuronas y cada entrada x = (x1 , . . . , xp ) es un vector binario. Hayest´dos capas escondidas, cada una con m neuronas. La estructura de la red MaxNet es ilustrada en la figura9. x1 s - - s1 c Q Q 1 6 ? H xi c Q s Q - - sj xi HHHj H ujj = 1 s HH - f - sj . j j H wji wji xi σj xp s . 6 ? . 1 i - -sm m − 6 ujk = − Entrada 2a capa Capa MaxNet Salida ? Figura 9: Red MaxNet. Si y es el prototipo (binario) de la clase C, el ejemplo x pertenecer´ a la clase C ∗ que minimiza ad(x, y ∗ ), donde d es la distancia de Hamming: d(x, y) = p − i xi yi . Esto se implementa en la red MaxNet al definir la salida de las neuronas de la segunda capa comoσj = i ωji xi . Si ωjk es el peso entre las neuronas j, k de la capa MaxNet, se define ujk = 1 si j = k yujk = − si j = k, donde 1/m.
  • 30. 30 Javier Trejos Se define entonces la salida de la neurona j como sj = f σj − k=j σk , donde f es una funci´nosigmoide, y se dir´ que hay convergencia cuando s´lo un nodo tiene salida distinta de cero. Los vectores- a oindividuos se presentan sucesivamente y reiteradamente hasta que se haya encontrado la clase a la quepertenece cada ejemplo. Esta clase ser´ la dada por el prototipo m´s cercano seg´n la distancia de a a uHamming. El algoritmo dado por Grossberg para encontrar una partici´n est´ basado en la utilizaci´n de la o a ored MaxNet. No daremos los detalles de este algoritmo, s´lo haremos notar que, adem´s de la inhibici´n o a olateral (simbolizada por los pesos ujk ) se definen pesos “hacia atr´s”que van de la capa MaxNet a la acapa de entrada y que permitir´n verificar que un ejemplo pertenece a una clase, seg´n un cierto grado a ude tolerancia τ . Adem´s, τ jugar´ el papel de par´metro para determinar el n´mero de clases (que no es a a a ufijado a priori). El problema con este m´todo es que puede haber ejemplos que nunca se clasifiquen, por elo que habr´ que crear clases para ellos solos. ıa6.3.3. Clasificaci´n usando el modelo de Hopfield o En el algoritmo de Adorf Murtagh [1], se dispone de una matriz de distancias o disimilitudes y sequiere minimizar las disimilitudes intraclases: es decir, obtener clases lo m´s homog´neas posibles. a e Se considera una red de n neuronas, que representan a los individuos a clasificar, totalmente conectada,tal que los estados son binarios y cuyos pesos sin´pticos ωji representan las disimilitudes. Las salidas sj adenotan la asignaci´n de clases de los objetos. Siendo a un vector de dimensi´n n se considera la funci´n o o ode energ´ H = −1/2 j,i ωji sj si − k sk ak que es minimizada usando el sobrecalentamiento simulado. ıaSi f es una funci´n sigmoide, se hace sj = f ( i ωji si + aj ). Al principio del algoritmo se puede forzar el oprimer ejemplo a pertenecer a la primera clase, si se toma a = (a1 , 0, . . . , 0)T , con a1 muy grande respectoa las disimilitudes.6.3.4. Clasificaci´n usando el modelo de Kohonen o Similar al modelo anterior, este modelo [33] consiste en escoger la neurona que tenga la respuesta m´s afuerte, ante la presencia de un est´ ımulo. Dados los xi que forman el vector x, se procede como sigue:1) encontrar c tal que x − ωc = m´ j=1,...,n x − ωj donde ωj = (ωj1 , . . . , ωjn )T son los pesos de las ınneuronas que se conectan hacia la neurona j; si j ∈ Vc ⇒ sj = 12) seg´n el vecindario Vc alrededor de c, calcular: u si j ∈ Vc ⇒ sj = 03) actualizar los pesos: ωji (t + 1) = ωji (t) + k(t)[xi − ωji (t)],donde k(t) = 0 si i ∈ Vc y k(t) = 0 si i ∈ Vc . El vecindario Vc es un conjunto de neuronas “cercanas” a c, seg´n alguna medida de proximidad uestablecida; este radio ir´ disminuyendo conforme avancen las iteraciones. a6.4. Clasificaci´n probabil´ o ıstica Varios autores han estudiado el marco general probabil´ ıstico de la clasificaci´n, considerando variables oaleatorias cualesquiera definidas sobre muestras de una poblaci´n. Los datos pueden ser vectores aleatorios oX1 , . . . , Xn ∈ Rp o disimilitudes aleatorias (Dij ). Por ejemplo, se puede tomar Xi ∼ Np (µk , σ 2 Ip ) parai ∈ Ck . H.-H. Bock [10] propone una serie de modelos, entre los que destaca el modelo de partici´n fija delotipo nubes din´micas, con par´metros o n´cleos a estimar, en el espacio continuo (caso del m´todo de las a a u ek-medias). TAmbi´n se proponen m´todos en los se estiman hiperplanos de separaci´n, con estimaci´n e e o otipo proyecci´n ‘pursuit’, clasificaci´n tipo regresi´n log´ o o o ıstica para parejas de datos binarios y explica-tivos, m´todos log-lineales para clasificaci´n de m´xima verosimilitud en la descomposici´n de tablas de e o a ocontingencia, modelos de mezclas de probabilidad y clasificaci´n difusa. o
  • 31. ´modelos de clasificacion 317. Validaci´n de Resultados o7.1. Descripci´n de una partici´n o o Si se aplica un m´todo de particionamiento que minimice la inercia intra-clases W o que maximice la einercia inter-clases B, se puede usar una serie de ´ ındices que describir la partici´n obtenida y as´ juzgar o ısobre la calidad de la misma e interpretar los resultados a la luz de los datos originales.7.1.1. Indice global Para medir la calidad global de la partici´n P , se usa el cociente R(P ) = B(P )/I, donde I es la oinercia total y B la inercia inter-clases. Entonces, si R es cercano a 1 se dir´ que la clasificaci´n es buena a oy si R es cercano a 0, se dir´ que es mala. Este ´ a ındice permite comparar dos clasificaciones de Ω en unmismo n´mero de clases. u7.1.2. Contribuci´n global de cada variable o var{¯j ,...,¯j } x1 xK La contribuci´n de una variable xj a la partici´n P ser´ dada por el ´ o o a ındice cor(j) = var(xj )donde xj es el valor promedio de xj en la clase Ck . Este ´ ¯k ındice corresponde al cociente de correlaci´n oη que mide la asociaci´n entre xj y la variable cualitativa que describe a la partici´n; adem´s mide el o o apoder discriminante de xj : si cor(j) R entonces la variable j contribuye m´s que el promedio de las aotras variables a la inercia.7.1.3. Descripci´n de las clases o Para cada clase Ck , se compara la variaci´n de las p variables dentro de la clase respecto a la variaci´n o oglobal, esto es con: p var{¯1 , . . . , xp } xk ¯k 1 Bk = y Wk = (xij − xj )2 ¯k B j=1 n xi ∈Ckdonde xij es el valor de la variable j sobre el objeto i . Bk mide la posici´n de Ck respecto a g, si Bk es grande es porque Ck es una clase m´s exc´ntrica que o a elas dem´s. Por su parte, Wk mide la concentraci´n de Ck , as´ si Wk es peque˜o es porque Ck est´ bastante a o ı n aconcentrado. Estas medidas Bk y Wk se pueden ver como las contribuciones de la clase Ck a B y W ,respectivamente, en el caso en que la m´trica M sea una matriz diagonal. e7.1.4. Descripci´n de las clases por variable o Para medir la capacidad de la variable xj para describir a la clase Ck , se usa el ´ ındice µk (¯j − xj )2 xk ¯ cor(j, k) = var(xj )que compara la variaci´n de xj sobre la clase respecto a la variaci´n total. As´ si cor(j, k) es grande es o o ı,porque xj es homog´nea sobre Ck . e7.2. N´ mero de clases u No existe un criterio uniforme para determinar el n´mero de clases en particionamiento ni para el ucorte de un ´rbol jer´rquico. Sin embargo, es com´n usar el m´todo del codo en ambos casos. En un a a u em´todo jer´rquico, ´ste consiste consiste en la graficaci´n del nivel del ´rbol versus el n´mero de clases, e a e o a uy se sugiere cortar el ´rbol cuando hay una estabilizaci´n de los valores. Si wn−1 , . . . , w2 son las inercias a o(caso del criterio de Ward) de cada nivel de la jerarqu´ y si ∆wk = wk − wk−1 el cambio de inercia del ıa
  • 32. 32 Javier Trejosnivel hk−1 al nivel hk , entonces el m´todo del codo sugiere tomar el nivel k ∗ que maximiza ∆wk /∆wk−1 , epara k ∈ {2, . . . , n − 1}. Hay autores que sugieren tomar simplemente el k que maximiza ∆wk , pero sinmayor formalismo. k∗ Jambu [29] propone elegir el nivel k ∗ tal que k=1 wk ≥ γ, donde I es la inercia total de la tabla Ide datos y γ es un valor fijo, que representa un porcentaje de varianza acumulada a partir del nivel m´s aalto. Mojena propone seleccionar el primer nivel k del ´rbol tal que wk w + tσw , donde w y σw es el a ¯ ¯promedio y la desviaci´n est´ndar de w1 , . . . , wn−1 ; Mojena sugiere tomar t entre 2.75 y 3.5, mientras o aque Miligan Cooper proponen t = 1,25. En el caso de particionamiento, tambi´n se hace un gr´fico para varias corridas del m´todo tom´ndose e a e ala mejor soluci´n, y se grafica este valor versus el n´mero de clases, aplicando un criterio del codo. Ahora o ubien, en los m´todos de particionamiento, por obtener ´ptimos locales del criterio, se suele hacer muchas e ocorridas del m´todo antes de escoger la mejor soluc´n. Incluso, se puede estudiar la independencia de e oesas corridas de la partici´n inicial (por ejemplo, estudio de las formas fuertes [19]). o Hartigan [27] propone el siguiente test, bajo la hip´tesis de normalidad, para determinar el n´mero o ude clases: ∗ W (PK ) F (K) = (n − K − 1) ∗ ∼ Fisher(1, n − K − 1) W (PK+1 )donde la hip´tesis nula es que se tienen K clases. o En el caso de la clasificaci´n difusa, se estudia el grado de difusidad de una partici´n, por ejemplo o o KF ”−1 n uxi ˜con el ´ ındice N (F ”) = K−1 , donde 2F ” = i=1 n + m´ xi {˜xi }, y uxi = m´x{˜i1 , ui2 , . . . , uiK }. ın u ˜ a u ˜ ˜ Si las clases (C1 , . . . , CK ) est´n muy separadas entonces uxi ≈ 1, con lo que F ” ≈ 1 y entonces a ˜ 1 1N (F ”) ≈ 1. El peor caso es si m´x uik ≈ K ya que se tendr´ F ” ≈ K y N (F ”) ≈ 0. El m´ xi uxi a ˜ ıa ın ˜evidencia el grado de traslape o separaci´n entre las clases. o7.3. Pruebas de hip´tesis o Existen diversas pruebas de hip´tesis para determinar cu´les son las variables significativas para una o apartici´n P = (C1 , . . . , CK ) dada en K clases. o ¯Caso continuo Se compara Xk la media de una variable X en la clase Ck con la media general X y se ¯ 2 mide la desviaci´n teniendo en cuenta la varianza Sk (X) de esta variable en la clase. El valor test o es la cantidad ¯ X −X ¯ n − nk s2 (X) tk (X) = con s2 (X) = k sk (X) n − 1 nk donde s(X) es la desviaci´n est´ndar emp´ o a ırica de X. Bajop la hip´tesis nula de un tiraje al azar o ¯ ¯ sin reposici´n de los nk individuos de la clase Ck , la variable Xk tiene media X y varianza te´rica o o 2 sk (X). Se ve que tk (X) ∼ N (0, 1) y que este test se puede hacer solo para una variable que no haya participado en el an´lisis (es decir, una variable suplementaria), para satisfacer la independencia a entre la variable y la partici´n P . Entre mayor sea el valor test (menor es la probabilidad), m´s o a discutible es la hip´tesis de que los n valores de X sean extra´ o ıdos al azar entre los valores posibles. Ahora bien, los valores test siempre se pueden usar sobre las variables activas para ordenarlas con respecto a la caracterizac´n de cada clase. o nCaso discreto Se compara las proporciones nkj (el n´mero de individuos que tienen la modalidad j k u n entre los individuos de la clase Ck , sobre el total de individuos de Ck ) con nj (el n´mero de u elementos que poseen la modalidad j entre el total de individuos). La hip´tesis nula ser´ que los nk o ıa individuos de la clase Ck son extra´ ıdos al azar sin reposici´n entre la poblaci´n de los n individuos, o o por lo que deber´ tenerse nkj /nk ≈ nj /n. El n´mero N de objetos de Ck que tienen la modalidad ıa u j es una variable aleatoria que sigue una ley hipergeom´trica con par´metros (nj , nk , n). Se calcula e a entonces la probabilidad pk (j) = Prob(N ≥ nkj ), entre menor sea pk (j), m´s dif´ de aceptar es la a ıcil hip´tesis de un tiraje al azar. Se usa esta probabilidad para ordenar las modalidades caracter´ o ısticas de una clase (la m´s caracter´ a ıstica es aqu´lla que tiene menor probabilidad). e
  • 33. ´modelos de clasificacion 33Referencias [1] Adorf F., Murtagh F. (1988) “Clustering based on neural network processing”, en: Compstat’88, IASC, Physica–Verlag, Heidelberg. [2] Anderberg, M.R. (1973) Cluster Analysis for Applications. Academic Press, New York. [3] Batbedat, A. (1990) Les Approches Pyramidales dans la Classification Arobor´e. Masson, Paris. e [4] Barth´lemy, J.P.; Gu´noche, A. (1988) Les Arbres et la Repr´sentation des Proximit´s. Masson, Par´ e e e e ıs. [5] Benz´cri, J.-P. (1965) Probl`mes et m´thodes de la taxinomie. Cours ISUP, Paris – Rennes. e e e [6] Benz´cri, J.-P. y colaboradores (1982) L’Analyse des Donn´es. Tomo I: La Taxinomie, Tomo II: Correspon- e e dances. 4a. edici´n. Dunod, Par´ o ıs. [7] Benz´cri, J.P. (1985) “D´monstration de l’´quivalence des r´sultats des algorithmes acc´l´r´s ` ceux de e e e e ee e a l’algorithme de base en CAH”, Les Cahiers de l’Analyse de Donn´es, Vol. X, No.3 e [8] Bertrand, P.; Diday, E. (1990) “Une g´n´ralisation des arbres hi´rarchiques: les repr´sentations pyramidales”, e e e e Revue de Statistique Appliqu´e XXXVIII (3): 53–78. e [9] Bezdek, J.C. (1981) Pattern Recognition with Fuzzy Objetive Function Algorithms. New York, London.[10] Bock, H.-H. (1974) Automatische Klassifikation. Vandenhoeck Ruprecht, G¨ttingen. o[11] Brossier, G. (1986) Probl`mes de Representation par des Arbres. Th`se de Doctorat, Universit´ de Haute e e e Bretagne.[12] Cailliez, F.; Pag`s, J.P. (1976) Introduction ` l’Analyse des Donn´es. SMASH, Par´ e a e ıs.[13] Castillo, W. (1989) “M´todos y resultados en clasificaci´n autom´tica”, Revista de Ciencia y Tecnolog´ e o a ıa, XIII (1–2): 105–116.[14] Castillo, W.; Trejos, J. (2002) “Two-mode partitioning: review of methods and application of tabu search”, in Classification, Clustering, and Data Analysis, K. Jajuga et al. (eds.), Springer, Berlin: 43–51.[15] Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H.(1989) Classification Automatique des Donn´es: Environnement Informatique et Statistique. Dunod, Par´ e ıs.[16] Chandon, J.L.; Pinson, S. (1981) Analyse Typologique: Th´orie et Applications. Masson, Par´ e ıs.[17] Diday, E.(1972) “Optimisation en classification automatique et reconnaissance des formes”, Note Scientifique IRIA No. 6.[18] Diday, E. et coll. (1980) Optimisation en Classification Automatique. INRIA, Le Chesnay.[19] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) El´ments d’Analyse des Donn´es. Dunod, Par´ e e ıs.[20] Diday, E. (1986) “Une repr´sentation visuelle des classes empi´tantes: les pyramides”, R.A.I.R.O.–APII e e 20(5): 475–526.[21] Dubes, R.; Jain, A.K. (1980) “Clustering methodologies in exploratory data analysis”, Advances in Comput- ers, Vol. 19, pp. 113–228.[22] Everitt, B.S. (1993) Cluster Analysis. 3a edici´n. Edward Arnold, London. o[23] Fisher, W.D. (1958) “On grouping for maximum homogeneity”, J. Amer. Stat. Assoc. 53.[24] Forgy, E.W. (1965) “Cluster analysis of multivariate data: efficiency versus interpretability of classifications”, Biometrics 21.[25] Govaert, G. (1975) Classification automatique et distances adaptatives. Th´se de Doctorat de 3`me cycle, e e Universti´ Paris VI. e
  • 34. 34 Javier Trejos[26] Govaert, G. (1983) Classification Crois´e. Th`se de Doctorat `s Sciences, Universit´ Paris VI. e e e e[27] Hartigan (1974) Clustering Algorithms. John Wiley Sons, Nueva York.[28] Jambu M. (1978) Classification Automatique pour l’Analyse des Donn´es. Tomo 1. Dunod, Par´ e ıs.[29] Jambu M. (1989) Exploration Informatique et Statistique des Donn´es. Dunod, Par´ e ıs.[30] Jardine, N.; Sibson, R. (1971) Mathematical Taxonomy. John Wiley Sons, New York.[31] Johnson, S.C. (1967) “Hierarchical clustering schemes”, Psychometrika 32(3).[32] Kauffman, A.; Roosseeuw, P. (1990) Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley Sons, New York.[33] Kohonen, T. (1984) Self-Organization and Associative Memory. (2a edici´n), Springer–Verlag, Berlin. o[34] Lance, G.N.; Williams, W.T. (1967) “A general theory of classification sorting strategies. I. Hierarchical systems”, Computer Journal 9(4); “II. Clustering systems”, Computer Journal 10(3).[35] Lerman, I.C. (1981) Classification et Analyse Ordinale des Donn´es. Dunod, Par´ e ıs.[36] Libert, G.; Roubens, M. (1983) “New experimental results in cluster validity of fuzzy clustering algorithms”, in New Trends in Data Analysis and Applications, J. Janssen, J.-F. Marcotorchino, J.-M. Proth (eds.), Elsevier Science Publ. B. V. (North–Holland), Amsterdam, 205–217.[37] McQueen, J.B. (1967) “Some methods for classification and analysis of multivariate observations”, Proc. 5th Berkeley Symposium on Math. Statistics and Probability, Vol. 1.[38] Os, B.J. van (2000) Dynamic Programming for Partitioning in Multivariate Data Analysis. Universal Press, Leiden University.[39] Pao, Y.H. (1989) Adaptive Pattern Recognition and Neural Nets. Addison-Wesley, Reading, Mass.[40] Piza E. (1988) “Clasificaci´n autom´tica jer´rquica aglomerativa” Revista de Ciencias Econ´micas, VII(1): o a a o 95–111.[41] R´gnier, S. (1965) “Sur quelques aspects math´matiques des probl`mes de classification automatique”, ICC e e e Bulletin 4 Math. Sci. Hum 82 (1983).[42] Rizzi, A. (1982) Analisi dei Gruppi. La Goliardica, Roma.[43] Roux M. (1985) Algorithmes de Classification. Masson, Par´ ıs.[44] Roux, M. (1985) “Repr´sentation d’une distance par un arbre aux arˆtes aditives”, Journ´es d’Analyse des e e e Donn´es et Informatique, INRIA, Versailles. e[45] Rumelhart, D. E.; McClelland, J. L., editores (1986) Parallel distributed processing. Vol. 1: Foundations. Vol. 2: Exploration in the microstructure of cognition. The MIT Press, Cambridge, Massachussets.[46] Schektman, Y. (1978) Estad´ ıstica descriptiva (an´lisis lineal de datos multidimensionales, I parte. En: Memo- a rias I Simposio M´todos Matem´ticos Aplicados a las Ciencias, J. Badia, Y. Schektman y J. Poltronieri (eds.), e a Universidad de Costa Rica, San Pedro: 9–67.[47] Sokal, R.R.; Sneath, P.H. (1963) Principles of Numerical Taxonomy. W. H. Freeman Co., San Francisco.[48] Trejos, J. (2003) Clasificaci´n Autom´tica: M´todos para el An´lisis de Grupos. Notas de curso, Universidad o a e a de Costa Rica, San Jos´.e[49] Trejos, J. (1995) “Presentaci´n de las redes neuronales: aplicaciones al an´lisis de datos”, en Memorias VII o a y VIII Simposio M´todos Matem´ticos Aplicados a las Ciencias, W. Castillo y J. Trejos (eds.), Editorial de e a la Universidad de Costa Rica, San Pedro, pp.: 117–148.[50] Trejos, J. (2003) “M´todos modernos de optimizaci´n en clasificaci´n por particiones”, XVIII Foro Nacional e o o de Estad´ıstica, Asociaci´n Mexicana de Estad´ o ıstica.

×