CURSO                                   Modelos de Clasificaci´n                                                        o  ...
2                                                                                         Javier Trejos1.    Introducci´n ...
´modelos de clasificacion                                                                                    32.       Med...
4                                                                                                 Javier Trejos      el ´ ...
´modelos de clasificacion                                                                                     5donde sx , ...
6                                                                                                      Javier Trejosde la ...
´modelos de clasificacion                                                                                             72.3...
8                                                                                          Javier Trejos     i) δ(A, A) = ...
´modelos de clasificacion                                                                                 93.     Clasifica...
10                                                                                             Javier Trejosentre los indi...
´modelos de clasificacion                                                                                113.2.1.   Ejempl...
12                                                                                                  Javier Trejos         ...
´modelos de clasificacion                                                                                        133.2.2. ...
14                                                                                          Javier Trejos                 ...
´modelos de clasificacion                                                                                             15  ...
16                                                                                       Javier Trejos4.     Clasificaci´n ...
´modelos de clasificacion                                                                                         17sup´ng...
18                                                                                          Javier Trejos4.3.1.     M´todo...
´modelos de clasificacion                                                                                    194.3.3.    M...
20                                                                                                   Javier Trejos 4.   Se...
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Modelos de clasificación
Upcoming SlideShare
Loading in …5
×

Modelos de clasificación

671 views

Published on

Published in: Education, Technology, Sports
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
671
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Modelos de clasificación

  1. 1. CURSO Modelos de Clasificaci´n o Javier Trejos Zelaya CIMPA, Universidad de Costa Rica, E-Mail: jtrejos@cariari.ucr.ac.cr´Indice1. Introducci´n o 22. Medidas de Semejanza 3 2.1. Distancias y disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Similitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3. Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53. Clasificaci´n Jer´rquica o a 9 3.1. Jerarqu´ . . . . . . . . . . . . . . . . . . . . ıas . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2. Clasificaci´n jer´rquica ascendente . . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.3. Algoritmos ascendentes acelerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.4. Aproximaciones por ultram´tricas . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.5. Clasificaci´n jer´rquica descendente . . . . . o a . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.6. Observaciones sobre la clasificaci´n jer´rquica o a . . . . . . . . . . . . . . . . . . . . . . . . . 154. Clasificaci´n por Particiones o 16 4.1. Problema combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2. Criterio de la inercia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3. M´todo de k-medias . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.4. M´todos de nubes din´micas . e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.5. M´todo de Fisher . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.6. Uso de heur´ ısticas modernas de optimizaci´n o . . . . . . . . . . . . . . . . . . . . . . . . . 225. M´todos Arb´reos No Jer´rquicos e o a 23 5.1. Arboles aditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.2. Pir´mides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 246. Otros M´todos e 25 6.1. Clasificaci´n o bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 6.2. Clasificaci´n o difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.3. Clasificaci´n o neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.4. Clasificaci´n o probabil´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307. Validaci´n de Resultados o 31 7.1. Descripci´n de una partici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o 31 7.2. N´mero de clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u 31 7.3. Pruebas de hip´tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 32 1
  2. 2. 2 Javier Trejos1. Introducci´n o La clasificaci´n autom´tica tiene por objetivo reconocer grupos de individuos homog´neos, de tal o a eforma que los grupos queden bien separados y bien diferenciados. Estos individuos pueden estar descritospor una tabla de datos de individuos por variables, con variables cuantitativas o cualitativas, o por unatabla de proximidades. Lo que se entiende por individuos homog´neos es que los individuos que pertenezcan a un mismo egrupo tengan, ya sea caracter´ ısticas iguales o similares en el caso de que sean descritos por una tablacon variables, o bien que est´n pr´ximos unos de otros en el caso de que sean descritos por una tabla de e oproximidades. Es decir, dos individuos de una misma clase deben parecerse m´s entre s´ que parecerse a a ı,un individuo de otra clase. La clasificaci´n autom´tica tambi´n es conocida bajo otros nombres, como por ejemplo an´lisis de o a e agrupos, an´lisis tipol´gico, an´lisis de conglomerados, an´lisis de agrupaciones (en ingl´s, se usa normal- a o a a emente el t´rmino cluster analysis). Nosotros preferimos el t´rmino de clasificaci´n autom´tica porque el e e o aobjetivo es buscar una clasificaci´n (o varias clasificaciones, seg´n sea el m´todo usado) de los individuos o u eu objetos a agrupar, y como esta clasificaci´n es desconocida a priori, el m´todo debe hacer la clasi- o eficaci´n autom´ticamente sin que intervenga ning´n agente externo. Contrariamente, la discriminaci´n o a u otrata de clasificar a los individuos en grupos dados a priori, por lo que la clasificaci´n no es autom´tica o asino supervisada (se trata de que la regla de asignaci´n a los grupos dados minimice los posibles errores oa clases incorrectas). Existe gran cantidad de m´todos de clasificaci´n autom´tica, entre los que podemos distinguir los e o asiguientes: los m´todos jer´rquicos, que buscan una serie de particiones encajadas de tal manera que puedan e a representarse mediante un ´rbol; a los m´todos piramidales, que como los jer´rquicos buscan particiones encajadas, pero que permiten e a a una clase de nivel inferior estar contenida en dos clases de nivel superior; los m´todos de particionamiento, que buscan una sola partici´n del conjunto de individuos; e o los m´todos de clasificaci´n no exclusiva, que buscan grupos en los datos de tal manera que un e o individuo pueda pertenecer a varios grupos al mismo tiempo; los m´todos de clasificaci´n difusa, que buscan grupos homog´neos de individuos pero que dan e o e el grado de pertenencia difusa (en el intervalo [0, 1]) de cada individuo a cada clase; los m´todos de clasificaci´n cruzada, que tratan de hacer la clasificaci´n simult´neamente sobre e o o a dos conjuntos de individuos (o uno de individuos y uno de variables). En este curso veremos inicialmente los m´todos m´s usados, que son los jer´rquicos y los de parti- e a acionamiento. As´ abordaremos los m´todos llamados de clasificaci´n jer´rquica ascendente y los de nubes ı, e o adin´micas, por ser los m´s populares y f´ciles de usar. Tanto los m´todos jer´rquicos como algunos del a a a e atipo nubes din´micas est´n implementados en la mayor´ de los paquetes estad´ a a ıa ısticos.
  3. 3. ´modelos de clasificacion 32. Medidas de Semejanza Los m´todos de clasificaci´n autom´tica usan ampliamente el concepto de similitud o disimilitud entre e o alos individuos. Por lo tanto, en un primer momento abordaremos este tema antes de pasar a describir losm´todos de clasificaci´n propiamente dichos. A lo largo del cap´ e o ıtulo denotaremos con Ω al conjunto deindividuos a clasificar, y supondremos que posee n elementos.2.1. Distancias y disimilitudes Las similitudes y disimilitudes son los conceptos b´sicos que nos permitir´n determinar si dos indi- a aviduos u objetos son parecidos o diferentes. La similitud tiene el sentido de medir cu´n similares son dos aindividuos, por lo tanto entre mayor sea su valor mayor ser´ el parecido entre los individuos, y entre m´s a acercano a cero menor ser´ este parecido. La disimilitud, por el contrario, mide cu´n diferentes son dos a aindividuos, como es el caso de las distancias que todos conocemos; por lo tanto entre m´s cercana a cero asea la disimilitud menos diferentes ser´n los individuos (es decir, es m´s posible que pertenezcan a una a amisma clase) y entre mayor sea ´sta m´s diferentes ser´n. e a a2.2. Similitudes Una similitud es una funci´n s : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω, se tiene s(i, i) = m´x{s(i, j)/j ∈ Ω}; a 2. para cada i, j ∈ Ω, hay simetr´ s(i, j) = s(j, i). ıa: Con s´lo estos dos requisitos se pueden construir funciones que den una idea de la similitud entre indi- oviduos. Ahora bien, la definici´n de una similitud depender´ de c´mo es la descripci´n de los individuos, o a o oes decir, qu´ tipo de variables son las que los describen. e2.2.1. Caso de variables binarias Un caso frecuente para usar similitudes es cuando los individuos est´n descritos por variables binarias, aes decir, variables de presencia-ausencia que toman s´lo los valores 0 y 1 dependiendo de si el individuo opresenta o no la variable. Si un individuo tiene un valor de 1 en la variable se dice que “posee el atributo”,que describe esa variable. Por ejemplo, podemos considerar que la variable: “el estudiante posee beca”,es una variable binaria, o bien “el estudiante es repitente”. En biolog´ tambi´n aparecen con frecuencia ıa eeste tipo de variables, como por ejemplo: “el animal posee alas”, o bien “la planta est´ presente en la aparcela”. En este contexto, dados dos individuos i y j en Ω, antes de medir su similitud se pueden contar lossiguientes elementos: pij : es el n´mero de atributos que poseen al mismo tiempo tanto i como j u qij : es el n´mero de atributos que presenta s´lo uno de los dos u o p: es el n´mero total de atributos (n´mero de variables). u u Existe una serie de ´ ındice de similitud basados en los elementos anteriores. Daremos a continuaci´nosolamente los dos ´ındices m´s usados, dejando para la consulta de abundantes referencias los otros ´ a ındices[12, 15, 16, 19, 28, 29, 22, 27, 48, 40]. Los ´ ındices de similitud m´s usados para datos binarios son: a el ´ ındice de Jaccard: pij s(i, j) = pij + qij
  4. 4. 4 Javier Trejos el ´ ındice de Russel y Rao: pij s(i, j) = p Obs´rvese que, cuando los individuos i y j coinciden en todos sus atributos, el ´ e ındice de Jaccard alcanzasu valor m´ximo que es 1, mientras que el de Russel y Rao alcanza como valor m´ximo el cociente entre a ael n´mero de atributos que coinciden y p. S´lo en el caso en que tanto i como j posean todos los atributos u oel valor del ´ ındice de Russel y Rao ser´ 1. aEjemplo 1 Sup´ngase que se tienen 6 individuos a, b, c, d, e, f descritos por 4 variables binarias v 1 ,v 2 ,v 3 ,v 4 . oLos datos son: v1 v2 v3 v4 a 1 0 1 1 b 0 1 1 1 c 0 0 0 0 d 1 0 1 1 e 0 1 0 0 f 1 1 1 1 Al calcular el n´mero de atributos para los que coinciden (con presencia) las parejas de individuos o upara los que son diferentes, se obtienen los valores de pij y qij dados a continuaci´n: o pij b c d e f qij b c d e f a 2 0 3 0 3 a 2 3 0 4 1 b 0 2 1 3 b 3 2 2 1 c 0 0 0 c 3 1 4 d 0 3 d 4 1 e 1 e 3 Al calcular los ´ndices de Jaccard y de Russel & Rao, se obtiene: ı Jaccard Russel&Rao s(i, j) a b c d e f s(i, j) a b c d e f a 1 0,5 0 1 0 0,75 a 1 0,5 0 0,75 0 0,75 b 1 0 0,5 0,33 0,75 b 1 0 0,5 0,25 0,75 c 1 0 0 0 c 1 0 0 0 d 1 0 0,75 d 1 0 0,75 e 1 0,25 e 1 0,25 f 1 f 1 En la tabla de datos original se puede ver que los individuos a y d coinciden en todos sus valores.El valor de 1 para s(i, j) calculado con el ´ndice de Jaccard refleja este hecho, lo cual no se aprecia con ıel ´ndice de Russel & Rao. por otra parte, el individuo a es el opuesto de e, el valor de 0 para s(i, j) ıcalculado con ambos ´ndices refleja este hecho. ı2.2.2. Similitudes entre variables Generalmente, cualquier ´ındice de asociaci´n entre variables sirve como similitud entre variables. As´ o ı,para parejas de variables cuantitativas x, y observadas sobre n objetos, se tiene el coeficiente de correlaci´n olineal n ¯ ¯ (xi − x)(yi − y) r(x, y) = i=1 sx sy
  5. 5. ´modelos de clasificacion 5donde sx , sy son las desviaciones est´ndar de x y y, respectivamente. En general, cualquier ´ a ındice de cor-relaci´n servir´ como similitud entre variables, s´lo se debe tener cuidado con la manera de normalizarlo o ıa opara su uso en clasificaci´n. Por ejemplo, para el caso del coeficiente de correlaci´n lineal se suele usar o o d(x, y) = 1 − |r(x, y)| ındice de disimilitud, en el caso de tomar como fuerte asociaci´n el caso r(x, y) ≈ −1, o biencomo ´ o d(x, y) = 2 − r(x, y)en el caso contrario. Para parejas de variables cualitativas x, y observadas sobre n objetos y con p, q modalidades respec-tivamente, se suele tomar el ´ ındice de asociaci´n de chi-cuadrado como similitud o p q 1 (nnjk − nj· n·k )2 χ2 (x, y) = j=1 k=1 n nj· n·kdonde njk es la frecuencia en la tabla de contingencia que resulta de cruzar x y y, y nj· , n·k son losm´rgenes. Ahora bien, el ´ a ındice de χ2 tiene el inconveniente de no estar normalizado y no permitecomparar ´ ındices para modalidades observadas sobre distinto n´mero de objetos, ni con diferente n´mero u ude modalidades. Por ello, se suele usar m´s bien el ´ a ındice T 2 de Chuprov, normalizado en el intervalo[0, 1]: χ2 (x, y) T 2 (x, y) = . n(p − 1)(q − 1)2.3. Disimilitudes Una disimilitud es una funci´n d : Ω × Ω −→ R+ tal que: o 1. para cada i ∈ Ω se tiene d(i, i) = 0 2. para cada i, j ∈ Ω, hay simetr´ d(i, j) = d(j, i) ıa: Si a la definici´n anterior uno le a˜ade: o n 3. d(i, j) = 0 ⇔ i = j 4. la desigualdad triangular: para cada i, j, k ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)entonces la disimilitud es lo que llamamos una distancia.2.3.1. Caso cuantitativo La disimilitud m´s usada es la distancia eucl´ a ıdea cl´sica: a p d(i, j) = (xk − xk )2 i j k=1 Recu´rdese de lo estudiado en el cap´ e ıtulo 2 que una distancia eucl´ ıdea puede ser definida a partirde una m´trica, esto es, de una matriz sim´trica definida y positiva M . En tal caso, se podr´ poner e e ıad2 (i, j) = ||xi − xj ||M = (xi − xj )t M (xi − xj ). As´ la distancia eucl´ ı, ıdea cl´sica coincide con el caso en aque se usa como m´trica la identidad de orden p. e El uso de la distancia cl´sica tiene sentido cuando las variables observadas sobre los individuos son acuantitativas, pues en este caso tienen sentido las operaciones expresadas en la f´rmula de la distancia. Hay oque mencionar que esta distancia tiene un inconveniente si se usa sin precauci´n: debido a que cada t´rmino o e
  6. 6. 6 Javier Trejosde la sumatoria es elevado al cuadrado, la distancia eucl´ ıdea tiene tendencia a magnificar las grandesdiferencias entre las observaciones, por lo que si hay un dato aberrante este comportamiento at´ ıpicose traducir´ en un valor muy grande dela distancia. Por ello, antes de cualquier an´lisis multivariado, a asiempre se recomienda hacer un estudio univariado de cada variable; en particular una caja de dispersi´n odeber´ indicar la presencia de valores aberrantes y as´ el analista puede tomar las medidas necesarias. ıa ı Algunos autores prefieren usar una distancia como la siguiente, llamada “city-block”1 : p d(i, j) = |xk − xk | i j k=1 Otra distancia usada en ocasiones, es la llamada distancia de Chebychev: d(i, j) = m´x{|xk − xk |/k = 1, . . . , p} a i jEjemplo 2 Sup´ngase que se tiene 4 individuos a, b, c, d descritos por 5 variables v 1 , v 2 , v 3 , v 4 , v 5 , seg´n o use muestra en la tabla siguiente: v1 , v2 v3 v4 v5 a 2 3,5 0 4 7 b 4 3 1,5 5 6 c 0 6 4 2 3 d 3 3 1 4 77 El c´lculo de las distancias eucl´dea cl´sica, city-block y de Chebichev son: a ı a Eucl´dea ı City-block d(i, j) a b c d d(i, j) a b c d a 0 2,915 6,801 70,02 a 0 6 14,5 72,5 b 0 7,018 71,02 b 0 15,5 73,5 c 0 74,21 c 0 85 d 0 d 0 Chebychev d(i, j) a b c d a 0 2 4 70 b 0 4 71 c 0 74 d 0 De los cuatro individuos de la tabla de datos, se puede apreciar que a y b tienen valores muy parecidospara las cinco variables, y su cercan´a es reflejadapor el bajo valor de las distancias. Por su parte, d ıtambi´n tiene valores cercanos a a y b en las cuatro primeras variables, aunque para la quinta tenga una egran diferencia; si se supone que esta gran diferencia es debida a un valor “aberrante”, como por ejemplodebido a un error de un digitador a la hora de pasar los datos del papel a la computadora (sup´ngase que oel dato real era 7 y no 77, como aparece en la tabla), entonces puede apreciarse que las tres distanciasmostradas son muy sensibles a los valores de estos casos at´picos. ı 1 Este nombre proviene del hecho que para medir la distancia entre dos puntos de una ciudad como el centro de San Jo´e, sdonde las calles y avenidas son paralelas y se cruzan perpendicularmente entre s´ hay que medir las distancias recorriendo ı,las calles pasando por las esquinas, y no en l´ ınea recta
  7. 7. ´modelos de clasificacion 72.3.2. Caso binario Se puede definir una disimilitud facilmente a partir de una similitud en el caso de tener variablesbinarias. Por ejemplo, considerando una similitud s cuyo valor m´ximo sea 1, entonces se define d(i, j) = a1 − s(i, j). As´ se definen la disimilitud de Jaccard: ı, qij d(i, j) = 1 − pij + qijusando las notaciones de la secci´n 2.2.1, y la disimilitud de Russel & Rao: o p − pij d(i, j) = pEjemplo 3 Usando los datos del ejemplo 1, tendr´amos los siguientes valores para las disimilitudes de ıJaccard y de Russel & Rao: Jaccard Russel&Rao d(i, j) a b c d e f d(i, j) a b c d e f a 0 0,5 1 0 1 0,25 a 0 0,5 1 0,25 1 0,25 b 0 1 0,5 0,66 0,25 b 0 1 0,5 0,75 0,25 c 0 1 1 1 c 0 1 1 1 d 0 1 0,25 d 0 1 0,25 e 0 0,75 e 0 0,75 f 0 f 02.3.3. Caso cualitativo Se podr´ plantear la medida de la disimilitud entre dos individuos descritos por p variables cualitati- ıavas, usando las definiciones de disimilitudes para datos binarios y la tabla de datos en forma disyuntivacompleta, esto es, con las indicatrices (0 y 1) de las modalidades de las variables cualitativas. En estecaso, se podr´ usar las disimilitudes de Jaccard y Russel & Rao vistas anteriormente. Sin embargo, lo ıanusual es usar adaptaciones especiales de las distancias eucl´ ıdeas, como la distancia eucl´ ıdea cl´sica y la adistancia de χ2 (chi-cuadrado). ıdea cl´sica entre dos individuos i y j descritos por p variables cualitativas x1 , x2 , . . . , xp La distancia eucl´ aes: p k d(i, j) = 2 δij k=1 k 1 si xk = xk i jdonde δij = . 0 si xk = xk i j La distancia de χ2 es: p 1 1 1 k d(i, j) = 2 + δij p k=1 s(xk ) s(xk ) i jdonde δij se define como antes y s(xk ) es el n´mero de veces que la modalidad xk est´ presente para la k i u i a kvariable x .2.3.4. Agregaciones Los m´todos de clasificaci´n autom´tica usan generalmente una noci´n de proximidad entre grupos e o a ode elementos, para medir la separaci´n entre las clases que se buscan. Para ellos, se introduce el concepto ode agregaci´n, que no es m´s que una disimilitud entre grupos de individuos: sean A, B ⊂ Ω, entonces la o aagregaci´n entre A y B es: o δ(A, B)tal que δ es una disimilitud en el conjunto de partes P(Ω):
  8. 8. 8 Javier Trejos i) δ(A, A) = 0 para todo A ∈ P(Ω) ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω) Usualmente, la medida de agregaci´n est´ basada en la disimilitud d medida sobre Ω. En efecto, o adenotando A yB dos subconjuntos de Ω, las agregaciones m´s usadas son: a 1. Agregaci´n del salto m´ o ınimo o del vecino m´s cercano: a δm´ (A, B) = m´ ın ın{d(a, b)|a ∈ A, b ∈ B} 2. Agregaci´n del salto m´ximo: o a δm´x (A, B) = m´x{d(a, b)|a ∈ A, b ∈ B} a a 3. Agregaci´n del salto promedio: o 1 δprom (A, B) = d(a, b) card(A) + card(B) a∈A b∈B En el caso cuantitativo se tiene adem´s: a 4. Agregaci´n de Ward: o card(A)card(B) δward (A, B) = ||g(A) − g(B)||2 = I(A ∪ B) − I(A) − I(B) card(A) + card(B) donde g(A) es el centro de gravedad del conjunto A, || · || es una norma eucl´ ıdea e I(A) es la inercia del conjunto A, es decir I(A) = xi ∈A pi ||xi − g(A)||2 . Esta agregaci´n, tambi´n llamada o e del incremento de la inercia, s´lo tiene sentido cuando se est´ en un contexto eucl´ o a ıdeo, es decir, cuando se dispone de variables cuantitativas. Existen otras agregaciones tambi´n citadas en la literatura, como por ejemplo la distancia entre los ecentros de gravedad o la inercia I(A ∪ B). Sin embargo, la mayor´ de ´stas tienen el defecto de producir ıa einversiones en el algoritmo de clasificaci´n jer´rquica ascendente que veremos en la siguiente secci´n. o a o
  9. 9. ´modelos de clasificacion 93. Clasificaci´n Jer´rquica o a3.1. Jerarqu´ ıas Generalmente, los m´todos de particionamiento –como los de nubes din´micas que presentaremos en e ael pr´ximo cap´ o ıtulo– encuentran en cada ejecuci´n una sola partici´n en un n´mero dado a priori de o o uclases. Ahora bien, este n´mero de clases puede no “representar” el n´mero real de clases que se forman u uen la configuraci´n de los datos. o Por ejemplo, consid´rese la siguiente configuraci´n de puntos en R2 : e o r r r r rr r r r r rr r rr r r r rr Puede apreciarse que de forma natural se forman 3 clases de individuos seg´n la cercan´ de los puntos. u ıaAhora bien, si el usuario no conoce esta configuraci´n (para efectos de simplificaci´n la hemos dado en dos o odimensiones, pero el lector puede pensar que se trata de una configuraci´n en muchas m´s dimensiones), o aentonces puede suceder que se trate de obtener clasificaciones en n´meros de clases diferentes de 3, por uejemplo en 2 clases o en 5 clases. Para paliar este problema, uno puede plantearse la posibilidad de crear clasificaciones para variosn´meros de clases al mismo tiempo, y escoger luego la que m´s conviene seg´n las necesidades. Una u a umanera de abordar este problema, es tratar de obtener un ´rbol jer´rquico de clasificaciones, tal como se a amuestra en la figura 1 para un conjunto Ω = {a, b, c, d, e}. a b c d e Figura 1: Ejemplo de ´rbol jer´rquico a a Una ´rbol jer´rquico tiene la ventaja de que es de f´cil interpretaci´n. En efecto, para el ´rbol de la a a a o afigura 1, se interpreta que los individuos m´s cercanos son los que se unen a un nivel m´s bajo del ´rbol, a a aesto es a y b. Enseguida, los dos individuos que siguen en similitud son d y e, luego el grupo {a, b} conel individuo c, y finalmente se obtiene el grupo total Ω. El procedimiento para construir el ´rbol jer´rquico, trata de encontrar los dos individuos m´s cercanos a a aen el sentido de la disimilitud d definida sobre Ω. Una vez que se han unido, se consideran las distancias
  10. 10. 10 Javier Trejosentre los individuos restantes, y entre ellos y el nuevo grupo formado. Para esto ultimo, necesitamos ´escoger una agregaci´n δ. o Un ´rbol jer´rquico representa lo que se conoce como una jerarqu´ a a ıa. Una jerarqu´ sobre Ω es un subconjunto H de P(Ω) tal que: ıa 1. Ω ∈ H, 2. ∀i ∈ Ω, {i} ∈ H, 3. ∀i, i ∈ H : h ∩ h = φ ⇒ h ⊂ h o h ⊂ h. Puede observarse que una jerarqu´ tiene asociado un ´rbol, llamado ´rbol jer´rquico, donde cada ıa a a anodo del ´rbol es un elemento de H y las hojas del ´rbol son los elementos de Ω. Adem´s, el ´rbol tiene a a a auna ra´ que es Ω mismo. Si este ´rbol es binario se dice que la jerarqu´ es binaria. ız a ıa La clasificaci´n jer´rquica consiste en construir una jerarqu´ sobre Ω, de tal forma que los individuos o a ıam´s parecidos formen nodos, y los grupos de individuos m´s similares tambi´n formen nodos. a a e Se puede asociar un ´ındice f a la jerarqu´ tal que: ıa, 1. f (h) ≥ 0, 2. ∀i ∈ Ω : f ({i}) = 0, 3. ∀h, h ∈ H : h ⊂ h ⇒ f (h) ≤ f (h ).Se dice entonces que (H, f ) es una jerarqu´ indexada. ıa Pueden consultarse las siguientes referencias como una introducci´n a estos conceptos: [6, pp. 119–138, otomo 1], [12, pp. 544–558], [19, pp. 74–76], [28, pp. 105–108]. De las referencias anteriores, quiz´s la m´s a aaccesible sea [19].3.2. Clasificaci´n jer´rquica ascendente o a El algoritmo general de clasificaci´n jer´rquica ascendente (CJA) construye, en cada paso o auna partici´n en k clases, que denotaremos Pk , mediante la fusi´n de los dos conjuntos de la partici´n o o oanterior (Pk−1 en k − 1) clases que sean m´s cercanos en el sentido de δ. El algoritmo procede de la asiguiente manera: 1. k := 0; ∀i ∈ Ω, {i} ∈ H; Pk := {{i}|i ∈ Ω}; 2. k := k + 1 ; 3. escoger h1 , h2 ∈ Pk tales que δ(h1 , h2 ) sea m´ ınimo; sea h := h1 ∪h2 ; sea Pk := (Pk−1 ∪{h})−{h1 , h2 }; sea H := H ∪ {h}; 4. calcular f (h) y δ(h, h ), para todo h ∈ H; 5. mientras k < n − 1 ir al paso 2; 6. H = H ∪ Ω; El H obtenido es la jerarqu´ deseada. Se define un ´ ıa ındice f , como una funci´n f : H −→ R+ definida opor: 0 si h es un conjunto unitario f (h) = δ(h1 , h2 ) si h1 , h2 se fusionaron en el algoritmo para formar hEsta indexaci´n hace que el ´rbol de clasificaci´n sea m´s f´cilmente interpretable, pues da la idea de la o a o a aaltura de los nodos del ´rbol: entre m´s bajos sean los nodos m´s parecidos son los objetos que est´n a a a adebajo del nodo.
  11. 11. ´modelos de clasificacion 113.2.1. Ejemplos did´cticos aEjemplo 4 Sup´ngase que se tiene los siguientes valores de una disimilitud sobre Ω = {a, b, c, d}: o a b c d a 0 1 3 5,5 b 0 2 4,5 c 0 2,5 d 0 Puede verse que el m´nimo de la disimilitud se alcanza para la disimilitud entre a y b, cuyo valor es ı1. Por lo tanto, se agregan estos dos individuos y al usar la agregaci´n del salto m´nimo δm´ se obtiene o ı ınla nueva tabla: {a, b} c d {a, b} 0 2 4,5 c 0 2,5 d 0 Ahora, el m´nimo valor es para δ({a, b}, c) = 2, por lo ı que se fusionan {a, b} y c, obteni´ndose la enueva tabla: {a, b, c} d {a, b, c} 0 2,5 d 0De esta forma, se obtiene el ´rbol jer´rquico que se muestra en la figura 2. a a 3 2 1 a b c d Figura 2: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto m´ o o ınimoEjemplo 5 En caso de usarse la agregaci´n del salto m´ximo δm´x sobre los datos anteriores, se obten- o a adr´an sucesivamente las dos tablas siguientes: ı {a, b} c d {a, b} {c, d} {a, b} 0 3 5,5 {a, b} 0 5,5 c 0 2,5 {c, d} 0 d 0 y el ´rbol de clasificaci´n ser´a el presentado en la figura 3. a o ı
  12. 12. 12 Javier Trejos 5 4 3 2 1 a b c d Figura 3: Arbol de clasificaci´n opbtenido al usar la agregaci´n del salto m´ximo o o aEjemplo 6 Por otra parte, si se usa la agregaci´n del salto promedio δprom sobre los datos anteriores, ose obtienen las tablas: {a, b} c d {a, b, c} d {a, b} 0 2,5 5 {a, b, c} 0 4,16 c 0 2,5 d 0 d 0Puede verse que en la primera tabla se alcanza el m´nimo para dos valores diferentes: δ({a, b}, c) = 2,5 = ıδ(c, d). Ante esta situaci´n, el usuario debe decidir cual de las dos posibles fusiones har´.2 Suponiendo o aque se fusionan {a, b} con c, se obtiene el siguiente ´rbol mostrado en la figura 4. a 4 3 2 1 a b c d Figura 4: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o o El lector puede comprobar que de haber escogido la fusi´n de c con d al ´rbol de clasificaci´n hubiera o a otenido una forma diferente. 2 En los programas de computaci´n, normalmente se decide autom´ticamente cual fusi´n se har´; por ejemplo, se sugiere o a o ahacer aqu´lla que involucre al menor ´ e ındice de individuo.
  13. 13. ´modelos de clasificacion 133.2.2. F´rmula de recurrencia o Seg´n los ejemplos mostrados anteriormente, puede apreciarse que luego de cada fusi´n deben calcu- u olarse algunos valores de la agregaci´n: aqu´llos que involucran al grupo reci´n creado, y que adem´s se o e e asuprime de la tabla a los elementos individuales que se fusionaron. Se acuerdo con la definici´n de los o´ındices de agregaci´n dados, todos ellos se calculan a partir de la tabla original de las disimilitudes, y no oa partir de la tabla reci´n calculada. Para evitar hacer referencia siempre a la tabla original, y hacer este ec´lculo de actualizaci´n solamente a partir de la ultima tabla de que se dispone, es que se han encontrado a o ´f´rmulas de recurrencia o actualizaci´n de las agregaciones. Estas f´rmulas son especialmente utiles para o o o ´las agregaciones del salto promedio y la de Ward. Si denotamos a y b los dos elementos que se fusionanen una etapa, y h cualquier otro elemento, entonces las f´rmulas de actualizaci´n para δprom y δward son: o o card(a)δprom (h, a) + card(b)δprom (h, b) δprom (h, a ∪ b) = card(a) + card(b) (card(h) + card(a))δward (h, a) + (card(h) + card(b))δward (h, b) − card(h)δward (a, b) δward (h, a ∪ b) = card(a) + card(b)donde card(a), card(b), card(h) son respectivamente las cardinalidades de a, b y h.Ejemplo 7 Consid´rese la siguiente tabla con los valores de una disimilitud: e a b c d e a 0 25 18 25 10 b 0 30 40 34 c 0 10 15 d 0 18 e 0 Usando la agregaci´n del salto promedio δprom , se obtiene la secuencia de tablas: o a b {c, d} e {a, e} b {c, d} a 0 25 21,5 10 {a, c, d, e} b {a, e} 0 29,5 19 b 0 35 34 {a, c, d, e} 0 32,25 b 0 35 {c, d} 0 16,5 b 0 {c, d} 0 e 0y el ´rbol de clasificaci´n mostrado en la figura 5. a o3.2.3. Inversiones Se dice que una clasificaci´n jer´rquica produce una inversi´n cuando se construye h = a ∪ b con o a of (h) < f (a) ´ f (h) < f (b). Diday [19] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia o o opara que no se produzcan inversiones. Los cuatro ´ ındices de agregaci´n no producen inversiones como se opuede verificar sobre el teorema de Diday, pero hay otros ´ ındices que s´ pueden producir, como el de la ıdistancia entre centros de gravedad δ(a, b) = ||ga − gb ||2 .3.3. Algoritmos ascendentes acelerados A partir de la investigaciones de Bruynooghe, se estudian algoritmos m´s eficientes para construir las ajerarqu´ Existen dos enfoques, fundamentalmente: el de los vecindarios reducibles y el de los vecinos ıas.rec´ ıprocos. El primero establece que, dado un umbral r, cuando se cumple una propiedad llamada de vecindariosreducibles, en cada paso de la construcci´n jer´rquica ascendente, solamente se examinan los vecinos o a
  14. 14. 14 Javier Trejos 30 20 10 c d a e b Figura 5: Arbol de clasificaci´n obtenido al usar la agregaci´n del salto promedio o om´s cercanos de r de un grupo existente. Este criterio se puede encontrar en: [28, 171–194], [29, 368– a380], Adem´s, Diday [19, 91–96] di´ condiciones sobre los coeficientes de la f´rmula de recurrencia de a o olanza & Williams, para caracterizar a los ´ ındices de agregaci´n que cumplen la propiedad de vecindarios oreducibles. El segundo enfoque se debe a De Rham y se conoce como el principio de vecinos rec´ ıprocos: dos gruposa y b se llaman vecinos rec´ıprocos si a es el grupo m´s cercano de b y b el de a. La construcci´n jer´rquica a o aascendente se puede simplificar si se fusionan, desde un primer paso, todos los vecinos rec´ ıprocos. Una vezhechas estas fusiones, se calculan los vecinos rec´ ıprocos de los grupos formados y se recomienza, alternandoeste paso de fusi´n con el desarrollo normal del algoritmo de clasificaci´n jer´rquica ascendente. Puede o o aencontrarse una descripci´n del procedimiento en [15, 176–177]. o Existen demostraciones sobre la equivalencia de los resultados obtenidos con cualquiera de los dosenfoques acelerados anteriores y el algoritmo usual de clasificaci´n jer´rquica ascendente. o a3.3.1. Ejemplo de notas escolares Consideramos el ejemplo de notas escolares, en que 10 estudiantes son descritos por las notas entre 0y 10 obtenidas en 5 materias: matem´ticas, ciencias, historia, espa˜ol y educaci´n f´ a n o ısica. La clasificaci´n jer´rquica usando la agregaci´n de Ward con la distancia eucl´ o a o ıdea, da como resultado: Luc´ıa Mar´ ıa Carlos Andr´s e Luis Sonia Pedro In´s e Ana Jos´ e Puede verse que hay una clara clasificaci´n en tres clases, que es: o
  15. 15. ´modelos de clasificacion 15 C1 = {Luc´ ıa,Mar´ıa,Andr´s,Carlos}, e C2 = {Luis,Sonia}, C3 = {Pedro,In´s,Ana,Jos´}. e e Si se quiere hacer una clasificaci´n en dos clases, entonces se unen C1 y C2 . o El lector deseoso de consultar aplicaciones de la clasificaci´n jer´rquica, puede encontrar 13 aplica- o aciones en [6, pp. 321–538, tomo 1].3.4. Aproximaciones por ultram´tricas e Una propiedad esencial es que toda jeraqu´ indexada tiene asociada una ultram´trica y viceversa. ıa eLa demostraci´n de esta propiedad, llamada teorema de Johnson–Benz´cri, puede consultarse en: [6, pp. o e138–142, tomo 1], [19, pp. 98–102], [28, pp. 111–114], [48, pp. 14–15]. La propiedad anterior puede inducir a pensar que, para poder obtener un jerarqu´ basta con encontrar ıa,un ultram´trica δ “similar” a la disimilitud d definida sobre Ω. Esta idea fue seguida por autores como eM. Roux, que propuso un algoritmo que hace modificaciones sobre d con el fin de ir obteniendo poco apoco la ultram´trica deseada. De hecho, el supremo de las ultram´tricas inferiores a d es a su vez una e eultram´trica, llamada la ultram´trica subdominante. Esta ultram´trica puede ser obtenida mediante la e e econstrucci´n de un ´rbol de longitud m´ o a ınima sobre Ω3 , usando por ejemplo los algoritmos de Prim o deKruskal. Tambi´n Roux hab´ propuesto un algoritmo que examina todos los tripletes de elementos de Ω, e ıaconstruyendo cada vez un tri´ngulo is´sceles agudo (puede consultarse [12, pp. 568–569], [48, pp. 70–76]). a o3.5. Clasificaci´n jer´rquica descendente o a Debe notarse que la construcci´n de un ´rbol de clasificaci´n podr´ tambi´n hacerse descendente- o a o ıa emente. Los algoritmos descendentes parten de Ω y buscan particionar cada grupo de dos (hacen dico-tom´ ıas), hasta obtener los conjuntos unitarios formados por los individuos. Cada m´todo difiere en el ecriterio para hacer la dicotom´ Los m´todos m´s conocidos son los de Williams & Lambert, de Hubert, ıa. e ade Roux y de Edwards & Cavalli–Sforza. Presentaciones de ´stos se pueden encontrar en [27, pp. 251– e276], [43, pp. 85–92], [48, pp. 24–28]; con menos detalle hablan [6, pp. 85–92, tomo 1, sobre todo sobreun m´todo usado por Lacoste y basado en el An´lisis Factorial] [16, 126–127], [28, pp. 206–212], [22, pp. e a82–88].3.6. Observaciones sobre la clasificaci´n jer´rquica o a La clasificaci´n jer´rquica ascendente tiene dos defectos que ya hemos observado sobre los ejemplos y o asobre los que hay que insistir: En primer lugar, los resultados dependen de la agregaci´n que se escoja. Por ello, siempre se o recomienda al usuario que haga una reflexi´n antes de aplicar el m´todo, en el sentido de ensoger o e la agregaci´n que tenga un mejor sentido en el problema que se est´ tratando. o e En segundo lugar, en el caso en que haya igualdad en el valor de la agregaci´n para dos parejas o diferentes, se debe escoger la pareja que se fusionar´, escogencia que puede llevar a resultados a diferentes.Finalmente, se debe tomar en cuenta que la clasificaci´n jer´rquica aproxima siempre una tabla de datos o aa una ultram´trica, lo cual puede significar en una p´rdida grande al hacer un ajuste demasiado burdo. e e 3 Un a ´rbol de longitud m´ınima sobre un conjunto Ω es un ´rbol tal que las aristas tienen valores, todos los nodos son aelementos de Ω, y la suma de los valores de las aristas es m´ ınima entre todos los ´rboles con esas caracter´ a ısticas.
  16. 16. 16 Javier Trejos4. Clasificaci´n por Particiones o Los m´todos de clasificaci´n por particiones buscan una sola partici´n de Ω, mediante la optimizaci´n e o o ode alg´n criterio. Existen b´sicamente dos tipos de m´todos: u a e los que fijan a priori el n´mero de clases, u los que no fijan este n´mero. u Los primeros tienen la ventaja de la sencillez y rapidez, mientras que los segundos tienen la ventajaobvia de buscar el n´mero de clases. Sin embargo, estos ultimos tienen la gran desventaja de depender de u ´un gran n´mero de par´metros que deben ser estimados por el usuario y cuya manipulaci´n no es f´cil u a o asin una adecuada experimentaci´n y pr´ctica. Ejemplos de estos m´todos son Isodata y Wishart. o a e En este curso s´lo abordaremos los primeros m´todos, que se puede agrupar en un esquema llamado o ede Nubes Din´micas. a Los m´todos de nubes din´micas est´n basados en el principio que una clase puede ser representada por e a aalg´n objeto, sea ´ste un punto promedio, un individuo o grupo de individuos de la clase, un conjunto de u epar´metros, etc; a este representante lo llamaremos n´cleo. El primer algoritmo de este tipo fue propuesto a upor Forgy (1965), y luego fueron propuestos otros similares por McQueen, Diday, Jancey, etc. La idea subyacente es: asignar los individuos al n´cleo m´s cercano, u a calcular los n´cleos con las clases formadas en el paso anterior, u iterar los pasos anteriores hasta obtener estabilidad. Se parte de una configuraci´n inicial de n´cleos, y se puede probar que el m´todo converge a una o u epartici´n que no mejora el criterio. Dependiendo del contexto y del tipo de n´cleo, se define un criterio o ua ser mejorado.4.1. Problema combinatorio Es necesario hacer notar que, cuando se quiere obtener una partici´n en K clases de un conjunto con on individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en Kclases. En efecto, se est´ en presencia de un problema combinatorio muy complejo; s´lo para efectos de a oilustraci´n, mencionemos que el n´mero de particiones de un conjunto con 60 elementos en 2 clases es o uaproximadamente 1018 , y para 100 elementos en 5 clases anda por 1068 . De hecho, se puede probar que eln´mero S(n, K) de particiones diferentes de un conjunto de n individuos en K clases, cumple la ecuaci´n u ode recurrencia S(n, K) = S(n − 1, K − 1) + kS(n − 1, K)Esto lleva a que K 1 K S(n, K) = (−1)K−i in K! i i=1 De lo anterior se deduce la necesidad de contar con m´todos y algoritmos que den una soluci´n e osatisfactoria del problema propuesto, aunque evidentemente puede que no se obtenga la mejor soluci´n oen todos los casos.4.2. Criterio de la inercia Como se ha mencionado, se quiere obtener clases lo m´s homog´neas posibles y tal que est´n suficien- a e etemente separadas. Este objetivo se puede concretar num´ricamente a partir de la siguiente propiedad: e
  17. 17. ´modelos de clasificacion 17sup´ngase que se est´ en presencia de una partici´n P = (C1 , C2 , . . . , CK ) de Ω, donde g1 , g2 , . . . , gK son o a olos centros de gravedad de las clases: 1 gk = xi , n i∈Ckg es el centro de gravedad total: n 1 g= xi . n i=1 1 n 2Si se denota I = n i=1 xi − g la inercia total de la nube de puntos, K |Ck | B(P ) = ||gk − g||2 (1) n k=1la inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total,y K K 1 2 W (P ) = I(Ck ) = xi − gk (2) n k=1 k=1 i∈Ckla inercia intra-clases, es decir la inercia al interior de cada clase, entonces se tiene la igualdad de Fisher:I = B + W. Obs´rvese que B mide precisamente la “separaci´n” de la nube de puntos, al medir la e oinercia entre los centros de gravedad; si esta inercia es grande se deduce que los centros de gravedad est´n abastante separados (son dispersos). Por su parte, W mide la homogeneidad de las clases; en efecto, si Wes peque˜o entonces cada I(Ck ) es peque˜o y as´ la dispersi´n al interior de cada clase es peque˜a. n n ı o n Como la inercia I es fija, dada la nube de puntos, entonces al minimizar B se maximiza autom´ti- acamente W . Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separaci´n entre olas clases) se alcanzan al mismo tiempo al querer minimizar W . As´ el objetivo en el m´todo de nubes ı, edin´micas es encontrar una partici´n P de Ω y representantes de las clases, tales que W (P ) sea m´ a o ınima. Existen otros criterios de clasificaci´n, como por ejemplo det(W )/ det(B) → m´ o criterios de en- o ın,trop´ Sin embargo, remitimos al lector a [38] para m´s detalles en este aspecto. ıa. a4.3. M´todo de k-medias e Existe un poco de confusi´n en la literatura acerca del m´todo de las k-medias, ya que hay dos o em´todos distintos que son llamados con el mismo nombre. Originalmente, Forgy [24] propuso en 1965 un eprimer m´todo de reasignaci´n-recentraje que consiste b´sicamente en la iteraci´n sucesiva, hasta obtener e o a oconvergencia, de las dos operaciones siguientes: Representar una clase por su centro de gravedad, esto es, por su vector de promedios Asignar los objetos a la clase del centro de gravedad m´s cercano. aPoco despu´s, McQueen [37] propone un m´todo muy similar, donde tambi´n se representan las clases por e e esu centro de gravedad, y se examina cada individuo para asignarlo a la clase m´s cercana. La diferencia acon el m´todo de Forgy es que inmediatamente despu´s de asignar un individuo a una clase, el centro e ede ´sta es recalculado, mientras que Forgy primero hac´ todas las asignaciones y luego recalculaba los e ıacentros. Es claro que el m´todo de McQueen depende del orden en que se presenten los datos. Este m´todo e ede McQueen ya hab´ sido propuesto en Francia por S. R´gnier en 1965 [41], pero en el contexto de la ıa eb´squeda de una partici´n de consenso, llamada partici´n central. Variantes del m´todo de Forgy son u o o epropuestas en Francia como M´todo de Nubes Din´micas por E. Diday a partir de 1967 [17]. e a Es McQueen quien propone el nombre “k-means”, que se usa hasta la fecha, a´n si estos m´todos u etambi´n reciben nombres como nubes din´micas, centros m´viles, o reasignaci´n-recentraje. e a o o
  18. 18. 18 Javier Trejos4.3.1. M´todo de Forgy e Denotaremos Ω el conjunto de n individuos que queremos clasificar y supondremos que est´n descritos apor p variables cuantitativas x1 , x2 , . . . , xp . En el caso en que se est´ en presencia de variables cuantitativas, tiene sentido el c´lculo de promedios y a ade distancias eucl´ ıdeas. Por lo tanto, tambi´n tiene sentido que cada clase est´ representada por su centro e ede gravedad, esto es, por un individuo ficticio cuyas coordenadas son los valores promedio de las variablespara los individuos pertenecientes a la clase. Este es el caso m´s simple y el usado m´s corrientemente. a aGeneralemente, se usar´ la distancia eucl´ a ıdea cl´sica en este contexto. a Como se mencion´ anteriormente, el m´todo de las k-medias consiste en: o e 1. Escoger una partici´n inicial, al azar o con base en alg´n otro criterio. o u 2. Calcular los centros de gravedad de la partici´n. o 3. Asignar cada objeto a la clase del centro de gravedad m´s cercano. a 4. Repetir los pasos 2 y 3 mientras las clases en el paso 3 se modifiquen, esto es, hasta que se obtiene estabilidad en la partici´n. o Se prueba que efectivamente el m´todo alcanza la estabilidad despu´s de unas pocas iteraciones [19]. e e Conviene hacer notar que, en una implementaci´n computacional, la escogencia al azar es m´s bien de o auna muestra de K objetos iniciales que servir´n de n´cleos iniciales, y luego se asignan todos los dem´s a u aobjetos a la clase del n´cleo m´s cercano, form´ndose entonces la partici´n inicial. u a a o4.3.2. Ejemplo de las notas escolares El resultado de la aplicaci´n del m´todo de k-medias, depender´ de la escogencia inicial de los n´cleos. o e a uPor ello, se recomienda correr varias veces el m´todo y escoger la mejor soluci´n obtenida en esas corridas. e o Para la tabla de notas escolares, se aplic´ el paquete computacional PIMAD 25 veces, obteni´ndose o een 17 de ellas la soluci´n ´ptima (que corresponde a la misma obtenida por el m´todo jer´rquico con o o e aagregaci´n de Ward). La tabla siguiente muestra los resultados obtenidos: o Partici´n o N´mero de veces u W (P ) B(P ) obtenida C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa} 17 0.75 4.97 C2 = {Luis,Sonia} C3 = {Pedro,In´s,Ana,Jos´} e e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 3 2.48 3.24 C2 = {Pedro,In´s} e C3 = {Ana,Jos´} e C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 2 2.52 3.20 C2 = {In´s,Ana,Jos´} e e C3 = {Pedro} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Luis,Sonia} 1 2.55 3.17 C2 = {In´s,Ana} e C3 = {Pedro,Jos´}e C1 = {Luc´ıa,Andr´s,Carlos,Luis,Sonia} e 1 2.72 3.00 C2 = {Pedro,In´s} e C3 = {Ana,Jos´,Mar´ e ıa} C1 = {Luc´ıa,Andr´s,Carlos,Mar´ e ıa,Pedro,In´s,Ana,Jos´} e e 1 3.06 2.66 C2 = {Luis} C3 = {Sonia}
  19. 19. ´modelos de clasificacion 194.3.3. M´todo de transferencias e Un segundo tipo de m´todos de particionamiento son los algoritmos del tipo de transferencias, origi- enalmente propuestos por R´gnier y por McQueen. Consisten en hacer la transferencia entre una clase y eotra, de un unico elemento de Ω a la vez, haciendo mejorar alg´n criterio en cada iteraci´n. ´ u o El algoritmo general es como sigue (aqu´ W es un criterio general de clasificaci´n, no necesariamente ı ola inercia intra-clases): 1. Se da una partici´n inicial P = (C1 , C2 , . . . , Ck ) de Ω. o k 2. Se toma un elemento x ∈ Ω arbitrario, con x ∈ Ck . Llamamos Ck (x) la partici´n de Pk consistente o en transferir x de Ck hacia Ck en la partici´n P y dejar las dem´s clases iguales. o a 3. Sea P ∗ tal que W (P ∗ ) = m´ ın{W (Ck (x)) : k = 1, . . . , K}. Entonces ponemos P := P ∗ . k 4. Se repiten los pasos 2 y 3 para todos los elementos x ∈ Ω. 5. Se detiene cuando al aplicar 4 no ocurre ninguna nueva transferencia. En el caso Eucl´ ıdeo, se tiene n individuos descritos por p variables cuantitativos y Rp est´ provisto de auna distancia eucl´ıdea. Se busca la partici´n P = (C1 , . . . , CK ) de Ω que minimice la inercia inter-clases oW . Por tanto, al pasar x de Ck a Ck se debe minimizar k W (Ck (x)) = I(Ch ) + I(Ck {x}) + I(Ck ∪ {x}). h∈{k,k } / En el caso general, Ω es arbitrario, con d un ´ ındice de disimilitud sobre Ω. El criterio W que se definesobre la partici´n P toma en cuenta la relaci´n de equivalencia R asociada a P : o o W (P ) = sup{d(i, j) : iRj; i, j ∈ Ω}.Si se tiene P = (C1 , . . . , CK ), con x ∈ Ck , para transferir x a Ck es necesario que: sup{d(x, y) : y ∈ Ck } < sup{d(x, y) : y ∈ Ck }. Debe observarse que, al igual que en el m´todo de k-medias, aqu´ tambi´n la partici´n final P ∗ depende e ı e ode la partici´n inicial. As´ mismo, el n´mero K de clases es dado a priori. Sin embargo las clases tambi´n o ı u ese pueden vaciar en el transcurso del algoritmo. Igualmente, ese n´mero K puede no ser un n´mero u u“natural” de clases para Ω. Para dar las K clases iniciales en el caso eucl´ıdeo, tambi´n se puede usar el em´todo de Polos de Atracci´n [35]. e o4.4. M´todos de nubes din´micas e a Se quiere obtener una partici´n de Ω en K clases bien agregadas, bien separadas y de intersecci´n o ovac´ El n´mero K de clases es dado a priori y los datos pueden ser de cualquier naturaleza. ıa. u Este m´todo fue introducido por Diday [17], generalizando el m´todo de k-medias de Forgy. Se basa e een que cada clase debe tener una representaci´n (llamada n´cleo), y luego se hace una b´squeda iterada o u ude n´cleos y de particiones, hasta optimizar un cierto criterio. u En el m´todo general de nubes din´micas, cada clase estar´ representada por un n´cleo, que ser´ un e a a u aelemento representativo de los integrantes de la clase. El algoritmo general de Nubes Din´micas es el asiguiente: 1. Se da una partici´n inicial de Ω. o 2. Se calculan los n´cleos, mediante una funci´n de representaci´n. u o o 3. Se forma una partici´n, asignando cada elemento al n´cleo m´s pr´ximo, mediante una funci´n de o u a o o asignaci´n. o
  20. 20. 20 Javier Trejos 4. Se repiten los pasos 2 y 3 hasta que las clases se estabilicen. La escogencia de los n´cleos iniciales, se hace generalmente de manera aleatoria. En el caso general, use escoge K veces m elementos entre los individuos. Se usa un criterio aditivo del tipo K W (P ) = D(xi , Nk ) k=1 xi ∈Ckdonde Nk es el n´cleo de Ck (formado por m objetos) y D es una medida de disimilitud (por ejemplo, uuna agregaci´n) entre los objetos xi y los n´cleos Nk (que son conjuntos de objetos). El n´cleo Nk se o u udefine como el subconjunto de Ck con m elementos que minimice i∈Ck D(xi , Nk ). Se puede probar que [19] en cada iteraci´n se mejora W y adem´s se converge a una clase estable. o a Es claro que el m´todo de k-medias corresponde al m´todo de nubes din´micas cuando los n´cleos e e a uson centros de gravedad.4.4.1. Variantes del m´todo de nubes din´micas e a Existe una serie de variantes al m´todo de nubes din´micas. B´sicamente, para cada una de ellas e a ase debe definir el criterio a optimizar, los n´cleos (funci´n de representaci´n), y la forma de asignar u o oelementos a las clases (funci´n de asignaci´n). o oM´tricas adaptativas. El m´todo de k-medias tiene la tendencia de formar clases esf´ricas con mis- e e e ma cardinalidad. Por ello, no es util cuando se trata de identificar clases que tengan una misma ´ forma de dispersi´n, quiz´ no necesariamente esf´rica, pero con una o varias direcciones de pro- o a e longamiento (sobre un eje discriminante, por ejemplo). Por tanto, en este caso se quita la restricci´n o de que la medida de distancia sea la misma durante todo el algoritmo. M´s bien se trata de buscar a iterativamente la distancia que mejor se adapte a los datos. En presencia de objetos descritos por variables cuantitativas, el criterio es K 2 W (P ) = x i − gk M k=1 i∈Ck para el caso de una sola m´trica M , o bien e K 2 W (P ) = x i − gk Mk k=1 i∈Ck para el caso en que se tiene una m´trica Mk asociada a cada clase Ck . e En cada iteraci´n del algoritmo, se calcula no solo los centros de gravedad gk, sino tambi´n las o e m´tricas. En el primer caso M = det(V )1/p V −1 , donde V es la matriz de varianzas intra-clases, e mientras que en el segundo caso Mk = det(Vk )1/p Vk−1 , donde Vk es la matriz de varianzas intra- clases de clase Ck .Regresi´n tipol´gica. Se pretende detectar K comportamientos locales de regresi´n lineal y las rectas o o o asociadas, de manera que se minimice un criterio de adecuaci´n de las muestras con sus representa- o ciones lineales (criterio de m´ ınimos cuadrados ) [18]. La idea es dar una partici´n del espacio Ω de n individuos a los que se han medido m variables o explicativas X j , y una variable a explicar y, as´ como los hiperplanos de regresi´n asociados a cada ı o una de las clases de tal partici´n. o El n´cleo de una clase es el vector de coeficientes de regresi´n Bk = (b1 , . . . , bm )t asociados a la u o k k regresi´n en Ck . El criterio a minimizar es o K K nk k k W (P ) = Y −X Bk 2 nk R = (yi − xk bi ) k i k k=1 k=1 i=1

×