UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERS Verónic...
CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)
INTRODUCCION <ul><li>Es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferen...
Análisis de clusters Jerárquicos No jerárquicos Distancias y  similaridades Métodos jerárquicos aglomerativos divisivos AB...
MÉTODOS JERÁRQUICOS
DISTANCIA Y SIMILARIDADES <ul><li>Objetivo : hallar clusters de casos similares. </li></ul><ul><li>Medir las similitudes o...
<ul><li>Cumpla las siguientes propiedades </li></ul><ul><li>D(i,j) >= 0, </li></ul><ul><li>D(i,i) = 0, </li></ul><ul><li>D...
<ul><li>Tal que: </li></ul><ul><li>0 <=s(i,j)<=1, </li></ul><ul><li>1=s(i,j)>=s(i,j), </li></ul><ul><li>S(i,j)=s(j,i), </l...
<ul><li>Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de dis...
<ul><li>Distancia de Minkowsky (q >=1) </li></ul><ul><li>q=2  distancia euclidea </li></ul><ul><li>q=1  distancia ciudad...
<ul><li>Distancia Mahalanobis: </li></ul><ul><li>Datos provienen de una o varias poblaciones con matrices de varianzas-cov...
EJEMPLO <ul><li>Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vect...
<ul><li>Distancia Minkowsky para q=1 y q=3 </li></ul><ul><li>Con q=1: </li></ul><ul><li>Con q=3: </li></ul><ul><li>Distanc...
<ul><li>Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianz...
 
Similaridades para variables binarias <ul><li>(0,1) es mas facil calcular similaridades y luego transformarlas a distancia...
Definición de similaridades en base  a,b,c,d <ul><li>Similaridad de Sokal-Michener </li></ul><ul><li>Similaridad de Jaccar...
EJEMPLO:  supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1...
<ul><li>Coeficiente de similaridad </li></ul><ul><li>Distancia con transformacion de gower: </li></ul>
Similaridad para variables mixtas <ul><li>Si tenemos n1 variables cuanttativas,n2 binarias, y n3 cualitativas (n=n1+n2+n3)...
EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien n...
Calcular rango:  X1   max=54.1 min=49.8 R1=54.1-49.8=4.3 X2   max 4.6 min= 2.6 R2=4.6-2.6=2 X3y x4  (2,7) a=1, d=0 X5 y...
MÉTODOS JERÁRQUICOS <ul><li>Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters </li></u...
<ul><li>Metodos aglomerativos:  los nuevos clusters se crean uniendo clusters </li></ul><ul><ul><li>Ventaja </li></ul></ul...
<ul><li>Dendograma:  son diagramas bidimensional es utilizados para representar  clasificaciones jerárquicas </li></ul><ul...
Algoritmo básico de clasificación (ABC) <ul><li>Cada caso formara un cluster </li></ul><ul><li>P0={{1}….{m}} </li></ul><ul...
EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre  Ω={1,2,3,4,5} calculemos cual es la jerarquia indexada...
 
DENDOGRAMA
Algoritmo de clasificación (AC) <ul><li>Cada caso formara un cluster </li></ul><ul><li>P0={{1}….{m}} </li></ul><ul><li>Sup...
MÉTODO DEL MÍNIMO <ul><li>La distancia entre dos clústeres    mínima de las distancias entre los casos de cada clúster </...
PASOS <ul><li>Cada caso forma un clúster </li></ul><ul><li>Los casos i, j más cercanos </li></ul><ul><li>Formamos el clúst...
<ul><li>Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster{3,4} rehacer distancia </li></...
<ul><li>Jerarquía aglomerada indexada </li></ul>
MÉTODO DEL MÁXIMO <ul><li>Este método es conocido como Complete Linkage o “vecino más lejano”, . </li></ul><ul><li>La dist...
EJEMPLO <ul><li>Inicialmente la partición es: {{1}, {2},{3},{4},{5} y los casos más próximos son 1 y 2  </li></ul><ul><li>...
… EJEMPLO <ul><li>Cálculo para sacar el máximo </li></ul><ul><li>Por lo tanto se unen {1,2} con {3,4} </li></ul>DENDOGRAMA
MÉTODO DE WARD <ul><li>Se calculan las distancias como medida de similitud entre los objetos.  </li></ul><ul><li>El objeti...
EJEMPLO <ul><li>Hay 6 casos con dos variables </li></ul><ul><li>Cada caso forma un clúster </li></ul>P0={{1},{2},{3},{4},{...
… EJEMPLO <ul><li>Luego la pérdida mínima se obtiene uniendo {1} y {3} </li></ul><ul><li>Por lo tanto:  </li></ul><ul><li>...
… EJEMPLO <ul><li>Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades: </li></ul><ul><li>Calcula...
… EJEMPLO <ul><li>Quedando como perdida mínima de heterogeneidad uniendo los clúster {4} y {5,6} con un valor de 2,21. </l...
APLICACIONES DE LOS MÉTODOS JERÁRQUICOS <ul><li>LOS COCHES Y SUS DIFERENTES GAMAS </li></ul><ul><li>Las características co...
EJEMPLO:  Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994) Ciclo anual...
---EJEMPLO <ul><li>Se utilizaron datos mensuales de 100 estaciones pluviométricas en Uruguay en el período 1933-1978. </li...
---EJEMPLO <ul><li>Para ello, primero se obtuvo la matriz de anomalías, es decir que se calculó el ciclo anual promedio de...
---EJEMPLO <ul><li>Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la mu...
<ul><li>Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallan...
GRACIAS!!
Upcoming SlideShare
Loading in …5
×

ANÁLISIS DE CLUSTERS (CLUSTERING)

23,371 views

Published on

Trata sobre los principales métodos jerarquicos para la agrupación de datos (cluster)

3 Comments
4 Likes
Statistics
Notes
  • uis... sí perdón.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Creo que el comentario era para la siguiente presentación
    http://www.slideshare.net/rfsolano/programacin-paralela
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • La presentación está muy bien, faltan algunos detalles como montar el recurso /mirror en los esclavos con un entrada en el /etc/fstab, o como añadir la clave pública en el authorized_keys de los esclavos. Por lo demás es una muy buena introducción y puesta en marcha de un cluster con MPICH. Felicidades!
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
23,371
On SlideShare
0
From Embeds
0
Number of Embeds
238
Actions
Shares
0
Downloads
584
Comments
3
Likes
4
Embeds 0
No embeds

No notes for slide
  • ANÁLISIS DE CLUSTERS (CLUSTERING)

    1. 1. UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERS Verónica Ramírez Raquel Solano
    2. 2. CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)
    3. 3. INTRODUCCION <ul><li>Es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características </li></ul><ul><li>Jerárquicos: la pertenencia a un grupo (Cluster) en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior (matriz de distancia o similaridad) </li></ul><ul><ul><li>Aglomerativos </li></ul></ul><ul><ul><li>Divisivos </li></ul></ul><ul><li>No Jerárquicos: obtienen una única partición de los datos mediante la optimización de alguna función adecuada (matriz de datos) </li></ul>
    4. 4. Análisis de clusters Jerárquicos No jerárquicos Distancias y similaridades Métodos jerárquicos aglomerativos divisivos ABC AC mínimo máximo K-medias
    5. 5. MÉTODOS JERÁRQUICOS
    6. 6. DISTANCIA Y SIMILARIDADES <ul><li>Objetivo : hallar clusters de casos similares. </li></ul><ul><li>Medir las similitudes o las distancias que hay entre los casos. </li></ul><ul><li>Definición: una distancia sobre un conjunto Ω es una función de: </li></ul><ul><li>d: Ω* Ω  R </li></ul><ul><li>(i,j)  d(i,j)=dij </li></ul>
    7. 7. <ul><li>Cumpla las siguientes propiedades </li></ul><ul><li>D(i,j) >= 0, </li></ul><ul><li>D(i,i) = 0, </li></ul><ul><li>D(i,j) = d(j,i), </li></ul><ul><li>Similaridad </li></ul><ul><li>Definición: una similaridad sobre un conjunto Ω es una funcion s: </li></ul><ul><li>s: Ω* Ω  R </li></ul><ul><li>(i,j)  s(i,j)=sij </li></ul>
    8. 8. <ul><li>Tal que: </li></ul><ul><li>0 <=s(i,j)<=1, </li></ul><ul><li>1=s(i,j)>=s(i,j), </li></ul><ul><li>S(i,j)=s(j,i), </li></ul><ul><li>Transformación de Gower: </li></ul><ul><li>Distancia complemento: </li></ul><ul><li>La raiz del complemento del cuadrado: </li></ul>
    9. 9. <ul><li>Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de distancias y similaridades. </li></ul><ul><li>Distancia Euclidea </li></ul>Distancias para variables continuas
    10. 10. <ul><li>Distancia de Minkowsky (q >=1) </li></ul><ul><li>q=2  distancia euclidea </li></ul><ul><li>q=1  distancia ciudad </li></ul><ul><li>Distancia Valor Absoluto </li></ul>q=1  Minkowsky
    11. 11. <ul><li>Distancia Mahalanobis: </li></ul><ul><li>Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas </li></ul>
    12. 12. EJEMPLO <ul><li>Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)` </li></ul><ul><li>Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)` </li></ul>
    13. 13. <ul><li>Distancia Minkowsky para q=1 y q=3 </li></ul><ul><li>Con q=1: </li></ul><ul><li>Con q=3: </li></ul><ul><li>Distancia del Valor absoluto: </li></ul>
    14. 14. <ul><li>Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianzas dada por: </li></ul><ul><li>Distancia de Mahalanobis entre x,y: </li></ul>
    15. 16. Similaridades para variables binarias <ul><li>(0,1) es mas facil calcular similaridades y luego transformarlas a distancias </li></ul><ul><li>0  característica en estudio no esta presente </li></ul><ul><li>1  presencia de característica </li></ul>Caso i 1 0 1 Caso j 0 a b c d a+b c+d a+c b+d n
    16. 17. Definición de similaridades en base a,b,c,d <ul><li>Similaridad de Sokal-Michener </li></ul><ul><li>Similaridad de Jaccard </li></ul>
    17. 18. EJEMPLO: supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1,0,1,1,1,1,0,1) <ul><li>Calcular tabla de coincidencias </li></ul>Caso i 1 0 1 Caso j 0 <ul><li>3 </li></ul><ul><li>1 3 </li></ul>6 4 4 6 10
    18. 19. <ul><li>Coeficiente de similaridad </li></ul><ul><li>Distancia con transformacion de gower: </li></ul>
    19. 20. Similaridad para variables mixtas <ul><li>Si tenemos n1 variables cuanttativas,n2 binarias, y n3 cualitativas (n=n1+n2+n3) </li></ul><ul><li>La distancia gower : </li></ul>
    20. 21. EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien nacidos <ul><li>X1:altura(cm) </li></ul><ul><li>X2: peso(kg) </li></ul><ul><li>X3: sexo(1: niña, 0: niño) </li></ul><ul><li>X4:tiempo gestacion(1:mas de 35 sem, 0: menos de 35 sem). </li></ul><ul><li>X5: grupos sanguineo(1:0,2:A,3:B,4:AB) </li></ul><ul><li>X6: raza(1:blanca,2:negra,3:otros). </li></ul><ul><li>Calcular la distancia de gower entre los casos 2 y 7 la distancia entre x2=(50,2,2,9,0,1,1,1)`y x7=(52,3,3,7,1,1,1,2)` </li></ul>continuas binarias cualitativas
    21. 22. Calcular rango: X1  max=54.1 min=49.8 R1=54.1-49.8=4.3 X2  max 4.6 min= 2.6 R2=4.6-2.6=2 X3y x4  (2,7) a=1, d=0 X5 y x6  α =1 coincidencia sobre(2,7) Caso X1 X2 X3 X4 X5 X6 1 52.5 3.8 1 1 1 1 2 50.2 2.9 0 1 1 1 3 53.4 4.2 0 1 3 2 4 49.8 2.8 0 0 1 1 5 53.4 3.9 1 1 2 2 6 54.1 4.6 0 1 1 1 7 52.3 3.7 1 1 1 2 8 53.8 3.9 0 1 4 1 9 50.7 2.6 1 0 2 1 10 51.6 3.5 1 1 1 3
    22. 23. MÉTODOS JERÁRQUICOS <ul><li>Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters </li></ul><ul><li>Ejemplo: </li></ul>
    23. 24. <ul><li>Metodos aglomerativos: los nuevos clusters se crean uniendo clusters </li></ul><ul><ul><li>Ventaja </li></ul></ul><ul><ul><ul><li>Rapidez </li></ul></ul></ul><ul><ul><ul><li>Son los mas habituales </li></ul></ul></ul><ul><li>Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos) </li></ul><ul><ul><li>Ventaja </li></ul></ul><ul><ul><ul><li>Parten de la información global que hay en los datos </li></ul></ul></ul><ul><ul><ul><li>El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster </li></ul></ul></ul>
    24. 25. <ul><li>Dendograma: son diagramas bidimensional es utilizados para representar clasificaciones jerárquicas </li></ul><ul><li>Muestra como ha sido el proceso de unión o división de los clusters </li></ul>divisivo Aglomerativo
    25. 26. Algoritmo básico de clasificación (ABC) <ul><li>Cada caso formara un cluster </li></ul><ul><li>P0={{1}….{m}} </li></ul><ul><li>Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster ({i}U{j}={i,j}) y se actualizara la matriz </li></ul><ul><li>u`(k,{i,j})=u(k,i) </li></ul><ul><li> =u(k,j) </li></ul><ul><li>Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster </li></ul>
    26. 27. EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre Ω={1,2,3,4,5} calculemos cual es la jerarquia indexada que nos da el algoritmo ABC
    27. 29. DENDOGRAMA
    28. 30. Algoritmo de clasificación (AC) <ul><li>Cada caso formara un cluster </li></ul><ul><li>P0={{1}….{m}} </li></ul><ul><li>Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster ({i}U{j}={i,j}) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j) </li></ul><ul><li>d`(l,{i,j})= f(d(l,i),d(l,j), l <>i,j </li></ul><ul><li>Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster </li></ul>
    29. 31. MÉTODO DEL MÍNIMO <ul><li>La distancia entre dos clústeres  mínima de las distancias entre los casos de cada clúster </li></ul><ul><li>Ejemplo: S upongamos que tenemos la siguiente matriz de distancias D definida sobre Ω={1,..5} calcular cual es la jerarquía indexada de método del mínimo. </li></ul>
    30. 32. PASOS <ul><li>Cada caso forma un clúster </li></ul><ul><li>Los casos i, j más cercanos </li></ul><ul><li>Formamos el clúster {1,2} </li></ul><ul><li>Definimos la distancias de un caso al nuevo clúster </li></ul>Matriz de distancias
    31. 33. <ul><li>Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster{3,4} rehacer distancia </li></ul><ul><li>Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d({1,2},{3,4}) nuevo cluster{1,2,3,4} rehacer matriz </li></ul>
    32. 34. <ul><li>Jerarquía aglomerada indexada </li></ul>
    33. 35. MÉTODO DEL MÁXIMO <ul><li>Este método es conocido como Complete Linkage o “vecino más lejano”, . </li></ul><ul><li>La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster. </li></ul>
    34. 36. EJEMPLO <ul><li>Inicialmente la partición es: {{1}, {2},{3},{4},{5} y los casos más próximos son 1 y 2 </li></ul><ul><li>La nueva matriz de distancia es: </li></ul><ul><li>Los casos 3 y 4 forman la siguiente matriz </li></ul>
    35. 37. … EJEMPLO <ul><li>Cálculo para sacar el máximo </li></ul><ul><li>Por lo tanto se unen {1,2} con {3,4} </li></ul>DENDOGRAMA
    36. 38. MÉTODO DE WARD <ul><li>Se calculan las distancias como medida de similitud entre los objetos. </li></ul><ul><li>El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible. </li></ul><ul><li>El proceso termina cuando todos los casos forman un único clúster. </li></ul>Mide heterogeneidad Suma distancias Vector de medias
    37. 39. EJEMPLO <ul><li>Hay 6 casos con dos variables </li></ul><ul><li>Cada caso forma un clúster </li></ul>P0={{1},{2},{3},{4},{5},{6}} Perdida mínima de heterogeneidad P1={{1},{2},{3},{4},{5,6}}
    38. 40. … EJEMPLO <ul><li>Luego la pérdida mínima se obtiene uniendo {1} y {3} </li></ul><ul><li>Por lo tanto: </li></ul><ul><li>Se calcula el centro de {1,3} </li></ul>P2={{1,3},{2},{4},{5,6}} La siguiente perdida mínima de heterogeneidad al unir {1,3} y {2} es: P3={{1,2,3},{4},{5,6}}
    39. 41. … EJEMPLO <ul><li>Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades: </li></ul><ul><li>Calculando cada uno de los centros y la pérdida mínima queda: </li></ul>
    40. 42. … EJEMPLO <ul><li>Quedando como perdida mínima de heterogeneidad uniendo los clúster {4} y {5,6} con un valor de 2,21. </li></ul>P4={{1,2,3},{4,5,6}}
    41. 43. APLICACIONES DE LOS MÉTODOS JERÁRQUICOS <ul><li>LOS COCHES Y SUS DIFERENTES GAMAS </li></ul><ul><li>Las características consideradas en el estudio son: </li></ul><ul><li>Consumo: millas por galón </li></ul><ul><li>Numero de cilindros </li></ul><ul><li>Cilindrada del motor: pulgadas públicas </li></ul><ul><li>Potencia: caballos de vapor </li></ul><ul><li>Peso: libras </li></ul><ul><li>Tiempo de aceleración: de 0 hasta 60 millas por hora </li></ul>
    42. 44. EJEMPLO: Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994) Ciclo anual Rivera 1914-1997 Ciclo anual Melo 1914-1997
    43. 45. ---EJEMPLO <ul><li>Se utilizaron datos mensuales de 100 estaciones pluviométricas en Uruguay en el período 1933-1978. </li></ul><ul><li>Cada estación se caracterizó por su ciclo anual promedio en ese período (un vector de R 12 para cada estación). </li></ul><ul><li>Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 variables.) </li></ul><ul><li>Se realizó una partición de Uruguay según el área de influencia de cada estación. </li></ul><ul><li>Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional. </li></ul>
    44. 46. ---EJEMPLO <ul><li>Para ello, primero se obtuvo la matriz de anomalías, es decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una. </li></ul><ul><li>Las series no fueron normalizadas ya que era de interés tanto la forma del ciclo anual como su intensidad. </li></ul><ul><li>Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100). </li></ul><ul><li>Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total (ver figuras) </li></ul><ul><li>Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno. </li></ul><ul><li>Se utilizó el método de agrupamientos aglomerativos nucleados . </li></ul>
    45. 47. ---EJEMPLO <ul><li>Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales) </li></ul><ul><li>Se determinó a priori en 4 el número de clusters finales. </li></ul><ul><li>Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final) </li></ul>
    46. 48. <ul><li>Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters. </li></ul><ul><li>Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos. </li></ul><ul><li>Los ciclos anuales medios para cada una de las 4 regiones (ver figura) muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos. </li></ul>Correlaciones entre los ciclos anuales medios de las 4 regiones
    47. 49. GRACIAS!!

    ×