ANÁLISIS DE CLUSTERS (CLUSTERING)

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

3 comments

Comments 1 - 3 of 3 previous next Post a comment

  • + beldog beldog 6 months ago
    uis... sí perdón.
  • + rfsolano Raquel Solano 6 months ago
    Creo que el comentario era para la siguiente presentación
    http://www.slideshare.net/rfsolano/programacin-paralela
  • + beldog beldog 6 months ago
    La presentación está muy bien, faltan algunos detalles como montar el recurso /mirror en los esclavos con un entrada en el /etc/fstab, o como añadir la clave pública en el authorized_keys de los esclavos. Por lo demás es una muy buena introducción y puesta en marcha de un cluster con MPICH. Felicidades!
Post a comment
Embed Video
Edit your comment Cancel

Favorites, Groups & Events

ANÁLISIS DE CLUSTERS (CLUSTERING) - Presentation Transcript

  1. UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERS Verónica Ramírez Raquel Solano
  2. CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)
  3. INTRODUCCION
    • Es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características
    • Jerárquicos: la pertenencia a un grupo (Cluster) en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior (matriz de distancia o similaridad)
      • Aglomerativos
      • Divisivos
    • No Jerárquicos: obtienen una única partición de los datos mediante la optimización de alguna función adecuada (matriz de datos)
  4. Análisis de clusters Jerárquicos No jerárquicos Distancias y similaridades Métodos jerárquicos aglomerativos divisivos ABC AC mínimo máximo K-medias
  5. MÉTODOS JERÁRQUICOS
  6. DISTANCIA Y SIMILARIDADES
    • Objetivo : hallar clusters de casos similares.
    • Medir las similitudes o las distancias que hay entre los casos.
    • Definición: una distancia sobre un conjunto Ω es una función de:
    • d: Ω* Ω  R
    • (i,j)  d(i,j)=dij
    • Cumpla las siguientes propiedades
    • D(i,j) >= 0,
    • D(i,i) = 0,
    • D(i,j) = d(j,i),
    • Similaridad
    • Definición: una similaridad sobre un conjunto Ω es una funcion s:
    • s: Ω* Ω  R
    • (i,j)  s(i,j)=sij
    • Tal que:
    • 0 <=s(i,j)<=1,
    • 1=s(i,j)>=s(i,j),
    • S(i,j)=s(j,i),
    • Transformación de Gower:
    • Distancia complemento:
    • La raiz del complemento del cuadrado:
    • Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de distancias y similaridades.
    • Distancia Euclidea
    Distancias para variables continuas
    • Distancia de Minkowsky (q >=1)
    • q=2  distancia euclidea
    • q=1  distancia ciudad
    • Distancia Valor Absoluto
    q=1  Minkowsky
    • Distancia Mahalanobis:
    • Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas
  7. EJEMPLO
    • Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)`
    • Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`
    • Distancia Minkowsky para q=1 y q=3
    • Con q=1:
    • Con q=3:
    • Distancia del Valor absoluto:
    • Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianzas dada por:
    • Distancia de Mahalanobis entre x,y:
  8.  
  9. Similaridades para variables binarias
    • (0,1) es mas facil calcular similaridades y luego transformarlas a distancias
    • 0  característica en estudio no esta presente
    • 1  presencia de característica
    Caso i 1 0 1 Caso j 0 a b c d a+b c+d a+c b+d n
  10. Definición de similaridades en base a,b,c,d
    • Similaridad de Sokal-Michener
    • Similaridad de Jaccard
  11. EJEMPLO: supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1,0,1,1,1,1,0,1)
    • Calcular tabla de coincidencias
    Caso i 1 0 1 Caso j 0
    • 3
    • 1 3
    6 4 4 6 10
    • Coeficiente de similaridad
    • Distancia con transformacion de gower:
  12. Similaridad para variables mixtas
    • Si tenemos n1 variables cuanttativas,n2 binarias, y n3 cualitativas (n=n1+n2+n3)
    • La distancia gower :
  13. EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien nacidos
    • X1:altura(cm)
    • X2: peso(kg)
    • X3: sexo(1: niña, 0: niño)
    • X4:tiempo gestacion(1:mas de 35 sem, 0: menos de 35 sem).
    • X5: grupos sanguineo(1:0,2:A,3:B,4:AB)
    • X6: raza(1:blanca,2:negra,3:otros).
    • Calcular la distancia de gower entre los casos 2 y 7 la distancia entre x2=(50,2,2,9,0,1,1,1)`y x7=(52,3,3,7,1,1,1,2)`
    continuas binarias cualitativas
  14. Calcular rango: X1  max=54.1 min=49.8 R1=54.1-49.8=4.3 X2  max 4.6 min= 2.6 R2=4.6-2.6=2 X3y x4  (2,7) a=1, d=0 X5 y x6  α =1 coincidencia sobre(2,7) Caso X1 X2 X3 X4 X5 X6 1 52.5 3.8 1 1 1 1 2 50.2 2.9 0 1 1 1 3 53.4 4.2 0 1 3 2 4 49.8 2.8 0 0 1 1 5 53.4 3.9 1 1 2 2 6 54.1 4.6 0 1 1 1 7 52.3 3.7 1 1 1 2 8 53.8 3.9 0 1 4 1 9 50.7 2.6 1 0 2 1 10 51.6 3.5 1 1 1 3
  15. MÉTODOS JERÁRQUICOS
    • Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters
    • Ejemplo:
    • Metodos aglomerativos: los nuevos clusters se crean uniendo clusters
      • Ventaja
        • Rapidez
        • Son los mas habituales
    • Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos)
      • Ventaja
        • Parten de la información global que hay en los datos
        • El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster
    • Dendograma: son diagramas bidimensional es utilizados para representar clasificaciones jerárquicas
    • Muestra como ha sido el proceso de unión o división de los clusters
    divisivo Aglomerativo
  16. Algoritmo básico de clasificación (ABC)
    • Cada caso formara un cluster
    • P0={{1}….{m}}
    • Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster ({i}U{j}={i,j}) y se actualizara la matriz
    • u`(k,{i,j})=u(k,i)
    • =u(k,j)
    • Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
  17. EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre Ω={1,2,3,4,5} calculemos cual es la jerarquia indexada que nos da el algoritmo ABC
  18.  
  19. DENDOGRAMA
  20. Algoritmo de clasificación (AC)
    • Cada caso formara un cluster
    • P0={{1}….{m}}
    • Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster ({i}U{j}={i,j}) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j)
    • d`(l,{i,j})= f(d(l,i),d(l,j), l <>i,j
    • Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
  21. MÉTODO DEL MÍNIMO
    • La distancia entre dos clústeres  mínima de las distancias entre los casos de cada clúster
    • Ejemplo: S upongamos que tenemos la siguiente matriz de distancias D definida sobre Ω={1,..5} calcular cual es la jerarquía indexada de método del mínimo.
  22. PASOS
    • Cada caso forma un clúster
    • Los casos i, j más cercanos
    • Formamos el clúster {1,2}
    • Definimos la distancias de un caso al nuevo clúster
    Matriz de distancias
    • Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster{3,4} rehacer distancia
    • Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d({1,2},{3,4}) nuevo cluster{1,2,3,4} rehacer matriz
    • Jerarquía aglomerada indexada
  23. MÉTODO DEL MÁXIMO
    • Este método es conocido como Complete Linkage o “vecino más lejano”, .
    • La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.
  24. EJEMPLO
    • Inicialmente la partición es: {{1}, {2},{3},{4},{5} y los casos más próximos son 1 y 2
    • La nueva matriz de distancia es:
    • Los casos 3 y 4 forman la siguiente matriz
  25. … EJEMPLO
    • Cálculo para sacar el máximo
    • Por lo tanto se unen {1,2} con {3,4}
    DENDOGRAMA
  26. MÉTODO DE WARD
    • Se calculan las distancias como medida de similitud entre los objetos.
    • El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible.
    • El proceso termina cuando todos los casos forman un único clúster.
    Mide heterogeneidad Suma distancias Vector de medias
  27. EJEMPLO
    • Hay 6 casos con dos variables
    • Cada caso forma un clúster
    P0={{1},{2},{3},{4},{5},{6}} Perdida mínima de heterogeneidad P1={{1},{2},{3},{4},{5,6}}
  28. … EJEMPLO
    • Luego la pérdida mínima se obtiene uniendo {1} y {3}
    • Por lo tanto:
    • Se calcula el centro de {1,3}
    P2={{1,3},{2},{4},{5,6}} La siguiente perdida mínima de heterogeneidad al unir {1,3} y {2} es: P3={{1,2,3},{4},{5,6}}
  29. … EJEMPLO
    • Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades:
    • Calculando cada uno de los centros y la pérdida mínima queda:
  30. … EJEMPLO
    • Quedando como perdida mínima de heterogeneidad uniendo los clúster {4} y {5,6} con un valor de 2,21.
    P4={{1,2,3},{4,5,6}}
  31. APLICACIONES DE LOS MÉTODOS JERÁRQUICOS
    • LOS COCHES Y SUS DIFERENTES GAMAS
    • Las características consideradas en el estudio son:
    • Consumo: millas por galón
    • Numero de cilindros
    • Cilindrada del motor: pulgadas públicas
    • Potencia: caballos de vapor
    • Peso: libras
    • Tiempo de aceleración: de 0 hasta 60 millas por hora
  32. EJEMPLO: Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994) Ciclo anual Rivera 1914-1997 Ciclo anual Melo 1914-1997
  33. ---EJEMPLO
    • Se utilizaron datos mensuales de 100 estaciones pluviométricas en Uruguay en el período 1933-1978.
    • Cada estación se caracterizó por su ciclo anual promedio en ese período (un vector de R 12 para cada estación).
    • Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 variables.)
    • Se realizó una partición de Uruguay según el área de influencia de cada estación.
    • Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional.
  34. ---EJEMPLO
    • Para ello, primero se obtuvo la matriz de anomalías, es decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una.
    • Las series no fueron normalizadas ya que era de interés tanto la forma del ciclo anual como su intensidad.
    • Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100).
    • Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total (ver figuras)
    • Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno.
    • Se utilizó el método de agrupamientos aglomerativos nucleados .
  35. ---EJEMPLO
    • Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales)
    • Se determinó a priori en 4 el número de clusters finales.
    • Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final)
    • Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters.
    • Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos.
    • Los ciclos anuales medios para cada una de las 4 regiones (ver figura) muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos.
    Correlaciones entre los ciclos anuales medios de las 4 regiones
  36. GRACIAS!!

+ Raquel SolanoRaquel Solano, 6 months ago

custom

1632 views, 0 favs, 0 embeds more stats

Trata sobre los principales métodos jerarquicos pa more

More info about this document

© All Rights Reserved

Go to text version

  • Total Views 1632
    • 1632 on SlideShare
    • 0 from embeds
  • Comments 3
  • Favorites 0
  • Downloads 29
Most viewed embeds

more

All embeds

less

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

Cancel
File a copyright complaint
Having problems? Go to our helpdesk?

Categories