Clustering

12,257 views

Published on

CLUSTERS

  • Be the first to comment

  • Be the first to like this

Clustering

  1. 1. INTELIGENCIA ARTIFICIAL AVANZADA CLASIFICACIÓN ANALISIS DE CLUSTERES: CLUSTERING Autor: Guadalupe Ortega Castillo [email_address]
  2. 2. ANALISIS DE CLUSTERS <ul><li>El análisis de clústers o clustering, es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características. </li></ul><ul><li>Uno de los problemas del análisis de clúster es que no existe una definición precisa de clúster. Lo cual ha originado el desarrollo de una gran cantidad de métodos, es así que los dos grandes grupos de métodos de clustering son: los jerárquicos y los no jerárquicos o particionales. En los primeros la pertenencia a un grupo o clúster en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior. </li></ul><ul><li>Los métodos particionales obtienen una única partición de los datos mediante la optimización de alguna función adecuada. </li></ul>
  3. 3. ANALISIS DE CLUSTERS <ul><li>Estos métodos también son conocidos como métodos de optimización, además otro problema que estudia el análisis de clústers es la clasificación de variables. </li></ul><ul><li>Los métodos particionales utilizan la matriz de datos mientras que los jerárquicos parten de una matriz de distancias o similaridades. </li></ul>
  4. 4. ANALISIS DE CLUSTERS <ul><li>Clustering(agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo “más cercano” posible a otro, y grupos diferentes estén lo “más lejos” posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles. </li></ul>
  5. 5. AGRUPAMIENTO CLUSTERING <ul><li>Los métodos no supervisados (especialmente el clustering ) se usan cuando: </li></ul><ul><ul><li>Recopilar y clasificar a mano es costoso </li></ul></ul><ul><ul><li>La caracterización de los patrones cambia con el tiempo. </li></ul></ul><ul><ul><li>Permite encontrar caracterizaciones útiles para construir clasificadores </li></ul></ul><ul><ul><li>El descubrimiento de grupos y subgrupos que revele la naturaleza de la estructura del problema. </li></ul></ul>
  6. 6. OBJETIVOS DEL CLUSTERING <ul><li>El objetivo de ésta tarea es obtener grupos o conjuntos entre los elementos, de tal manera que los elementos asignados al mismo sean similares. </li></ul><ul><li>Lo importante del agrupamiento respecto a la clasificación es que son precisamente los grupos y la pertenencia a los grupos lo que se quiere determinar y a priori, no se sabe ni como son los grupos ni cuantos hay. </li></ul><ul><li>El agrupamiento se conoce muy frecuentemente también como: segmentación y aglomeración. </li></ul>
  7. 7. AGRUPAMIENTO DINÁMICO <ul><li>También conocido como k-means o Iterative Distance-based Clustering. Necesita que se le proporcione a priori el n´umero de grupos k. El algoritmo es el siguiente: </li></ul><ul><li>agrupamiento: </li></ul><ul><li>seleccionar al azar k ejemplos como centros iniciales de cada grupo; </li></ul><ul><li>repeat </li></ul><ul><li>asignar cada ejemplo al grupo con menor distancia a su centro; </li></ul><ul><li>recalcular los nuevos centros de cada grupo; </li></ul><ul><li>until los grupos sean estables </li></ul><ul><li>Los centros de cada grupo, también denominados centroides pueden corresponderse con ejemplos o no, en ese caso se les denomina prototipos. </li></ul><ul><li>Los grupos se consideran estables cuando los ejemplos no cambian de grupo respecto la iteración anterior. </li></ul><ul><li>Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el mismo algoritmo de manera recursiva sobre los ejemplos de cada grupo. </li></ul>
  8. 8. APLICACIONES <ul><li>Robótica: utiliza un conjunto de técnicas y conceptos teóricos comunes, como son la estimación bayesiana y modelos probabilísticas como métodos de representación o como son las técnicas de regresión y clustering para el aprendizaje. </li></ul><ul><li>Minería de Datos: Utiliza la transformación de los datos al formato requerido, por el algoritmo específico para la minería de datos, buscando patrones que puedan expresarse como modelo. </li></ul>
  9. 9. APLICACIONES <ul><li>En Investigaciones E spaciales: Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación ( clustering ) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. Con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo. </li></ul>
  10. 10. CONCLUSIONES <ul><li>El clustering es una técnica muy útil para el acceso secuencial de grandes cantidades de datos. </li></ul><ul><li>El clustering se obtiene definiendo un índice clustering para una tabla, el cual determina el orden secuencial físico en el que se almacenan las filas en los conjuntos de datos. </li></ul><ul><li>Esta técnica es importante porque mejora drásticamente la rendimiento en del acceso secuencial, y este tipo de acceso es el mas usado en el procesamiento OLAP. </li></ul>
  11. 11. REFERENCIAS BIBLIOGRAFICAS <ul><li>1 Aprendizaje Automático: Conceptos básicos y avanzados. Aspectos prácticos utilizando el software Weka. Basilio Sierra Araujo. Madrid, 2006. </li></ul><ul><li>2 Introducción a la Minería de Datos. José Hernández Orallo. Madrid, 2004. </li></ul>

×