• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Sistemas basados en casos
 

Sistemas basados en casos

on

  • 408 views

 

Statistics

Views

Total Views
408
Views on SlideShare
408
Embed Views
0

Actions

Likes
0
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • If the boundary region is small, we will obtain better results of quality, accuracy and weighted accuracy of classification measures. We propose to use quality, accuracy and weighted accuracy of classification measures to validate clustering results, considering the application of accuracy and quality of approximation measures to validate each cluster. If  ( Ci )=1, Ci is crisp (exact) with respect to set of terms which describes this cluster of documents, if  ( Ci )<1, Ci is rough (vague) with respect of terms which describes this cluster of documents, clusteri is a rough cluster.

Sistemas basados en casos Sistemas basados en casos Presentation Transcript

  •  
  •  
  • Módulo de Recuperación Módulo de Adaptación
  •  
    • Aprendizaje supervisado
    • Aprendizaje semisupervisado
    • Aprendizaje no supervisado
    • Clasificación
    • Categorización
    • Agrupamiento
    • Es una tarea de aprendizaje supervisado que el objetivo es asignar objetos a clases predefinidas
      • (no necesariamente basándose en el contenido)
    • Reconocimiento de rostros
    hombre mujer ?
    • Tarea de la minería de datos
    • Selección de rasgos/atributos
    • Modelo
    • Los parámetros del modelo son determinados usando un conjunto de entrenamiento (conjunto de ejemplos)
    • Aprendizaje supervisado (aprendiendo con un maestro)
    • Para cada objeto en el conjunto de datos, una o varias etiquetas de clases están disponibles
      • Clasificación simple
      • Multiclasificación
    • Construir un modelo desde los ejemplos de aprendizaje.
    • Ese modelo puede ser usado después para clasificar (predecir) nuevos objetos.
    • Clasificadores Bayesianos
    • Árboles de decisión
    • Support Vector Machine
    • Redes Neuronales Artificiales
    • Desde el conjunto de datos, determina los parámetros p( x i | c j ) para cada clase j y cada rasgo i =1.. N
    • Para un nuevo ejemplo S =( s 1 s 2 … s N ) , todas las p( c j | S ) son calculadas como
      • p( c i | S )= p( S | c j ) p( c j ) / p( S ) con p( S | c j )=p( s 1 | c j ) p( s 2 | c j ) … p( s N | c j )
      • Escoger la más probable p( c j | S )
    • Escoger el “mejor” atributo por una medida de selección dada.
    • Extender el árbol adicionando nuevas ramas para cada valor del atributo.
    • Ordenar los ejemplos de entrenamiento hacia los nodos hoja.
    • Si los ejemplos están no ambiguamente clasificados, parar, si no repetir los pasos 1-4 para los nodos hoja.
    • Podar los nodos hoja inestables.
  • Temperature Headache Temperature Flu e1 yes normal no e2 yes high yes e3 yes very high yes e4 no normal no e5 no high no e6 no very high no yes yes {e2} no no {e5} yes yes {e3} no no {e6} normal no {e1, e4} Headache high {e2, e5} very high Headache {e3,e6}
  • <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > f(x)= w x+ b
  • <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Muchas posibilidades !
  • <0,0> <x 15 ,x 16 > <x 3 ,x 4 > <x 5 ,x 6 > <x 9 ,x 10 > <x 11 ,x 12 > <x 1 ,x 2 > <x 7 ,x 8 > <x 21 ,x 22 > <x 17 ,x 18 > <x 13 ,x 14 > <x 19 ,x 20 > <x 23 ,x 24 > Margen
  • <0,0> e 1 Margen
  • <0,0> f(z)= w z+ b z modelo
  • Uso de las funciones núcleo (kernel functions)
  •  
    • Modelo computacional que pretende simular el funcionamiento del cerebro a partir del desarrollo de una arquitectura que toma rasgos del funcionamiento de este órgano sin llegar a desarrollar una réplica del mismo.
    • Modelo basado en la arquitectura del cerebro humano
      • Neuronas conectadas por axones y dendritas
      • 100 billones de neuronas
      • 1,000 dendritas por neurona
      • 100,000 billones sinapsis
      • 10 millones de billones de interconexiones por segundo
    • Organización o arquitectura del conjunto de neuronas que la forman; comprende
    • - la distribución espacial de las mismas y
    • - los enlaces entre ellas.
    • Un conjunto de elementos computacionales simples unidos por arcos dirigidos.
    • Cada arco tiene asociado un peso numérico W ij que indica la significación de la información que llega por este arco.
    • Cada celda U i calcula una activación.
  • Toda unidad u j (excepto las de entradas) calcula una nueva activación u ' j S j representa el nivel de voltaje que excita la neurona u ' j denota la intensidad de la salida resultante de la neurona. j 1 2 n . . . w 1 j w 2 j w nj
    • Modelo lineal
    • Modelo lineal con umbral
    • Modelo estocástico
    • Modelo continuo
    • Conocimiento en W=[w 1 , w 2 ,…,w n ]
    • Aprendizaje: encontrar el W adecuado.
    • Alternativas:
    • Programación prescriptiva
    • Cálculo de W:
    • - Método adaptativo.
    • - Método no adaptivo.
    • Dividir el conjunto de datos en conjunto de entrenamiento ( training set ) y conjunto de prueba ( test set )
    • Usar los ejemplos del conjunto de entrenamiento para construir el modelo, y los ejemplos del conjunto de prueba para evaluar el modelo
    • Generalizaciones: Validación cruzada ( cross-validation )
    • Para un problema de dos clases, todas las medidas pueden ser definidas en 4 números
      • TP: verdaderos positivos ( true positives )
      • TN: verdaderos negativos ( true negatives )
      • FP: falsos positivos ( false positives )
      • FN: falsos negativos ( false negatives )
    • Accuracy
    • Error rate = 1- accuracy
    • TP rate/recall/sensitivity
    • FP rate
    • Precision/specificity
    • F-measure
    Curvas ROC
    • OBJETIVO: encontrar grupos “naturales” de objetos en el conjunto de datos.
    • Los objetos que pertenezcan al mismo cluster sean tan similares como sea posible.
    • Los objetos que pertenecen a clusters diferentes sean tan diferentes (no similares) como sea posible.
    • Particionar un conjunto en subconjuntos de datos “similares”
    • DESCUBRIR
      • La potencialidad de revelar relaciones basadas en datos complejos no detectadas previamente.
    • Encontrar una estructura de grupos que se ajuste al conjunto de datos.
    Corpus of Texts Colección de objetos Algoritmo de agrupamiento Grupo 1 Grupo 2 Grupo k . . . Tan disimilares como sea posible (Heterogeneidad) Tan similares como sea posible (Homogeneidad)
    • Posiblemente se conozca el número de grupos a obtener
    • Los grupos pueden ser disjuntos o solapados
    • Algunos outliers pueden ser presentados
    • Posiblemente se tenga alguna forma de estimar los centros de los grupos
  • Algoritmo de agrupamiento . . . Corpus of Texts Corpus de textos Tópico 1 Tópico 2 Tópico k
  • Algoritmo de agrupamiento de documentos Cluster 1 Document 1: <TOPICS><D>cocoa</D></TOPICS> Document 3: <TOPICS><D>cocoa</D></TOPICS> Document 4: <TOPICS><D>cocoa</D></TOPICS> Document 5: <TOPICS><D>cocoa</D></TOPICS> Document 6: <TOPICS><D>cocoa</D></TOPICS> Document 7: <TOPICS><D>cocoa</D></TOPICS> Document 8: <TOPICS><D>cocoa</D></TOPICS> Document 9: <TOPICS><D>cocoa</D></TOPICS> Document 10: <TOPICS><D>cocoa</D></TOPICS> Cluster 2 Document 60: <TOPICS><D>silver</D></TOPICS> Document 61: <TOPICS><D>silver</D></TOPICS> Document 62: <TOPICS><D>silver</D></TOPICS> Document 63: <TOPICS><D>silver</D></TOPICS> Document 64: <TOPICS><D>silver</D></TOPICS> Document 65: <TOPICS><D>silver</D></TOPICS> Document 66: <TOPICS><D>silver</D></TOPICS> Document 67: <TOPICS><D>silver</D></TOPICS> Document 68: <TOPICS><D>silver</D></TOPICS> Document 69: <TOPICS><D>silver</D></TOPICS> Document 70: <TOPICS><D>silver</D></TOPICS> Cluster 17 Document 71: <TOPICS><D>reserves</D></TOPICS> Document 72: <TOPICS><D>reserves</D></TOPICS> Document 74: <TOPICS><D>reserves</D></TOPICS> Document 77: <TOPICS><D>reserves</D></TOPICS> Document 80: <TOPICS><D>reserves</D></TOPICS> … Reuters-21578 Text Categorization Collection, 135 topics http://www.daviddlewis.com/resources/testcollections/reuters21578
  • BioMed Central's open access full-text corpus for data mining research Algoritmo de agrupamiento de documentos
  • Solapado Determinista Aglomerativo Divisivo Probabilístico (Fuzzy)  =1 Posibilístico DURO JERÁRQUICO BORROSO
    • Density-based clustering
    • Grid-based clustering
    • Model-based clustering
    • Incremental clustering
    • Joint clustering
    • Métodos aglomerativo (agglomerative methods)
      • single linkage
      • complete linkage
      • average linkage (UPGMA)
      • centroid linkage
      • Ward’s method
    • Métodos divisivos (divisive methods)
      • Leclerc’s splitting algorithm
      • Agrupamiento basado en la intermediación (betweenness)
    • Métodos aditivos (additive methods)
      • Neighbour joining
      • Split decomposition
    • Otros métodos (other methods)
      • Floyd-Warshall algorithm
    • Partitioning methods
      • k -means, fuzzy c -means
      • entropy minimisation
      • minimisation of stochastic complexity
    • Dimensioning techniques
      • principal component analysis (PCA)
      • multidimensional scaling (MDS)
      • unsupervised neural networks
  • A D C E B A D C E B El número de clusters depende de “ donde dibujemos la línea”
    • Inicialmente asignar a cada entrada i su propio cluster C i en el nivel 1.
    • Paso básico: Encontrar las entradas i y j tal que
    • Unir los clusters C i and C j en el nivel λ
    • Paso general: Encontrar clusters C i y C j tal que
    • Unir los clusters C i and C j en el nivel λ
    • Repetir el paso 3 hasta que todos los clusters queden unidos en un único cluster.
    • Inicialmente todas las entradas
    • están en un único cluster C .
    • 2. Encontrar i y j tal que
    • 3. Dividir C en 2 subclusters disjuntos C 1 y C 2 , tal que i  C 1 y j  C 2
    • 4. Repetir las pasos 2 y 3 para C 1 y C 2 hasta que cada cluster sea un cluster de un único elemento.
    C 1 C 2 i j a ij
    • Single linkage clustering
      • Vecino más cercano, min-transitive closure
    • Complete linkage clustering
      • Vecino más lejano, min-transitive opening
    C 1 C 2 C 1 C 2
    • Average linkage clustering
      • UPGMA, min-transitive approximation
    C 1 C 2 avg
    • Ventajas
      • Rápido
      • Bueno cuando el número de clusters es conocido.
    • Desventaja
      • K debe ser conocido, o diferentes valores tiene que ser puestos a prueba.
    • Red no supervisada con dos capas:
      • Capa de entrada
      • Capa de salida
    • Inicializar los pesos w ij
    • Repetir
        • Presentar una entidad aleatoria
        • Encontrar el nodo más similar
        • Ajustar los pesos del nodo ganador
        • Ajustar los pesos de la vecindad
    • Hasta que converja o se cumpla un número fijado de iteraciones
    • Se requieren algunas medidas para cuantificar el grado de asociación entre objetos.
    • Distancias, similitud o disimilitud.
    • Algunos algoritmos de agrupamiento tienen un requerimiento teórico para el uso de una medida específica.
    • Lo más común es que el investigador seleccione qué medida utilizará con determinado método .
    • Notación
    • Objetos O i y O j , descritos por k rasgos
    • O i = ( O i 1 O i 2 … O ik )
    • O j = ( O j 1 O j 2 … O jk )
    pequeña grande grande!
    • Euclidean distance
    • Métrica Minkowski
    Cuando  = 1, la forma de calcular la distancia entre los objetos se llama la métrica Manhattan . Si  =2, nos referimos a la distancia Euclidiana. Para los valores   2, estamos en presencia de la métrica Supermum
  • Métrica Camberra
  • Correlación de Pearson es el valor promedio que toma el atributo h en el conjunto de datos
    • Coeficiente Dice
    • Coeficiente Jaccard
    • Coeficiente Coseno
      • S – similitud
      • D i y D j documentos con pesos asociados a los k términos que los describen.
  • Para pesos binarios C es el número de términos que D i y D j tienen en común, y A y B son el número de términos de D i y D j respectivamente
  • A es el número de palabras que describen a D i , B es el número de palabras que describen a D j y C es el número de palabras que aparecen tanto en D i como en D j . Para pesos binarios
  • Más usado D i D j 
    • Unsupervised networks (e.g., Kohonen (SOM))
    • Autoclass
    • k-means, Batch k-means e Incremental k-means
    • Tolerance Rough Set
    • Principal Direction Divisive Partitioning (PDDP) y Spherical PDDP
    • Simultaneous Clustering and Attribute Discrimination
    • Fuzzy c-means
    • Relational Alternating Cluster Estimation
    • Entropy minimisation
    • Minimisation of stochastic complexity
    • Principal component analysis (PCA)
    • Multidimensional scaling (MDS)
    • No es necesario especificar el número de grupos que se desea obtener.
    • Se obtienen las palabras claves que describen cada grupo.
    • Hay que definir el tamaño de la red manualmente.
    Nürnberger, A. Klose, A. Kruse, R. Clustering of Document Collection to Support Interactive Text Exploration. Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the Gesellschaft für Klassification. pp 291-299. 2001.
    • No requiere especificar el número de grupos a obtener.
    • Obtiene las palabras claves de cada grupo.
    • Ha aportado mejores resultados que la red Kohonen en el agrupamiento de documentos.
    • Requiere que el número de clusters a obtener sea especificado a priori.
    • Requiere un cierto conocimiento del dominio, ya que es sensible a cómo se hizo inicialmente la partición.
    • Batch k - means
      • la calidad de la partición final depende de una buena selección de la partición inicial
      • puede quedar atrapado en mínimos locales.
    • Incremental k - means
      • resuelve las dos desventajas del Batch k - means
      • pero es más lento
    • Means
      • Mejora a estos dos últimos algoritmos
    • Utiliza una extensión de la teoría clásica de los conjuntos aproximados ( Rough Set Theory ).
    • Tolerance Rough Set permite formar clases de tolerancia de las palabras y utilizarlas para realizar el agrupamiento de documentos.
    • No requiere que el número de clusters sea fijado inicialmente.
    • Hace una subdivisión sucesiva de la colección inicial hasta detenerse cuando se cumpla cierto criterio de calidad.
    • Este algoritmo no es basado en ninguna medida de distancia ni de similitud.
    • Toma como ventaja lo dispersa que es la matriz de términos por documentos.
      • Principal Direction Divisive Partitioning (PDDP) + Means
      • Spherical Principal Directions Divisive Partitioning (sPDDP) + Means
      • OBJETIVO:
        • Mejorar la eficiencia
        • No tener que fijar manualmente el número inicial de clusters ni la partición inicial
        • Cuidado con el tiempo de ejecución!!
    • Realiza el agrupamiento con objetivos específicos.
    • Identifica clusters pequeños en contextos limitados.
      • Es poco escalable
      • Funciona utilizando Latent Semantic Indexing y los vectores bases no son siempre ortogonales, aspecto esencial al buscar los valores y vectores propios.
    • Simultáneamente obtiene los grupos de documentos similares y pesa los rasgos.
    • Provee una representación de la relevancia de los rasgos más rica que la selección de los rasgos binaria.
    • Aprende una representación de la relevancia de los rasgos diferente para cada cluster.
    • Este algoritmo utiliza la distancia Euclidiana para calcular la similitud entre documentos.
    • Permite simultáneamente agrupar documentos textuales y dinámicamente pesar el conjunto de palabras claves.
    • Es computacional y conceptualmente simple.
    • Este algoritmo requiere que sea especificado el número inicial de clusters.
    • Es una extensión del k - means y funciona mejor que éste cuando no todos los rasgos son igualmente relevantes.
    • Utiliza una medida de disimilitud basada en el coeficiente coseno para comparar los documentos, pero puede ser adaptado a otras medidas de disimilitud.
    • La forma de pesar los términos puede ser modificada.
    • No requieren que el número de clusters sea especificado inicialmente.
    • Star depende del orden de los datos y esto puede provocar la construcción de clusters ilógicos.
    • Extended Star no depende del orden de los datos, i.e., no influye el orden de los datos en la formación de los clusters.
    Algoritmos Estrella Condensado y Estrella Generalizado
  • Ejemplo de agrupamiento con el algoritmo Star donde influye el orden de los datos Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.
    • Reconoce nubes esféricas de puntos en un espacio p -dimensional.
    • Asigna un grado de pertenencia de los documentos a los clusters.
    • Relational Alternating Cluster Estimation
    • Simultaneous Soft Clustering and Term Weighting of Text Document (Fuzzy SKWIC)
    • Requieren que el número de clusters sea especificado inicialmente.
    • Devolver la colección de clusters y calculan simultáneamente la relevancia de las palabras en los grupos.
    • Representación gráfica de los corpus textuales
    • Agrupamiento de documentos y palabras usando modelos gráficos
    … …
    • Algoritmos que sólo utilizan distancias, similitudes, o disimilitudes para cuantificar el grado de asociación entre los objetos.
    • Algoritmos que adicionalmente explotan la topología de las interrelaciones y enlaces de los objetos a agrupar.
  • Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004. Potencial que tiene una arista para controlar el flujo de información en el grafo. Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo. Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.
    • El cálculo tiene una alta complejidad computacional
      • O ( m 2 n ) para densos y O ( n 3 ) para dispersos.
    • La forma de cálculo no garantiza que todas las aristas que conectan grupos tengan intermediación alta.
      • Los algoritmos de agrupamiento que utilizan la intermediación según los geodésicos necesitan el recálculo .
        • Aumenta un orden de complejidad con respecto a m .
  • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 22 20 19
    • Si no se puede medir lo que se quiere, no se debe esperar que las inferencias con estas mediciones sean correctas.
    • Se quiere que la habilidad para medir la intermediación de una arista dependa menos de las otras aristas.
  • Intermediación diferencial  -intermediación Diferencial geodésico c -vecindad Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.
    • Cálculo de DB a partir del cálculo de los caminos en el grafo original.
      • Sin fijar vecindad O ( mn 2 ).
      • Fijando vecindad O ( mn ) o O ( n 2 ) para grafos dispersos.
    • Cálculo de los caminos en la vecindad.
      • O ( m ) o O ( n ) para grafos dispersos.
    Mientras que el algoritmo GN tiene la complejidad O ( m 2 n ).
    • Obtención del grafo de similitud.
    • Cálculo de la matriz de intermediación diferencial pesada.
    • Determinación de las aristas a eliminar.
    • Determinación de los núcleos del agrupamiento mediante la extracción de componentes conexas.
    • Clasificación de los nodos que no pertenecen a los núcleos.
  • 1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/ 2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis 3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse Corpus Cantidad de documentos Cantidad de grupos Distribución de documentos por grupos BioMed 1 31 2 Grupo 1 =[1..11] Grupo 2 =[12..31] Reuters 2 29 2 Grupo 1 =[1..12] Grupo 2 =[13..29] CEC2006 3 29 2 Grupo 1 =[1..18] Grupo 2 =[19..29]
    • La mayoría de los métodos de agrupamiento son dependientes del análisis de frecuencias de términos y medidas de distancias o similitudes entre los vectores de objetos, sin considerar conocimiento humano.
    • &quot;A Clustering Algorithm Based on User Queries“. C. T. Yu. Journal of the American Society for Information Science. 1974.
    • &quot;Adaptive Document Clustering“. C. T. Yu, Y. T. Wang y C. H. Chen. Conference on Research and Development in Information Retrieval. 1985.
    • “ Optimal determination of user-oriented clusters”. J. Deogun y V. Raghavan. International Conference on Research and Development in Information Retrieval. 1987.
    • Distancia adaptable a los intereses y preferencias de los usuarios.
    • Distancia entre dos documentos relativa al peso W
      • W : matriz de pesos simétrica n x n
      • w ij : interrelación entre los términos i y j de los vectores.
    Fuente: “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee. Proceedings of the Symposium on Applied computing. Madrid. ACM. 2002.
    • Estrategia de aprendizaje activo para encontrar las restricciones más adecuadas.
    • Usan las restricciones para calcular un peso para la importancia de los términos en la medida de distancia.
    • Las restricciones se aprenden por la retroalimentación de los usuarios.
    Fuente: “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.
    • Introducen el peso de los términos en el cálculo de la similitud coseno entre los documentos.
    • La importancia de los términos para distinguir los documentos varía entre los usuarios.
    • Crean medidas de similitud específicas para los usuarios haciendo uso de esquemas de ponderación diferentes para cada usuario.
    • Aprendizaje y adaptación de los pesos
    Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
    • La importancia de los términos describe los tópicos de interés de los usuarios
      • Todo del perfil del usuario o manualmente especificada
    • Se utiliza directamente en el agrupamiento o en la inicialización de adaptación de pesos.
    • Se conoce cuáles son los términos importantes desde el punto de vista del usuario en el proceso de agrupamiento.
    Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.
    • Una medida de evaluación hace corresponder un número real a un agrupamiento.
    • El número indica el grado en que ciertas propiedades estructurales son descubiertas en el agrupamiento.
      • La matriz de similitud entre objetos conduce a un grafo de similitud.
      • Las interrelaciones entre los objetos pueden intr í nsicamente formar un grafo.
    El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados .
    • Explotar el conocimiento que existe en el enlace entre objetos.
    • Descubrir grupos que se ocultan en las comunicaciones entre objetos
    Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.
    • Transitividad o agrupamiento
      • Número elevado de triángulos en el grafo.
      • Coeficiente de agrupamiento: densidad de triángulos en el grafo.
    • Efecto small-world
      • La mayoría de los pares de vértices se conectan por un camino corto en el grafo (longitud promedio de los caminos).
      • Relacionada con la propiedad de navegación.
    • Grafos scale-free
      • Grafos que presentan la ley de distribución del grado (distribución y correlación de los grados).
      • Un grafo puede tener una forma de distribución del grado y en sus subgrafos la distribución puede tener otra forma.
    • Patrones mixtos
      • Se utiliza en grafos donde los vértices representan distintos tipos y es interesante estudiar cómo se conectan dichos vértices mixtos.
      • Se cuantifica mediante el coeficiente mixto.
    • Estructura de comunidad
      • Se observan grupos de vértices que tienen una alta densidad de las aristas entre ellos, con una baja densidad de las aristas entre grupos.
    Fuente: Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.
  • Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.
  • Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.
  • Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.
  • Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004. El ancho de las aristas indica su peso. Los colores de los vértices indican los grupos. Varias investigaciones muestran que el lenguaje existe en una red small-world . Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.
  • Nodos: documentos Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado. Grupos: [0..27] talk.politics.guns [28..58] talk.politics.mideast Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups
    • ¿Cuántos clusters hay en el conjunto de datos?
    • ¿El esquema del agrupamiento resultante se adapta al conjunto de datos?
    • ¿Existe una mejor partición para nuestros datos?
    • ¿La estructura de los clusters es bastante clara realmente?
    • ¿Son correctas la densidad, compactación, separación de los clusters?
    • Cada medida de evaluación no puede capturar todas las buenas propiedades de un agrupamiento.
    • El funcionamiento de un algoritmo de agrupamiento puede ser juzgado diferente dependiendo de qué medidas se han usado.
    • Para hacer más confiables los resultados se deben usar varias medidas.
    • Cualquier nueva medida puede contribuir a comprender mejor el agrupamiento.
    • Las medidas externas usan una clasificación humana de referencia para evaluar el agrupamiento.
      • No son aplicables en situaciones del mundo real donde usualmente no están disponibles las clasificaciones de referencia.
    • Las medidas internas basan sus cálculos solamente en el agrupamiento que tiene que ser evaluado.
    • Overall Similarity
      • No considera la relación entre los clusters.
    • Dunn Indices
      • Estas medidas tienen una forma geométrica (típicamente centroide) para analizar el agrupamiento.
    Dunn Bezdek
    • Medida Davies-Bouldin
      • Estas medidas tienen una forma geométrica (típicamente centroide) para analizar el agrupamiento.
    •  -measure ( Weighted Partial Connectivity )
    • measure  (Expected density)
      • El cálculo de estas medidas es muy costoso, alta complejidad computacional.
    • Entropía
    donde el número de documentos de la clase i que están asignados al cluster j p ij la probabilidad que un miembro del clusters j pertenezca a la clase i La entropía de cada cluster j
    • Precision
    • Recall
    n ij es el número de miembros de la clase i en el cluster j , n j es el número de miembros del cluster j y n i es el número de miembros de la clase i
    • F-Measure y Overall F-Measure
    • Purity
    • Relative F-Measure
    • F-Score Metric for Soft Clustering
    • Micro-averaging break-even point (BEP) and Micro-averaging F1-measure
    • Folks and Mallows measure
    • Jaccard measure
    • Rand statistics
    • Kappa statistics
    • No necesita ninguna información preliminar o adicional sobre los datos.
    • Es una herramienta para ser usada en aplicaciones computacionales en circunstancias caracterizadas por vaguedad e incertidumbre.
    • Relación de similitud
      • R ’( x )={ y  U : yR ’ x, i.e. y está relacionado con x si y sólo si s ( x , y )>  }
    • Aproximación inferior
    • Aproximación superior
    • Precisión de la aproximación
    • Calidad de la aproximación
    • Pertenencia aproximada
    • Precisión del agrupamiento
    • Calidad del agrupamiento
    • Precisión generalizada del agrupamiento
    • Calidad generalizada del agrupamiento
    • Pertenencia aproximada
    Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.
    • Entrada : Colección de objetos (sistema de información), resultado del agrupamiento (conceptos), medida y umbral de similitud, y formas de ponderación de los grupos.
    • Salida : Valores de las medidas de precisión y calidad aplicadas a los grupos y al agrupamiento en general.
    • Obtener las clases de similitud para cada objeto en el sistema de información.
    • Calcular las aproximaciones inferiores y superiores por grupo.
    • Calcular la calidad y precisión por grupo.
    • Calcular la calidad y precisión del agrupamiento.
    • Para cada variante de cálculo de peso especificada
      • Calcular los pesos por grupos.
      • Calcular la calidad y precisión generalizadas del agrupamiento.
  • Evaluación del instrumento de medición Confiabilidad Validez Contenido Criterio Constructo Pruebas de Wilcoxon a Resultados con y sin ruido Correlación con medidas internas Correlación con medidas externas Propiedades que se chequean
    • SI
      • existe la clasificación de referencia para el conjunto de datos que se agrupa
      • Y
      • el usuario quiere evaluar considerando la correspondencia de los resultados obtenidos por el algoritmo de agrupamiento con la clasificación de referencia
    • ENTONCES
      • se sugiere analizar las medidas externas
  • L/G C/G/A Peso Umbral Max/Min P/C Costo Entropía L&G Grupos Si No Min P Bajo Precisión Local - No No Max P Bajo Cubrimiento Local - No No Max P Bajo Medida-F Local - No Si Max P Bajo Información Mutua Local - No No Max P Bajo Estadístico Kappa Global Grupos No No Max P Alto Medida-F Global Global Clases Si Si Max P Bajo MAP&R Global Clases No No Max P&C Bajo Error del agrupamiento Global Pares No No Min P&C Alto Cluster Recall Global Pares No No Max P&C Alto Cluster Precision Global Pares No No Max P&C Alto Estadístico Rand Global Pares No No Max P&C Alto Coeficiente Jaccard Global Pares No No Max P&C Alto Índice de F&M Global Pares No No Max P&C Alto
    • SI desea realizar la validación de cada grupo
    • ENTONCES aplicar Entropía, Precisión, Cubrimiento y Medida-F
    • SI no tiene criterios para especificar umbrales
    • ENTONCES no aplicar Medida-F ni Medida-F Global
    • SI desea obtener medidas globales Y calculadas por clases
    • ENTONCES aplicar Medida-F Global, MAP y MAR
    • SINO SI desea obtener medidas globales Y calculadas por grupos
    • ENTONCES aplicar Entropía y Estadístico Kappa
    • SI desea validar agrupamientos de grandes colecciones de datos
    • ENTONCES aplicar Entropía, Precisión, Cubrimiento, Medida-F y
    • Medida-F Global
    • SI se requiere validar cubrimientos Y los conjuntos de datos son pequeños
    • ENTONCES preferiblemente aplicar Error del agrupamiento, Cluster Recall y
    • Cluster Precision , Estadístico Rand, Coeficiente Jaccard e Índice de
    • Folkes y Mallows
    • SI desea validar ponderando los grupos por su cardinalidad
    • ENTONCES aplicar Entropía y Medida-F Global
  • Mide en qué grado la clase está incluida en el grupo. Busca correspondencia de cada grupo con las clases. Mide en qué grado el grupo cubre la clase. Media armónica de Precisión y Cubrimiento EM (?) EM (3) E 0.1825 0.2241 Pr 1 0.9271 Re 0.6 0.9067 OFM 0.7239 0.9048 EM (3) 9.33% incorrectos grupos 0 1 2 Iris-setosa 0 50 0 Iris-versicolor 50 0 27 Iris-virginica 14 0 36 EM (?) 40% incorrectos grupos 0 1 2 3 4 Iris-setosa 28 0 0 22 0 Iris-versicolor 0 0 27 0 23 Iris-virginica 0 35 15 0 0
    • SI
      • no existe la clasificación de referencia para el conjunto de datos que se agrupa
      • O
    • el usuario no quiere evaluar considerando la correspondencia
    • de los resultados con la clasificación de referencia
    • ENTONCES
      • se sugiere analizar las medidas internas
  • Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Índice C Densidad de los grupos No Si No No No No Similitud Global Cohesión de los grupos (Local) No No No No Si No Dunn original Grupos compactos y bien separados (razón) Si No No Si Si No Dunn-Bezdek Grupos compactos y bien separados (razón) Si No Si Si Si No Bezdek general Grupos compactos y bien separados (razón) Si Si No No Si No Davies-Bouldin Dispersión de los grupos y su separación Si No Si No Si No Índice SD Suma pesada de la distancia intra-grupo y entre grupos Si No Si No No No Índice S_Dbw Suma pesada de la distancia intra-grupo y entre grupos Si No No No Si No Índice Silueta Grupos compactos y bien separados Si No No Si Si No
  • Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral FOM Estimar número de grupos Si Si No No No Si Expansión Árbol de expansión mínimo No Si No Si No Si Conductancia Árbol de expansión mínimo (permite ponderar vértices) No Si No Si No Si Conectividad parcial pesada Conectividad de las aristas pesadas por grupos No Si No No Si Si Densidad esperada Densidad de los grupos por peso de las aristas No Si No No Si Si Modularidad Interconexiones antes y después del agrupamiento Si Si No Si Si Si Índice de tendencia del agrupamiento Forma grafo k-partito con las relaciones entre los k grupos No Si No No Si Si
  • Objetivo Valora Integral Indep.Forma Centro Ruido Diversos tamaños Umbral Medida de la fortaleza de las conexiones Identifica grupos débiles y fuertes (solo conexiones) No Si No No Si Si Medida de la interacción Promedio de la interacción intra-grupo entre el promedio de la interacción con nodos externos No Si No Si Si Si Precisión del grupo Razón de los objetos típicos del grupo y los relacionados con él Si (local) Si No No Si Si Calidad del grupo Porciento de objetos bien asignados al grupo Si (local) Si No No Si Si Precisión generalizada del agrupamiento Precisión global ponderada por grupos Si Si No No Si Si Calidad generalizada del agrupamiento Calidad global ponderada por grupos Si Si No No Si Si
    • SI desea validar que los grupos son compactos y están bien separados
    • ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices
    • Davies-Bouldin, SD, S_Dbw y Silueta, y las medidas precisión y
    • calidad del agrupamiento
    • SI los resultados a evaluar son de un agrupamiento basado en prototipos
    • ENTONCES aplicar índices Dunn-Bezdek, Silueta, Davies-Bouldin, SD y
    • las medidas precisión y calidad generalizadas
    • SI desconoce la forma de los grupos obtenidos
    • ENTONCES no aplicar Similitud Global, índices Dunn original, Dunn-
    • Bezdek, Davies-Bouldin, SD, S_Dbw y Silueta
    • SI desea al validar que se considere la integración entre los grupos
    • ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices Davies-
    • Bouldin, SD, S_Dbw y Silueta, FOM, Modularidad y las medidas RST
    • SINO aplicar Índice C, Similitud Global, Expansión y Conductancia,
    • Conectividad parcial pesada, Densidad esperada, tendencia del
    • agrupamiento y medida de la fortaleza de las conexiones
    • SI desea validar ponderando los grupos por su cardinalidad
    • ENTONCES aplicar Conectividad parcial pesada, Densidad esperada,
    • y las medidas precisión y calidad generalizadas
    • SI desea validar considerando diversas formas de ponderación
    • ENTONCES aplicar medidas precisión y calidad generalizadas
    • SI los grupos obtenidos tienen diversos tamaños
    • ENTONCES no aplicar índices C y SD, FOM, Expansión y Conductancia
    • SI el método de agrupamiento utilizó representación en grafos
    • ENTONCES aplicar Expansión, conductancia, Conectividad parcial pesada,
    • densidad esperada, modularidad, índices de tendencia, fortaleza e
    • interacciones, y medidas RST
    • SI se desean combinar en una misma medida varios criterios O
    • dado un cálculo inicial común aplicar medir varias propiedades
    • ENTONCES aplicar medidas basadas en RST