Cluster No Jerarquico
Upcoming SlideShare
Loading in...5
×
 

Cluster No Jerarquico

on

  • 1,755 views

Exposición de Tecnologías de apoyo a la logística..

Exposición de Tecnologías de apoyo a la logística..

Statistics

Views

Total Views
1,755
Views on SlideShare
1,753
Embed Views
2

Actions

Likes
0
Downloads
11
Comments
0

1 Embed 2

http://www.slideshare.net 2

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Cluster No Jerarquico Cluster No Jerarquico Presentation Transcript

  • Tecnología de Apoyo a la Logística Clusterización No Jerárquica
    • Integrantes:
    • Omar Rincón
    • Hamilton Mendoza
    • Cristofer Morán
    • Franklin Vega
  • Introducción
    • Clustering
    • Se basa en intentar responder como es que ciertos Objetos (casos) pertenecen o “caen” naturalmente en cierto número de clases o grupos, de tal manera que estos objetos comparten ciertas características.
    • Esta definición asume que los objetos pueden dividirse , razonablemente, en grupos que contienen objetos similares. Si tal división existe, ésta puede estar oculta y debe ser descubierta.
    • Objeto
      • Es un dato, el cual esta formado por un conjunto finito de variables.
    • Variables
      • Numéricas: son números reales en general
      • Nominales : Son variables discretas pero que no tienen un orden especificado (color de ojos)
      • Ordinales: Son variables discretas con una relación de orden (Temporal Alta, Media, Baja)
      • Binarias: solo pueden tomar dos estados posibles (dicotómicas)
  • Cluster No Jerárquico En los cluster no jerárquicos los datos se dividen en k particiones o grupos donde cada partición representa un cluster. Opuestamente a los métodos jerárquicos el número de cluster debe conocerse a priori. Básicamente siguen los siguientes pasos: 1.- Seleccionar K centroides iniciales, siendo K el número de clusters deseados. 2.- Asignar cada observación al cluster que le sea más cercano. 3.- Reasignar o relocalizar cada observación a uno de los K cluster de acuerdo con alguna regla de parada. 4.- Parar si no hay reasignación de los puntos o si la reasignación satisface la regla de parada. En otro caso se vuelve al paso dos.
    • La mayoría de los algoritmos no jerárquicos difieren con respecto a:
    • El procedimiento para obtener los centroides iniciales.
    • La regla que se usa para reasignar las observaciones
    • 1.- Seleccionar las K primeras observaciones como centroides.
    • 2.- Seleccionar la primera observación como centroide del primer cluster, el centroide del segundo cluster selecciona de forma que la distancia al centroide previo sea mayor que una cierta distancia. El tercero de forma que su distancia al anterior sea superior a una distancia, etc.
    • 3.- Seleccionar K observaciones al azar.
    • 4.- El investigador da los centroides.
    • 5.- Refinar los núcleos seleccionados usando ciertas reglas, como por ejemplo, que estén lo más separados posible.
    Métodos para Obtener k Centroides Iniciales
    • Algunas reglas son:
    • • 1.- Calcular el centroide de cada cluster y asignar sujetos al cluster cuyo centroide esté más próximo . Los centroides no se recalculan hasta que se han asignado todas las observaciones a los K clusters. Cuando las asignaciones totales están hechas se recalcula el nuevo centroide.
    • Si el cambio producido en los centroides de los cluster es mayor que algún criterio de convergencia seleccionado entonces se vuelve a repetir el proceso. Esto continua hasta que el cambio en el centroide es menor que una cierta cantidad prefijada (criterio de convergencia).
    • • 2.- Se calcula el centroide para cada cluster y se asignan sujetos a los clusters cuyo centroide esté más próximo. Cuando una observación es asignada a un cluster se recalcula el centroide del cluster al que llega el individuo y el centroide del cluster del que sale. La reasignación sigue hasta que el cambio en los centroides sea menor que algún valor prefijado (criterio de convergencia).
    Reasignación de los Sujetos a los K Clusters
  • ¿Qué método de Cluster es mejor?
    • Cluster jerárquicos:
    • No requieren un conocimiento a priori del número de cluster o de la partición de partida.
    • Los jerárquicos se usan a menudo con fines exploratorios y la solución resultante se utiliza en los no jerárquicos para afinar la solución.
    • Ambas técnicas podrían verse como métodos complementarios y no como competitivos.
    • Cluster no jerárquicos:
    • Necesitan conocimiento previo del número de cluster.
    • Hemos de identificar los centros de los cluster antes de que la técnica pueda proceder con las observaciones.
    • Los algoritmos son muy sensibles a las particiones iniciales.
  • Ejemplo
    • Tenemos información correspondiente a los posibles usuarios de una empresa.
    • 100 observaciones (clientes) a los que se les ha pasado una encuesta en la que se le
    • hacen preguntas de percepción sobre 7 atributos importantes en la elección de una
    • empresa por parte de los usuarios.
    • • X1 = Velocidad de entrega
    • • X2= Nivel de precios
    • • X3= Flexibilidad de precios
    • • X4= Imagen del fabricante
    • • X5= Servicio conjunto
    • • X6 =Imagen de fuerza de ventas
    • • X7= calidad del producto
    • • También se le hacen otro tipo de preguntas como nivel de fiabilidad, o nivel de satisfacción....pero no son tenidas en cuenta en el análisis.
    • Nota: Ejemplo tomado de Hair et al (1999)
  • Primer Paso Objetivos del análisis
    • Segmentar la población de clientes en grupos con percepciones similares de la empresa.
    • Cuando esto se consiga la empresa puede formular estrategias con diferentes atractivos para los distintos grupos.
    • Algo importante es que los 7 atributos utilizados son importantes en alcance y detalle. Las variables utilizadas tienen suficiente valor predictivo como para justificar su uso.
  • Segundo Paso Diseño del Análisis
    • • Lo primero será identificare cualquier atípico de la muestra. Al realizar el examen de los 100 individuos no se detecta ninguna anomalía.
    • • El siguiente paso implica elegir una medida de similaridad. Como todas las variables son métricas elegimos la distancia euclídea.
    • • No se considera ninguna estandarización por que todas las variables están medidas en la misma escala .
  • Tercer Paso Supuestos del análisis
    • • La muestra se considera representativa y el análisis de multicolinealidad señala niveles mínimos que no deberían influir en el cluster.
  • Cuarto Paso Obtención de Grupos y Valoración del Ajuste
    • • Elegimos como procedimiento una combinación de jerárquicos y no jerárquicos
    • • En el jerárquico se obtienen unos cluster que se utilizarán luego como centroides de los métodos no jerárquico s para refinar la posible solución.